歡迎來到單元 S2:二項分佈與卜瓦松分佈!

你好,未來的統計學家!這一章節非常重要,因為它不僅僅是描述數據,更讓我們能夠建立模型並預測現實生活中事件發生的機率。如果之前覺得機率的概念很抽象,別擔心——我們將會把這兩個關鍵分佈(二項分佈和卜瓦松分佈)拆解成簡單易懂的步驟。學完這一章,你將能夠判斷該使用哪種模型,並學會如何計算計數結果的精確機率!

讓我們開始吧!


第 1 節:離散隨機變數快速複習

在進入具體的模型之前,請記住二項分佈和卜瓦松分佈處理的都是離散隨機變數 (Discrete Random Variables),\(X\)。

  • 離散隨機變數是指其可能取值是可數的(通常為整數)變數。
  • 它代表的是計數結果,而非測量值(例如身高或體重)。
  • 例子:擲 10 次硬幣時出現正面的次數、一小時內收到的郵件數量。

第 2 節:二項分佈 \(B(n, p)\)

當我們有固定次數的獨立試驗,且每次試驗只有兩種可能的結果時,二項分佈能幫助我們計算機率。

4.1. 二項分佈的條件 (BINS)

隨機變數 \(X\) 必須滿足四個嚴格條件才能使用二項分佈進行建模。請使用助記詞 BINS 來記憶:

  1. Binary outcomes(二元結果):每次試驗必須產生「成功」或「失敗」。
  2. Independent trials(獨立試驗):一次試驗的結果不會影響其他任何試驗的結果。
  3. Number of trials is fixed(試驗次數固定):我們必須預先知道試驗次數 \(n\)。
  4. Same probability(機率相同):每次試驗的成功機率 \(p\) 必須保持不變。

類比:想像你在投籃。\(n\) 是你投籃的次數(固定)。\(p\) 是你的成功率(不變)。每一次投籃都是獨立的,結果不是「成功」(進球)就是「失敗」(沒進)。

4.2. 符號與公式

若 \(X\) 服從二項分佈,記作:

\(X \sim B(n, p)\)

其中:

  • \(n\) 為試驗次數。
  • \(p\) 為單次試驗的成功機率。

在 \(n\) 次試驗中恰好獲得 \(x\) 次成功的機率公式為:

\[ P(X=x) = \binom{n}{x} p^x (1-p)^{n-x} \]

其中:

  • \(\binom{n}{x}\)(讀作「n 選 x」)是 \(n\) 次試驗中排列 \(x\) 次成功的方法數。
  • \(1-p\) 通常記作 \(q\),即失敗的機率。
機率計算步驟範例

例子:一枚有偏差的硬幣,出現正面的機率為 0.6。如果投擲 5 次,獲得恰好 3 次正面的機率是多少?

此處 \(n=5\),\(p=0.6\),且我們希望 \(x=3\)。因此 \((1-p) = 0.4\)。

  1. 計算排列方式數:\(\binom{5}{3} = 10\)。
  2. 計算 3 次成功的機率:\((0.6)^3 = 0.216\)。
  3. 計算 2 次失敗的機率:\((0.4)^{5-3} = (0.4)^2 = 0.16\)。
  4. 相乘得到結果:\(P(X=3) = 10 \times 0.216 \times 0.16 = 0.3456\)。

4.3. 平均值、變異數與標準差

對於二項分佈,計算期望成功次數 \(E(X)\) 和變異數 \(Var(X)\) 非常直接。你不需要使用離散變數的通用公式。

平均值(期望值)

\[ E(X) = np \]

變異數

\[ Var(X) = np(1-p) \]

標準差

\[ SD(X) = \sqrt{np(1-p)} \]

記憶小撇步:期望值就是直覺想到的:總試驗次數乘以成功機率。變異數則是該期望值再乘以失敗機率 (\(1-p\))。

二項分佈快速複習:
  • 條件: BINS(二元結果、獨立、固定 \(N\)、相同 \(P\))。
  • 符號: \(X \sim B(n, p)\)。
  • 關鍵公式: \(E(X) = np\) 以及 \(Var(X) = np(1-p)\)。

第 3 節:卜瓦松分佈 \(Po(\lambda)\)

卜瓦松分佈用於為固定時間或空間區間內事件發生的次數建模。與二項分佈不同,它沒有固定的上限 (\(n\))。

5.1. 卜瓦松分佈的條件

隨機變數 \(X\) 必須滿足以下條件:

  1. 事件單獨發生(一次發生一個,而非同時發生)。
  2. 事件以固定的平均速率發生。
  3. 事件之間以及與距離上次事件的時間是獨立的。
  4. 事件在時間或空間上是隨機發生的。

類比:想像計算上午 9 點到 10 點之間服務台接到的電話數量。你知道平均速率(\(\lambda\),假設為每小時 5 通),但總通話數可能是 0、5、10 甚至 100!

5.2. 符號與公式

若 \(X\) 服從卜瓦松分佈,記作:

\(X \sim Po(\lambda)\)

其中 \(\lambda\) (lambda) 為平均發生速率(給定區間內的平均事件數)。

發生恰好 \(x\) 次的機率公式為:

\[ P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!} \]

其中:

  • \(e\) 是自然對數的底數 (\(e \approx 2.71828\))。
  • \(x!\) 是 \(x\) 的階乘 (\(x \times (x-1) \times \dots \times 1\))。

5.3. 調整 \(\lambda\)(最常見的錯誤!)

注意! \(\lambda\) 是與題目指定的區間掛鉤的。如果時間或空間區間發生變化,你必須調整 \(\lambda\)。

例子:如果平均每小時收到的簡訊數是 \(\lambda = 6\),那麼:

  • 若區間為 30 分鐘(半小時),新速率 \(\lambda_{new} = 6 \times 0.5 = 3\)。
  • 若區間為 2 小時,新速率 \(\lambda_{new} = 6 \times 2 = 12\)。

請務必檢查 \(\lambda\) 的時間區間是否與計算機率所需的區間相符。

5.4. 平均值與變異數

卜瓦松分佈最顯著的特徵之一就是其平均值與變異數之間的關係。

平均值(期望值)

\[ E(X) = \lambda \]

變異數

\[ Var(X) = \lambda \]

你知道嗎?因為 \(E(X) = Var(X) = \lambda\),所以在測試數據是否符合卜瓦松模型時,首要檢查之一就是樣本平均值是否約等於樣本變異數。

卜瓦松分佈快速複習:
  • 條件: 事件獨立、隨機、單獨發生,且速率恆定。
  • 符號: \(X \sim Po(\lambda)\)。
  • 關鍵公式: \(E(X) = \lambda\) 以及 \(Var(X) = \lambda\)。
  • 關鍵步驟: 若時間/空間區間改變,必須調整 \(\lambda\)。

第 4 節:卜瓦松近似二項分佈

有時我們會遇到二項分佈的情況,但數字非常大,以至於使用二項分佈公式計算機率變得極其困難或費時(特別是計算 \(\binom{n}{x}\) 時)。

幸運的是,在特定條件下,卜瓦松分佈可以為二項分佈提供一個極佳且簡單的近似。

6.1. 何時使用近似

當滿足以下兩個條件時,我們可以用卜瓦松分佈 \(Po(\lambda)\) 來近似二項分佈 \(B(n, p)\):

  1. \(n\) 很大(試驗次數很多,通常 \(n > 50\))。
  2. \(p\) 很小(成功機率很低,通常 \(p < 0.1\))。

試著這樣想:你有數百萬張彩券(\(n\) 很大),但中獎機率極低(\(p\) 很小)。這種情況符合卜瓦松模型中隨機且罕見的模式。

6.2. 近似規則

如果滿足條件,我們將二項分佈的平均值設定為與卜瓦松分佈的平均值相等:

\[ 設定 \lambda = np \]

因此,近似關係為:

\[ B(n, p) \approx Po(np) \]

接著使用 \(\lambda = np\) 的卜瓦松公式(或查表)來計算機率。

近似範例

某工廠生產的產品瑕疵率為 0.005。若檢查一批 1000 個產品,求恰好有 4 個瑕疵品的機率。

  1. 檢查條件: \(n=1000\)(大),\(p=0.005\)(小)。近似條件有效。
  2. 計算 \(\lambda\): \(\lambda = np = 1000 \times 0.005 = 5\)。
  3. 說明近似: \(X \sim Po(5)\)。
  4. 計算 \(P(X=4)\): 使用 \(\lambda=5\) 和 \(x=4\) 的卜瓦松公式: \[ P(X=4) = \frac{e^{-5} 5^4}{4!} \]

    這比計算 \(\binom{1000}{4} (0.005)^4 (0.995)^{996} \) 要簡單多了。

6.3. 常見陷阱與建議

使用累積分佈表時要小心!

在兩種分佈中,統計表通常給出累計機率 \(P(X \le x)\)。記住這些規則:

  • \(P(X=x) = P(X \le x) - P(X \le x-1)\)
  • \(P(X > x) = 1 - P(X \le x)\)
  • \(P(X \ge x) = 1 - P(X \le x-1)\)

別擔心,一開始覺得棘手是很正常的——多練習細心分辨 \(n\)、\(p\) 和 \(\lambda\)。如果題目涉及在大樣本或長時間內計算罕見事件,請考慮卜瓦松!如果涉及固定次數的試驗且結果只有成功/失敗,請考慮二項分佈!


章節總結:重點速覽

模型識別檢查清單

| 特徵 | 二項分佈 \(B(n, p)\) | 卜瓦松分佈 \(Po(\lambda)\) | |---|---|---| | 目標 | 計算固定試驗次數下的成功次數。 | 計算固定區間(時間/空間)內的發生次數。 | | 試驗次數 | 固定 (n)。 | 無限制(無固定上限)。 | | 關鍵參數 | \(n\)(試驗)及 \(p\)(成功機率)。 | \(\lambda\)(平均速率)。 | | 平均值/變異數 | \(E(X) = np\); \(Var(X) = np(1-p)\)。 | \(E(X) = \lambda\); \(Var(X) = \lambda\)。 | | 近似使用 | 當 \(n\) 大且 \(p\) 小時使用卜瓦松,並令 \(\lambda = np\)。 | 不適用 |