歡迎來到離散分佈的世界!

在本章中,我們將探討統計學家工具箱中最核心的兩個工具:二項分佈 (Binomial Distribution)泊松分佈 (Poisson Distribution)。它們都屬於「離散」分佈,這意味著它們處理的是我們可以數得出來的數據(例如擲硬幣出現正面的次數,或是一小時內你收到的電郵數量)。

如果這些名詞聽起來有點深奧,別擔心!讀完這份筆記後,你會發現它們其實只是描述現實生活中某事「發生機率」的數學工具而已。讓我們開始吧!

1. 二項分佈(快速重溫)

你可能還記得在 S1 課程中學過的二項分佈。當我們有固定次數的試驗,並想找出「成功」次數時,就會使用它。

關鍵條件 (BINS 記憶法)

要使用二項分佈模型 \(X \sim \text{B}(n, p)\),必須符合以下四個條件:

  • B – Binary (二元): 結果只有兩種(成功或失敗)。
  • I – Independent (獨立): 每次試驗互不影響。
  • N – Number (數量): 試驗次數是固定的 (\(n\))。
  • S – Same probability (機率相同): 每次成功的機率 (\(p\)) 保持不變。

平均值與變異數

對於二項分佈,你需要記住這兩個簡單的公式(不需要推導!):

平均值 (期望值): \(E(X) = np\)
變異數: \(\text{Var}(X) = np(1 - p)\)

例子: 如果你拋一枚公正硬幣 10 次,你預期出現正面的次數為 \(10 \times 0.5 = 5\)。

快速回顧: 二項分佈適用於固定次數的試驗,且你需要計算成功次數的情況。

2. 泊松分佈

二項分佈關注的是固定次數的試驗,而 泊松分佈 (Poisson Distribution) 則關注事件在固定的時間或空間區間內發生的次數。

我們何時使用泊松分佈?

想像一下,你站在街角計算 10 分鐘內有多少輛車經過,或是計算一塊餅乾裡有多少粒巧克力豆。這些都是典型的泊松分佈情境!

我們將其表示為:\(X \sim \text{Po}(\lambda)\)

其中 \(\lambda\)(希臘字母 lambda)是事件發生的平均速率

泊松模型的條件

要使用泊松分佈來建模,事件必須符合以下條件:

  • 獨立地發生: 一輛車經過不會影響另一輛車經過的機率。
  • 單一地發生: 兩個事件不可能在同一瞬間發生。
  • 以恆定的平均速率發生: 在整個區間內,每分鐘發生的平均事件數保持不變。
  • 隨機地發生: 你無法預測下一個事件確切會在何時發生。

泊松分佈公式

若要計算剛好發生 \(x\) 次事件的機率:

\(P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}\)

注意:\(e\) 是一個常數,約等於 2.718,而 \(x!\) 是「x 階乘」。

平均值與變異數

這裡有一個關於泊松分佈的小撇步,非常容易記:

平均值: \(E(X) = \lambda\)
變異數: \(\text{Var}(X) = \lambda\)

在泊松分佈中,平均值與變異數是相等的!如果題目給你的數據中平均值與變異數相差很大,那麼泊松模型可能就不適用了。

你知道嗎?

泊松分佈是以法國數學家 Siméon Denis Poisson 的名字命名的。有趣的是,「Poisson」在法文中剛好就是「魚」的意思!

重點總結: 當事件以恆定速率時間或空間中發生時,請使用泊松分佈。其平均值與變異數皆等於 \(\lambda\)。

3. 泊松分佈的加法特性

泊松分佈最實用的特性之一,就是 \(\lambda\) 可以根據區間的大小進行相應的縮放。

調整區間

如果你的電郵收件頻率為 \(X \sim \text{Po}(2)\)(每小時),那麼:

  • 在 2 小時內,分佈為 \(\text{Po}(2 \times 2) = \text{Po}(4)\)。
  • 在 30 分鐘(半小時)內,分佈為 \(\text{Po}(2 \times 0.5) = \text{Po}(1)\)。

相加獨立變數

如果你有兩個獨立的泊松變數 \(X \sim \text{Po}(\lambda)\) 與 \(Y \sim \text{Po}(\mu)\),它們的總和同樣符合泊松分佈:

\(X + Y \sim \text{Po}(\lambda + \mu)\)

小貼士: 一定要確保你的 \(\lambda\) 與題目問句中的時間範圍一致!

4. 用泊松分佈近似二項分佈

有時候,計算二項分佈機率非常困難,因為 \(n\) 很大(例如 1,000)而 \(p\) 極小(例如 0.001)。在這種情況下,我們可以使用泊松分佈作為快捷方式。

何時可以使用近似?

當以下條件滿足時,我們可以使用 \(X \sim \text{Po}(np)\) 來近似 \(X \sim \text{B}(n, p)\):

  • \(n\) 夠大(通常 \(n > 50\))
  • \(p\) 夠小(通常 \(p < 0.1\))

新的平均值 \(\lambda\) 就是 \(n \times p\)。

類比: 想像試著統計巨大體育場裡有多少人和你同月同日生。人數 (\(n\)) 非常多,但每個人符合條件的機率 (\(p\)) 很小。泊松模型在這裡就非常適用!

常見錯誤: 同學們常忘記檢查 \(p\) 是否夠小。如果 \(p\) 接近 0.5,你應該使用常態分佈(之後會學到),而不是泊松分佈。

5. 處理累積機率

在考試中,你常會被問到「最多」或「多於」某個數值的機率。你可以利用考試提供的統計表格 (Statistical Tables) 來節省時間。

「至少」問題的步驟:

如果要在泊松分佈中計算 \(P(X \geq 3)\):

  1. 記得總機率永遠為 1。
  2. 找出「至少 3」的相反情況,即「2 或以下」。
  3. 使用公式:\(P(X \geq 3) = 1 - P(X \leq 2)\)。
  4. 在泊松分佈表中查出對應你 \(\lambda\) 值的 \(P(X \leq 2)\)。

鼓勵一下: 如果表中沒有你所需的確切 \(\lambda\) 值,或者題目要求計算如 \(P(X = 4)\) 的特定數值,直接使用公式或計算機的分佈函數通常會更安全、更簡單!

總結:選擇正確的模型

最後,當你遇到問題時,請嘗試問自己這些問題:

  • 試驗次數是否固定? 是 \(\rightarrow\) 二項分佈
  • 時間/空間中是否有恆定速率? 是 \(\rightarrow\) 泊松分佈
  • \(n\) 巨大而 \(p\) 微小嗎? 是 \(\rightarrow\) 泊松近似

重點總結: 統計學的關鍵在於挑選正確的「模型形狀」來描述數據。只要掌握了二項分佈與泊松分佈的條件,你就已經成功了一半!