歡迎來到離散分佈的世界!
在本章中,我們將探討統計學家工具箱中最核心的兩個工具:二項分佈 (Binomial Distribution) 與 泊松分佈 (Poisson Distribution)。它們都屬於「離散」分佈,這意味著它們處理的是我們可以數得出來的數據(例如擲硬幣出現正面的次數,或是一小時內你收到的電郵數量)。
如果這些名詞聽起來有點深奧,別擔心!讀完這份筆記後,你會發現它們其實只是描述現實生活中某事「發生機率」的數學工具而已。讓我們開始吧!
1. 二項分佈(快速重溫)
你可能還記得在 S1 課程中學過的二項分佈。當我們有固定次數的試驗,並想找出「成功」次數時,就會使用它。
關鍵條件 (BINS 記憶法)
要使用二項分佈模型 \(X \sim \text{B}(n, p)\),必須符合以下四個條件:
- B – Binary (二元): 結果只有兩種(成功或失敗)。
- I – Independent (獨立): 每次試驗互不影響。
- N – Number (數量): 試驗次數是固定的 (\(n\))。
- S – Same probability (機率相同): 每次成功的機率 (\(p\)) 保持不變。
平均值與變異數
對於二項分佈,你需要記住這兩個簡單的公式(不需要推導!):
平均值 (期望值): \(E(X) = np\)
變異數: \(\text{Var}(X) = np(1 - p)\)
快速回顧: 二項分佈適用於固定次數的試驗,且你需要計算成功次數的情況。
2. 泊松分佈
二項分佈關注的是固定次數的試驗,而 泊松分佈 (Poisson Distribution) 則關注事件在固定的時間或空間區間內發生的次數。
我們何時使用泊松分佈?
想像一下,你站在街角計算 10 分鐘內有多少輛車經過,或是計算一塊餅乾裡有多少粒巧克力豆。這些都是典型的泊松分佈情境!
我們將其表示為:\(X \sim \text{Po}(\lambda)\)
其中 \(\lambda\)(希臘字母 lambda)是事件發生的平均速率。
泊松模型的條件
要使用泊松分佈來建模,事件必須符合以下條件:
- 獨立地發生: 一輛車經過不會影響另一輛車經過的機率。
- 單一地發生: 兩個事件不可能在同一瞬間發生。
- 以恆定的平均速率發生: 在整個區間內,每分鐘發生的平均事件數保持不變。
- 隨機地發生: 你無法預測下一個事件確切會在何時發生。
泊松分佈公式
若要計算剛好發生 \(x\) 次事件的機率:
\(P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}\)
注意:\(e\) 是一個常數,約等於 2.718,而 \(x!\) 是「x 階乘」。
平均值與變異數
這裡有一個關於泊松分佈的小撇步,非常容易記:
平均值: \(E(X) = \lambda\)
變異數: \(\text{Var}(X) = \lambda\)
在泊松分佈中,平均值與變異數是相等的!如果題目給你的數據中平均值與變異數相差很大,那麼泊松模型可能就不適用了。
你知道嗎?
泊松分佈是以法國數學家 Siméon Denis Poisson 的名字命名的。有趣的是,「Poisson」在法文中剛好就是「魚」的意思!
重點總結: 當事件以恆定速率在時間或空間中發生時,請使用泊松分佈。其平均值與變異數皆等於 \(\lambda\)。
3. 泊松分佈的加法特性
泊松分佈最實用的特性之一,就是 \(\lambda\) 可以根據區間的大小進行相應的縮放。
調整區間
如果你的電郵收件頻率為 \(X \sim \text{Po}(2)\)(每小時),那麼:
- 在 2 小時內,分佈為 \(\text{Po}(2 \times 2) = \text{Po}(4)\)。
- 在 30 分鐘(半小時)內,分佈為 \(\text{Po}(2 \times 0.5) = \text{Po}(1)\)。
相加獨立變數
如果你有兩個獨立的泊松變數 \(X \sim \text{Po}(\lambda)\) 與 \(Y \sim \text{Po}(\mu)\),它們的總和同樣符合泊松分佈:
\(X + Y \sim \text{Po}(\lambda + \mu)\)
小貼士: 一定要確保你的 \(\lambda\) 與題目問句中的時間範圍一致!
4. 用泊松分佈近似二項分佈
有時候,計算二項分佈機率非常困難,因為 \(n\) 很大(例如 1,000)而 \(p\) 極小(例如 0.001)。在這種情況下,我們可以使用泊松分佈作為快捷方式。
何時可以使用近似?
當以下條件滿足時,我們可以使用 \(X \sim \text{Po}(np)\) 來近似 \(X \sim \text{B}(n, p)\):
- \(n\) 夠大(通常 \(n > 50\))
- \(p\) 夠小(通常 \(p < 0.1\))
新的平均值 \(\lambda\) 就是 \(n \times p\)。
類比: 想像試著統計巨大體育場裡有多少人和你同月同日生。人數 (\(n\)) 非常多,但每個人符合條件的機率 (\(p\)) 很小。泊松模型在這裡就非常適用!常見錯誤: 同學們常忘記檢查 \(p\) 是否夠小。如果 \(p\) 接近 0.5,你應該使用常態分佈(之後會學到),而不是泊松分佈。
5. 處理累積機率
在考試中,你常會被問到「最多」或「多於」某個數值的機率。你可以利用考試提供的統計表格 (Statistical Tables) 來節省時間。
「至少」問題的步驟:
如果要在泊松分佈中計算 \(P(X \geq 3)\):
- 記得總機率永遠為 1。
- 找出「至少 3」的相反情況,即「2 或以下」。
- 使用公式:\(P(X \geq 3) = 1 - P(X \leq 2)\)。
- 在泊松分佈表中查出對應你 \(\lambda\) 值的 \(P(X \leq 2)\)。
鼓勵一下: 如果表中沒有你所需的確切 \(\lambda\) 值,或者題目要求計算如 \(P(X = 4)\) 的特定數值,直接使用公式或計算機的分佈函數通常會更安全、更簡單!
總結:選擇正確的模型
最後,當你遇到問題時,請嘗試問自己這些問題:
- 試驗次數是否固定? 是 \(\rightarrow\) 二項分佈。
- 時間/空間中是否有恆定速率? 是 \(\rightarrow\) 泊松分佈。
- \(n\) 巨大而 \(p\) 微小嗎? 是 \(\rightarrow\) 泊松近似。
重點總結: 統計學的關鍵在於挑選正確的「模型形狀」來描述數據。只要掌握了二項分佈與泊松分佈的條件,你就已經成功了一半!