數學 (9709) 溫習筆記:概率與統計 2 (卷 6)
6.1 泊松分佈 (Poisson Distribution)
歡迎來到泊松分佈的世界!這章節對於卷 6 而言至關重要。二項分佈處理的是「固定次數」試驗中的成功次數,而泊松分佈則幫助我們建立在特定時間間隔或空間範圍內隨機發生的事件模型。你可以把它想像成是在統計「罕見事件」的發生次數!
如果剛開始覺得有些棘手,不用擔心。掌握泊松分佈的關鍵在於了解它的使用條件,並記住那些重要的近似法。
1. 理解泊松分佈模型
泊松分佈,記作 \(X \sim \text{Po}(\lambda)\),是一個離散隨機變量,用於計算事件在固定區間(時間、面積、體積等)內發生的次數。
什麼時候應該用泊松分佈?(適用條件)
一個隨機變量 \(X\) 若要用泊松分佈建模,必須滿足以下條件:
- 事件獨立發生:一個事件的發生不會影響另一個事件發生的機率。
- 事件單個發生:兩個事件不能在同一瞬間完全重疊發生。(例如:從數學嚴謹的角度來說,兩輛車不能在同一瞬間到達路口)。
- 發生率 (\(\lambda\)) 為常數:在整個區間內,平均發生率 \(\lambda\) 必須保持恆定。此速率通常與區間的大小成正比。
關鍵詞:平均發生率參數 (\(\lambda\))
\(\lambda\)(讀作 "lambda")代表在指定區間內的平均發生次數。如果題目給出的區間與原本不同,你必須按比例調整 \(\lambda\)。
例子:如果總機的平均通話量為每分鐘 4 次,那麼在 5 分鐘的間隔內,\(\lambda = 4 \times 5 = 20\)。
本節要點 (第 1 節)
泊松分佈用於計算固定空間或時間內隨機、罕見且獨立事件的發生次數,並受平均發生率 \(\lambda\) 控制。
2. 泊松分佈概率公式
要計算剛好觀察到 \(r\) 次事件的機率,我們使用公式表 (MF19) 中提供的公式:
若 \(X \sim \text{Po}(\lambda)\),則發生 \(r\) 次的機率為:
$$P(X=r) = \frac{e^{-\lambda} \lambda^r}{r!}$$
其中:
- \(e\) 是自然對數的底數(約為 2.718)。
- \(\lambda\) 是平均發生率參數。
- \(r\) 是我們感興趣的具體發生次數 (\(r = 0, 1, 2, 3, \dots\))。
- \(r!\) 是 \(r\) 的階乘。
計算步驟示例
假設頁面上錯誤的平均數為 \(\lambda = 1.5\)。求頁面剛好有 3 個錯誤的機率,即 \(P(X=3)\)。
- 識別參數:\(\lambda = 1.5\),\(r = 3\)。
- 代入公式:$$P(X=3) = \frac{e^{-1.5} (1.5)^3}{3!}$$
- 計算:$$P(X=3) = \frac{(0.22313) \times (3.375)}{6} \approx 0.1255$$
計算累積概率
由於泊松分佈是離散的,請記住:
- \(P(X \le r) = P(X=0) + P(X=1) + \dots + P(X=r)\)。
- \(P(X > r) = 1 - P(X \le r)\)。
- \(P(X \ge r) = 1 - P(X \le r-1)\)。
記憶小撇步:如果你需要求 \(P(X \ge 5)\),你需要計算 \(1 - [P(X=0) + P(X=1) + P(X=2) + P(X=3) + P(X=4)]\)。
本節要點 (第 2 節)
使用公式 \(P(X=r) = \frac{e^{-\lambda} \lambda^r}{r!}\) 來計算精確概率,並記住處理「小於或等於」或「大於」等累積概率時的標準規則。
3. 平均數與變異數
泊松分佈最優雅的特性之一,就是其平均數與變異數之間的關係。
泊松分佈的黃金法則
若 \(X \sim \text{Po}(\lambda)\),則:
$$E(X) = \lambda$$ $$Var(X) = \lambda$$
這意味著平均數與變異數完全相同,皆等於發生率參數 \(\lambda\)。
你知道嗎?這種相等關係 ($E(X) = \text{Var}(X)$) 有時會在實務中用於檢驗泊松模型是否適用於現實數據。如果觀察到的平均數與變異數差異很大,該模型可能就不適用了。
本節要點 (第 3 節)
對於泊松分佈,\(\text{平均數} = \text{變異數} = \lambda\)。
4. 二項分佈的泊松近似
有時候,問題看起來像是二項分佈的情境,但數值太大,導致計算二項概率變得不切實際甚至不可能(想像一下計算 \(\binom{1000}{3}\)!)。這時,泊松分佈作為一種有效的近似工具就派上用場了。
回顧:\(X \sim B(n, p)\) 需要固定次數的試驗 \(n\)。
Po \(\approx\) B 的適用條件
當滿足以下條件時,可以使用泊松分佈來近似二項分佈 $B(n, p)$:
- \(n\) 很大(試驗次數很多)。
- \(p\) 很小(成功的概率很低)。
課程大綱建議以下近似準則作為有效判斷標準:
$$n > 50 \quad \text{且} \quad np < 5$$
如何設定泊松參數 \(\lambda\):
進行近似時,平均發生率 \(\lambda\) 使用二項分佈的平均數來計算:
$$\lambda = np$$
例子:一家工廠每天生產 500 件產品。產品有缺陷的機率是 0.005。設 X 為缺陷產品的數量。
二項分佈:\(X \sim B(500, 0.005)\)。這裡 \(n=500\)(很大)且 \(p=0.005\)(很小)。
泊松近似:計算 \(\lambda = np = 500 \times 0.005 = 2.5\)。我們使用 \(X \sim \text{Po}(2.5)\)。
常見錯誤警報!
一定要檢查條件。如果 \(n\) 很大但 \(p\) 也很大(例如 \(p=0.9\)),或者 \(n\) 很小,那麼泊松近似是無效的。此時你應該使用二項分佈的正態近似(若 \(np > 5\) 且 \(nq > 5\)),或者堅持進行精確的二項分佈計算。
本節要點 (第 4 節)
如果 \(n\) 很大且 \(p\) 很小 ($\lambda = np < 5$),請使用近似值 \(B(n, p) \approx \text{Po}(\lambda)\),其中 \(\lambda = np\)。
5. 泊松分佈的正態近似
正如泊松分佈在參數極端時可近似二項分佈,當 \(\lambda\) 非常大時,正態分佈也可以近似泊松分佈。
N \(\approx\) Po 的適用條件
當 \(\lambda\) 很大時,可以使用正態分佈 \(N(\mu, \sigma^2)\) 來近似泊松分佈 \(X \sim \text{Po}(\lambda)\)。
$$\lambda \text{ 很大}$$
課程大綱建議以下標準:
$$\lambda > 15 \text{ (大約)}$$
設定正態分佈參數
由於泊松分佈的平均數和變異數皆為 \(\lambda\):
$$\mu = \lambda$$ $$\sigma^2 = \lambda$$
因此,我們使用以下近似:$$X \sim N(\lambda, \lambda)$$
連續性修正 (Continuity Correction, CC) - 關鍵步驟!
泊松分佈是離散的(處理整數:0, 1, 2, ...),但正態分佈是連續的。當從離散轉換到連續時,我們必須通過調整邊界值 0.5 來應用連續性修正 (CC)。
這是學生最容易失分的地方!記得腦海中要想像概率的「區塊」。
| 離散概率 | 連續近似 (Y) | 解釋 | |---|---|---| | \(P(X=r)\) | \(P(r - 0.5 < Y < r + 0.5)\) | 取中心在 \(r\) 的整個區塊。 | | \(P(X \le r)\) | \(P(Y < r + 0.5)\) | 包含直到 \(r\) 的整個區塊。 | | \(P(X < r)\) | \(P(Y < r - 0.5)\) | 不包含 \(r\) 的區塊。 | | \(P(X \ge r)\) | \(P(Y > r - 0.5)\) | 包含從 \(r\) 開始的區塊。 | | \(P(X > r)\) | \(P(Y > r + 0.5)\) | 不包含 \(r\) 的區塊。 |類比:想像一張柱狀圖(離散次數)。如果你想要 \(P(X \le 5)\),你需要累加直到 5 為止的所有柱狀。在連續意義上,代表 5 的柱狀延伸範圍是從 4.5 到 5.5,因此你必須積分直到 5.5。
計算步驟示例 (N \(\approx\) Po)
設 \(X \sim \text{Po}(18)\)。利用正態近似計算 \(P(X \le 20)\)。
- 檢查條件:\(\lambda = 18\)。由於 \(18 > 15\),近似適用。
- 定義正態近似參數:\(\mu = 18\),\(\sigma^2 = 18\)。\(\sigma = \sqrt{18} \approx 4.243\)。
- 應用連續性修正:\(P(X \le 20) \rightarrow P(Y < 20.5)\)。
- 標準化:使用 \(Z = \frac{Y - \mu}{\sigma}\)。 $$Z = \frac{20.5 - 18}{\sqrt{18}} = \frac{2.5}{4.2426} \approx 0.589$$
- 查正態分佈表 (MF19):\(P(Z < 0.589)\)。
查表得,\(\Phi(0.589) \approx 0.7224\)。
因此,\(P(X \le 20) \approx 0.7224\)。
本節要點 (第 5 節)
如果 \(\lambda\) 很大 ($\lambda > 15$),使用近似 \(X \sim N(\lambda, \lambda)\),並且在從離散 \(X\) 轉換到連續 \(Y\) 時,絕對不要忘記連續性修正。
快速複習總結:如何選擇合適的分佈
當處理涉及計數的概率問題時,請使用以下清單:
- 精確泊松:如果沒有提及 \(n\),且事件在間隔內隨機發生。使用 $P(X=r) = \frac{e^{-\lambda} \lambda^r}{r!}$。
- 泊松近似:如果已知 \(n\) 且很大 ($n>50$),且 \(p\) 很小 ($np < 5$)。使用 $\lambda = np$。
- 泊松的正態近似:如果 \(\lambda\) 很大 ($\lambda > 15$)。使用 $N(\lambda, \lambda)$ 並加上連續性修正。
除錯角落:常見錯誤避雷針
1. 忘記調整 \(\lambda\):如果題目給的是每小時的平均值,但問的是 30 分鐘的情況,請將你的 \(\lambda\) 除以 2!
2. 連續性修正錯誤:學生經常在應用修正時混淆 \(P(X < r)\) 和 \(P(X \le r)\)。請務必根據邊界點是否包含在內,正確使用 $\pm 0.5$。
3. 誤用平均數/變異數:記住對於泊松分佈(及其正態近似),平均數和變異數相等:\(\mu = \sigma^2 = \lambda\)。