歡迎來到單元 S2:二項分佈與卜瓦松分佈!
你好,未來的統計學家!這一章節非常重要,因為它不僅僅是描述數據,更讓我們能夠建立模型並預測現實生活中事件發生的機率。如果之前覺得機率的概念很抽象,別擔心——我們將會把這兩個關鍵分佈(二項分佈和卜瓦松分佈)拆解成簡單易懂的步驟。學完這一章,你將能夠判斷該使用哪種模型,並學會如何計算計數結果的精確機率!
讓我們開始吧!
第 1 節:離散隨機變數快速複習
在進入具體的模型之前,請記住二項分佈和卜瓦松分佈處理的都是離散隨機變數 (Discrete Random Variables),\(X\)。
- 離散隨機變數是指其可能取值是可數的(通常為整數)變數。
- 它代表的是計數結果,而非測量值(例如身高或體重)。
- 例子:擲 10 次硬幣時出現正面的次數、一小時內收到的郵件數量。
第 2 節:二項分佈 \(B(n, p)\)
當我們有固定次數的獨立試驗,且每次試驗只有兩種可能的結果時,二項分佈能幫助我們計算機率。
4.1. 二項分佈的條件 (BINS)
隨機變數 \(X\) 必須滿足四個嚴格條件才能使用二項分佈進行建模。請使用助記詞 BINS 來記憶:
- Binary outcomes(二元結果):每次試驗必須產生「成功」或「失敗」。
- Independent trials(獨立試驗):一次試驗的結果不會影響其他任何試驗的結果。
- Number of trials is fixed(試驗次數固定):我們必須預先知道試驗次數 \(n\)。
- Same probability(機率相同):每次試驗的成功機率 \(p\) 必須保持不變。
類比:想像你在投籃。\(n\) 是你投籃的次數(固定)。\(p\) 是你的成功率(不變)。每一次投籃都是獨立的,結果不是「成功」(進球)就是「失敗」(沒進)。
4.2. 符號與公式
若 \(X\) 服從二項分佈,記作:
\(X \sim B(n, p)\)
其中:
- \(n\) 為試驗次數。
- \(p\) 為單次試驗的成功機率。
在 \(n\) 次試驗中恰好獲得 \(x\) 次成功的機率公式為:
\[ P(X=x) = \binom{n}{x} p^x (1-p)^{n-x} \]
其中:
- \(\binom{n}{x}\)(讀作「n 選 x」)是 \(n\) 次試驗中排列 \(x\) 次成功的方法數。
- \(1-p\) 通常記作 \(q\),即失敗的機率。
機率計算步驟範例
例子:一枚有偏差的硬幣,出現正面的機率為 0.6。如果投擲 5 次,獲得恰好 3 次正面的機率是多少?
此處 \(n=5\),\(p=0.6\),且我們希望 \(x=3\)。因此 \((1-p) = 0.4\)。
- 計算排列方式數:\(\binom{5}{3} = 10\)。
- 計算 3 次成功的機率:\((0.6)^3 = 0.216\)。
- 計算 2 次失敗的機率:\((0.4)^{5-3} = (0.4)^2 = 0.16\)。
- 相乘得到結果:\(P(X=3) = 10 \times 0.216 \times 0.16 = 0.3456\)。
4.3. 平均值、變異數與標準差
對於二項分佈,計算期望成功次數 \(E(X)\) 和變異數 \(Var(X)\) 非常直接。你不需要使用離散變數的通用公式。
平均值(期望值):
\[ E(X) = np \]
變異數:
\[ Var(X) = np(1-p) \]
標準差:
\[ SD(X) = \sqrt{np(1-p)} \]
記憶小撇步:期望值就是直覺想到的:總試驗次數乘以成功機率。變異數則是該期望值再乘以失敗機率 (\(1-p\))。
二項分佈快速複習:
- 條件: BINS(二元結果、獨立、固定 \(N\)、相同 \(P\))。
- 符號: \(X \sim B(n, p)\)。
- 關鍵公式: \(E(X) = np\) 以及 \(Var(X) = np(1-p)\)。
第 3 節:卜瓦松分佈 \(Po(\lambda)\)
卜瓦松分佈用於為固定時間或空間區間內事件發生的次數建模。與二項分佈不同,它沒有固定的上限 (\(n\))。
5.1. 卜瓦松分佈的條件
隨機變數 \(X\) 必須滿足以下條件:
- 事件單獨發生(一次發生一個,而非同時發生)。
- 事件以固定的平均速率發生。
- 事件之間以及與距離上次事件的時間是獨立的。
- 事件在時間或空間上是隨機發生的。
類比:想像計算上午 9 點到 10 點之間服務台接到的電話數量。你知道平均速率(\(\lambda\),假設為每小時 5 通),但總通話數可能是 0、5、10 甚至 100!
5.2. 符號與公式
若 \(X\) 服從卜瓦松分佈,記作:
\(X \sim Po(\lambda)\)
其中 \(\lambda\) (lambda) 為平均發生速率(給定區間內的平均事件數)。
發生恰好 \(x\) 次的機率公式為:
\[ P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!} \]
其中:
- \(e\) 是自然對數的底數 (\(e \approx 2.71828\))。
- \(x!\) 是 \(x\) 的階乘 (\(x \times (x-1) \times \dots \times 1\))。
5.3. 調整 \(\lambda\)(最常見的錯誤!)
注意! \(\lambda\) 是與題目指定的區間掛鉤的。如果時間或空間區間發生變化,你必須調整 \(\lambda\)。
例子:如果平均每小時收到的簡訊數是 \(\lambda = 6\),那麼:
- 若區間為 30 分鐘(半小時),新速率 \(\lambda_{new} = 6 \times 0.5 = 3\)。
- 若區間為 2 小時,新速率 \(\lambda_{new} = 6 \times 2 = 12\)。
請務必檢查 \(\lambda\) 的時間區間是否與計算機率所需的區間相符。
5.4. 平均值與變異數
卜瓦松分佈最顯著的特徵之一就是其平均值與變異數之間的關係。
平均值(期望值):
\[ E(X) = \lambda \]
變異數:
\[ Var(X) = \lambda \]
你知道嗎?因為 \(E(X) = Var(X) = \lambda\),所以在測試數據是否符合卜瓦松模型時,首要檢查之一就是樣本平均值是否約等於樣本變異數。
卜瓦松分佈快速複習:
- 條件: 事件獨立、隨機、單獨發生,且速率恆定。
- 符號: \(X \sim Po(\lambda)\)。
- 關鍵公式: \(E(X) = \lambda\) 以及 \(Var(X) = \lambda\)。
- 關鍵步驟: 若時間/空間區間改變,必須調整 \(\lambda\)。
第 4 節:卜瓦松近似二項分佈
有時我們會遇到二項分佈的情況,但數字非常大,以至於使用二項分佈公式計算機率變得極其困難或費時(特別是計算 \(\binom{n}{x}\) 時)。
幸運的是,在特定條件下,卜瓦松分佈可以為二項分佈提供一個極佳且簡單的近似。
6.1. 何時使用近似
當滿足以下兩個條件時,我們可以用卜瓦松分佈 \(Po(\lambda)\) 來近似二項分佈 \(B(n, p)\):
- \(n\) 很大(試驗次數很多,通常 \(n > 50\))。
- \(p\) 很小(成功機率很低,通常 \(p < 0.1\))。
試著這樣想:你有數百萬張彩券(\(n\) 很大),但中獎機率極低(\(p\) 很小)。這種情況符合卜瓦松模型中隨機且罕見的模式。
6.2. 近似規則
如果滿足條件,我們將二項分佈的平均值設定為與卜瓦松分佈的平均值相等:
\[ 設定 \lambda = np \]
因此,近似關係為:
\[ B(n, p) \approx Po(np) \]
接著使用 \(\lambda = np\) 的卜瓦松公式(或查表)來計算機率。
近似範例
某工廠生產的產品瑕疵率為 0.005。若檢查一批 1000 個產品,求恰好有 4 個瑕疵品的機率。
- 檢查條件: \(n=1000\)(大),\(p=0.005\)(小)。近似條件有效。
- 計算 \(\lambda\): \(\lambda = np = 1000 \times 0.005 = 5\)。
- 說明近似: \(X \sim Po(5)\)。
- 計算 \(P(X=4)\): 使用 \(\lambda=5\) 和 \(x=4\) 的卜瓦松公式:
\[ P(X=4) = \frac{e^{-5} 5^4}{4!} \]
這比計算 \(\binom{1000}{4} (0.005)^4 (0.995)^{996} \) 要簡單多了。
6.3. 常見陷阱與建議
使用累積分佈表時要小心!
在兩種分佈中,統計表通常給出累計機率 \(P(X \le x)\)。記住這些規則:
- \(P(X=x) = P(X \le x) - P(X \le x-1)\)
- \(P(X > x) = 1 - P(X \le x)\)
- \(P(X \ge x) = 1 - P(X \le x-1)\)
別擔心,一開始覺得棘手是很正常的——多練習細心分辨 \(n\)、\(p\) 和 \(\lambda\)。如果題目涉及在大樣本或長時間內計算罕見事件,請考慮卜瓦松!如果涉及固定次數的試驗且結果只有成功/失敗,請考慮二項分佈!