歡迎來到卜瓦松分佈 (Poisson Distribution) 與二項分佈 (Binomial Distribution)!
在高等統計學 1 (Further Statistics 1) 的這一章中,我們將探索統計學家工具箱中兩個最有用的工具。雖然你可能以前見過二項分佈,但我們這次會深入探討它,並為你介紹它的「表親」——卜瓦松分佈。
為什麼這很重要?因為生活充滿了計數!無論你是計算一小時內有多少顆流星出現、餅乾裡有多少粒巧克力豆,還是有多少客戶撥打服務熱線,這些分佈都能幫助我們預測未來。如果一開始覺得有點棘手也不用擔心;我們會一步一步把它拆解開來。
1. 什麼是卜瓦松分佈?
卜瓦松分佈用於模擬在一個固定區間(時間或空間)內事件發生的次數。你可以把它想像成「計數分佈」。
先備知識:離散隨機變數 (discrete random variable) 是指只能取特定數值(如 0, 1, 2...)的變數,這正是我們這裡所用的,因為你不可能收到「半封」郵件!
我們何時可以使用卜瓦松模型?
對於一個可以用 \(X \sim Po(\lambda)\) 模擬的情況,其中 \(\lambda\) (lambda) 是平均發生率,這些事件必須滿足以下條件:
- 獨立性 (Independent):一個事件的發生不會改變另一個事件發生的機率。
- 單一性 (Singly):事件不可能在同一個瞬間發生。
- 隨機性 (Random):事件以恆定的平均速率發生。
- 均勻性 (Uniform):事件發生的機率與區間的大小成正比。
記憶小撇步:記住單字 "ISRU"(獨立、單一、隨機、均勻),用它來檢查卜瓦松分佈是否適用!
現實生活類比
想像你正站在一條安靜的馬路邊。平均每 10 分鐘有 3 輛車經過。這就是你的平均發生率 (\(\lambda = 3\))。你可以使用卜瓦松分佈來計算接下來 10 分鐘內正好有 5 輛車經過的機率。
可加性 (Additive Property)
這是一個非常方便的特性!如果你改變了區間,發生率也會按比例改變。
如果 \(X =\) 每分鐘事件發生的次數,且 \(X \sim Po(\lambda)\):
- 對於 5 分鐘,分佈就是 \(Po(5\lambda)\)。
- 對於 10 分鐘,分佈就是 \(Po(10\lambda)\)。
此外,如果你有兩個獨立的卜瓦松變數 \(X \sim Po(\lambda)\) 和 \(Y \sim Po(\mu)\),那麼它們的總和也是卜瓦松分佈:\(X + Y \sim Po(\lambda + \mu)\)。
快速複習盒:
- 卜瓦松用於區間內的「計數」。
- \(\lambda\) 是平均發生次數。
- 你可以根據時間或空間區間的大小,按比例調整 \(\lambda\)。
2. 平均數與變異數
這些分佈最酷的地方之一,就是我們可以使用簡單的公式預測它們的「中心」(平均數)和「分散程度」(變異數)。
對於二項分佈 \(B(n, p)\):
- 平均數: \(E(X) = np\)
- 變異數: \(Var(X) = np(1-p)\)
對於卜瓦松分佈 \(Po(\lambda)\):
- 平均數: \(E(X) = \lambda\)
- 變異數: \(Var(X) = \lambda\)
你知道嗎? 在卜瓦松分佈中,平均數和變異數完全相同!這是檢查卜瓦松模型是否適合真實數據的一個好方法。如果你的數據平均數和變異數差異很大,那麼卜瓦松分佈可能不是最好的選擇。
關鍵點: 如果 \(E(X) \approx Var(X)\),通常就適合使用卜瓦松模型。
3. 使用卜瓦松分佈近似二項分佈
有時候,計算二項分佈的機率會讓人心力交瘁,特別是當 \(n\)(試驗次數)非常大時。在特定情況下,卜瓦松分佈可以「出手相救」,提供一個非常精確的捷徑。
「捷徑」條件
當滿足以下條件時,你可以使用 \(Po(np)\) 來近似 \(B(n, p)\):
- \(n\) 很大(通常 \(n > 50\))。
- \(p\) 很小(通常 \(p < 0.1\))。
在這種情況下,我們只需將卜瓦松發生率設為 \(\lambda = np\)。
例子:假設一家工廠生產 1000 個燈泡,其中一個燈泡有瑕疵的機率是 0.002。與其進行複雜的 \(n=1000\) 的二項分佈計算,我們可以直接使用 \(Po(1000 \times 0.002) = Po(2)\)。簡單多了!
要避免的常見錯誤: 如果 \(p\) 很大(接近 0.5),就不要使用這個近似。這種近似只有在「成功」事件非常罕見時才有效!
4. 卜瓦松分佈的假設檢定
我們可以使用假設檢定來判斷一個事件的平均發生率 (\(\lambda\)) 是否發生了變化。這就像你在 A Level 數學中所做的假設檢定一樣,只是分佈不同而已。
步驟流程
- 設定假設:
- \(H_0: \lambda = \text{原始發生率}\)
- \(H_1: \lambda > \text{或} < \text{或} \neq \text{原始發生率}\) - 確定檢定統計量:這是你觀察到的實際事件數量。
- 計算機率:使用計算機找出在 \(H_0\) 為真的假設下,觀察值出現「至少如此極端」情況的機率。
- 與顯著水準比較:如果機率小於顯著水準(例如 5%),則拒絕 \(H_0\)。
鼓勵一下:假設檢定其實就是在問:「這個結果是否太詭異了,以至於原來的平均值一定是錯的?」如果答案是「是的」,我們就拒絕 \(H_0\)!
關鍵點:務必使用母體參數(\(\lambda\) 或 \(\mu\))來陳述你的假設。
本章總結
- 卜瓦松分佈:用於在固定區間內以恆定速率發生的獨立、隨機事件。
- 計算機:你需要熟練使用計算機的卜瓦松函數,包括單個值 (\(P(X=x)\)) 和累積值 (\(P(X \le x)\)) 的計算。
- 平均數與變異數:對於卜瓦松分佈,兩者均等於 \(\lambda\)。對於二項分佈,平均數為 \(np\),變異數為 \(np(1-p)\)。
- 近似法:當 \(n\) 很大且 \(p\) 很小時,使用卜瓦松分佈來近似二項分佈。
- 假設檢定:重點在於根據新證據檢驗發生率 \(\lambda\) 是否改變。