S2.1:泊松分佈 (Poisson Distribution) - 學習筆記

你好!歡迎來到泊松分佈這一章。這個課題非常實用,因為它能幫助我們為在一段固定的時間或空間內隨機且獨立發生的事件進行建模——例如你在一小時內收到的電郵數量,或者某一頁紙上的印刷錯誤次數。


如果公式看起來讓你有點眼花撩亂,別擔心;其實概念非常直接。一旦你理解了核心思想和關鍵假設,解題就會變得輕鬆得多!

1. 什麼是泊松分佈?

泊松分佈是一種離散概率分佈,用於描述在已知平均發生率且事件發生時間彼此獨立的前提下,事件在固定的時間或空間區間內發生的次數。

關鍵記號與參數
  • 我們使用以下記號來表示隨機變量 \(X\) 服從泊松分佈:
    \(X \sim \text{Po}(\lambda)\)
  • 符號 \(\lambda\) (lambda) 是此分佈中唯一的參數
    • \(\lambda\) 代表在指定區間內事件的平均發生率(或平均發生次數)。
    • \(\lambda\) 必須是一個正數 (\(\lambda > 0\))。

例子:如果平均每分鐘有 4 輛車經過道路上的某個點,那麼在一分鐘內經過的車輛數 \(X\) 可由 \(X \sim \text{Po}(4)\) 建模,其中 \(\lambda = 4\)。

2. 應用泊松分佈的條件

只有當你統計的事件滿足以下四個嚴格條件時,才可以使用泊松分佈。你可以將這些視為使用泊松分佈的「交通規則」:

  1. 事件單獨發生: 事件必須一次只發生一個。兩個事件不可能在同一瞬間發生。

    (例如:兩個電話不會同時打入,儘管在現實中它們可能看起來很接近。)

  2. 事件隨機發生: 事件發生的時間點沒有可察覺的規律。

    (例如:地震不是按時間表發生的,它們是隨機的。)

  3. 事件獨立發生: 一個事件的發生不會影響另一個事件發生的概率。

    (例如:第 1 行出現一個印刷錯誤,並不會使第 2 行出現印刷錯誤的概率增加或減少。)

  4. 發生率保持恆定 (\(\lambda\) 是均勻的): 在所考慮的整個時間或空間區間內,平均發生率 (\(\lambda\)) 必須保持不變。

    (例如:如果你在計算每個月的事故數量,那麼每個月的平均事故率必須是一致的。)

快速複習:何時「不」應使用泊松分佈

如果發生率發生顯著變化(例如:比較凌晨 3 點和下午 3 點的網站訪問量),或者事件之間互相影響(例如:計算在人群中傳播的疾病),則泊松分佈不適用

3. 泊松概率公式

要計算事件恰好發生 \(x\) 次的概率,我們使用以下公式:

$$P(X=x) = \frac{e^{-\lambda} \lambda^x}{x!}$$

其中:

  • \(P(X=x)\) 是事件恰好發生 \(x\) 次的概率。
  • \(\lambda\) 是平均發生率(即參數)。
  • \(x\) 是我們感興趣的具體次數 (\(x = 0, 1, 2, 3, \ldots\))。
  • \(e\) 是歐拉常數 (\(e \approx 2.71828\))。你會使用計算機來計算 \(e^{-\lambda}\)。
  • \(x!\) 是 \(x\) 的階乘 (\(x! = x \times (x-1) \times \ldots \times 1\))。記住 \(0! = 1\)。
逐步計算指南

假設 \(X \sim \text{Po}(3.5)\),求 \(P(X=2)\)。

  1. 識別 \(\lambda\) 和 \(x\): \(\lambda = 3.5\),\(x = 2\)。
  2. 代入公式:

    $$P(X=2) = \frac{e^{-3.5} (3.5)^2}{2!}$$

  3. 計算各部分:
    • \(3.5^2 = 12.25\)
    • \(2! = 2\)
    • \(e^{-3.5} \approx 0.030197\)
  4. 得出最終結果:

    $$P(X=2) = \frac{0.030197 \times 12.25}{2} \approx 0.185$$

重點總結: 該公式允許我們計算特定次數 (\(x\)) 的準確概率。

4. 平均值、變異數與標準差

泊松分佈最優雅且實用的特徵之一,就是其平均值與變異數之間的關係。

若 \(X \sim \text{Po}(\lambda)\),則:

  • 平均值 (Mean): \(E(X) = \lambda\)
  • 變異數 (Variance): \(\text{Var}(X) = \lambda\)
  • 標準差 (Standard Deviation): \(\sigma = \sqrt{\lambda}\)

這意味著如果你知道平均發生率 (\(\lambda\)),你同時也知道了數據的離散程度(變異數)!

你知道嗎?平均值與變異數相等是統計學中一個關鍵的診斷測試。如果現實世界數據集的平均值與變異數相差懸殊,那麼它很可能無法準確地使用泊松分佈來建模。

重點總結: 對於泊松分佈而言,平均值 = 變異數 = \(\lambda\)

5. 處理區間變化

參數 \(\lambda\) 是與特定區間掛鉤的。如果區間發生變化,你必須按比例調整 \(\lambda\)。

例子:1 公里長道路上的坑洞數量為 \(X \sim \text{Po}(2)\)。

那麼 3 公里長的道路的分佈是什麼?

  • 1 公里的比率是 2。
  • 3 公里的比率必須是 \(3 \times 2 = 6\)。
  • 設 \(Y\) 為 3 公里內的坑洞數量,則 \(Y \sim \text{Po}(6)\)。

例子:每小時的通話次數為 \(X \sim \text{Po}(12)\)。求 15 分鐘內的通話次數分佈。

  • 1 小時 = 60 分鐘。15 分鐘是小時的 \(\frac{15}{60} = 0.25\)。
  • 新的比率為 \(\lambda_{new} = 12 \times 0.25 = 3\)。
  • 15 分鐘內的通話次數 \(Y\),其分佈為 \(Y \sim \text{Po}(3)\)。

避免常見錯誤: 務必確保你使用的 \(\lambda\) 與題目要求的時間或空間單位一致!

6. 泊松分佈作為二項分佈的近似

課程大綱要求你理解泊松分佈如何作為二項分佈的極限(或近似值)。這對於在考試題目中選擇正確的模型至關重要。

何時適用這種近似?

如果 \(X\) 服從二項分佈,\(X \sim B(n, p)\),當以下條件滿足時,泊松分佈是一個很好的近似:

  1. 試驗次數 \(n\) 很大(通常 \(n > 50\) 為一條經驗法則)。
  2. 成功概率 \(p\) 很小(通常 \(p < 0.1\) 為一條經驗法則)。
參數之間的聯繫

當近似成立時,泊松參數 \(\lambda\) 可以直接從二項分佈的參數計算得出:

$$\lambda = np$$

(記住 \(np\) 是二項分佈的平均值,且由於 \(p\) 很小,變異數 \(np(1-p)\) 會非常接近 \(np\)。這證實了為什麼「平均值 \(\approx\) 變異數」,從而允許使用泊松近似。)

例子:生產線每天製造 2000 件產品,其中單件產品有缺陷的概率為 \(p=0.001\)。若 \(X\) 為缺陷產品數量,則 \(X \sim B(2000, 0.001)\)。

  • 由於 \(n=2000\)(很大)且 \(p=0.001\)(很小),我們使用泊松近似。
  • 計算 \(\lambda = np = 2000 \times 0.001 = 2\)。
  • 我們近似得出 \(X \sim \text{Po}(2)\)。

重點總結: 當處理「大量試驗」中的「稀有事件」時,使用泊松分佈來近似二項分佈。

7. 獨立泊松隨機變量的總和

此規則簡化了將來自多個獨立來源的事件進行合併時的問題。

如果你有兩個獨立的隨機變量 \(X\) 和 \(Y\),且它們都服從泊松分佈,那麼它們的和 \(X+Y\) 也服從泊松分佈,且它們的參數直接相加即可。

  • 若 \(X \sim \text{Po}(\lambda_X)\)
  • 且 \(Y \sim \text{Po}(\lambda_Y)\)
  • 且 \(X\) 與 \(Y\) 是獨立

則:

$$X + Y \sim \text{Po}(\lambda_X + \lambda_Y)$$

例子:午餐時間,餐廳平均收到 5 個外送訂單 (\(D \sim \text{Po}(5)\)) 和 3 個到店訂單 (\(W \sim \text{Po}(3)\))。若兩者獨立,總訂單數 \(T = D + W\) 為:

$$T \sim \text{Po}(5 + 3)$$

$$T \sim \text{Po}(8)$$

此規則適用於任意數量的獨立泊松變量之和。

重點總結: 獨立泊松過程的平均發生率可以直接相加。

8. 使用累積泊松分佈表

雖然公式給出的是 \(P(X=x)\),但許多問題會要求計算累積概率(例如 \(P(X \le x)\) 或 \(P(X > x)\))。你通常需要使用統計表,表中通常給出累積概率 \(P(X \le x)\)。

在處理不等式時,請記住概率的基本法則:

  1. 「小於或等於」的概率(直接查表):

    $$P(X \le 5) = \text{直接查表 } x=5 \text{ 對應的值}$$

  2. 「小於」的概率(需要調整):

    由於 \(X\) 是離散的(只能取整數),\(P(X < 5)\) 與 \(P(X \le 4)\) 是相同的。

    $$P(X < 5) = P(X \le 4)$$

  3. 「大於或等於」的概率(補集法則):

    統計表只顯示「小於或等於」,所以你必須使用補集法則:\(P(A) = 1 - P(A')\)。

    $$P(X \ge 3) = 1 - P(X < 3)$$

    由於 \(X\) 是離散的,\(P(X < 3)\) 等於 \(P(X \le 2)\)。

    $$P(X \ge 3) = 1 - P(X \le 2)$$

  4. 「大於」的概率(補集法則與調整):

    $$P(X > 4) = 1 - P(X \le 4)$$

  5. 範圍概率:

    $$P(2 \le X \le 5) = P(X \le 5) - P(X \le 1)$$ (這個計算排除了 \(x=0\) 和 \(x=1\) 的概率,留下了 \(x=2, 3, 4, 5\)。)

給同學的小貼士

當不確定如何調整不等式時,畫一條簡單的數軸!如果你想要 \(X \ge 3\),意味著你需要 3, 4, 5... 等。它的補集(即你不想要的)是 0, 1, 2。所以,用總概率 1 減去 \(P(X \le 2)\) 即可。

重點總結: 對不等號要非常細心,並記住統計表通常提供的是 \(P(X \le x)\) 的值。