歡迎來到統計學的魔法世界:中央極限定理

你好!今天我們將深入探討許多數學家口中統計學的「皇冠寶石」:中央極限定理 (Central Limit Theorem, CLT)。別擔心,如果你覺得進階統計學 (Further Statistics) 的公式堆積如山,CLT 其實是來幫你減輕負擔的。它是能讓我們即便在原始數據並非「常態分佈」的情況下,依然能運用常態分佈 (Normal Distribution) 來解決問題的「魔法」。這一章節是你準備 Paper 3B: Further Statistics 1 的核心關鍵。

1. 什麼是中央極限定理?

想像一下,你面對著一個非常奇怪的機率分佈——也許它是偏態的,或者呈現 U 型。通常要計算這些分佈的機率簡直是場噩夢。然而,CLT 告訴我們,如果我們從那個奇怪的分佈中抽取足夠大的樣本,並計算這些樣本的平均值 (mean),那麼這些平均值的分佈將會呈現常態分佈

核心概念:無論母體 (population) 的原始分佈是什麼,隨著樣本大小 (\(n\)) 增加,樣本平均值 (\(\bar{X}\)) 的分佈會趨向於常態分佈

比喻:把它想像成製作一杯巨大的果昔。你可能一開始使用的是形狀各異的水果(不同的分佈),但只要你將足夠多的水果攪拌在一起,最終的成品一定是一杯滑順、口感一致的液體(常態分佈)。

你知道嗎?這就是為什麼常態分佈在現實生活中如此常見。我們測量的許多事物(例如身高或考試分數),實際上都是許多微小、隨機因素共同作用後的「平均」結果!

2. 數學定義

根據你的 Pearson Edexcel 課程大綱,對於一個平均值為 (\(\mu\))、變異數為 (\(\sigma^2\)) 的母體,當樣本大小 \(n\) 夠大時,樣本平均值的分佈可近似為:

\( \bar{X} \approx \sim N\left(\mu, \frac{\sigma^2}{n}\right) \)

這意味著:
1. 樣本平均值的平均值 (Mean) 與母體平均值 (\(\mu\)) 相同。
2. 樣本平均值的變異數 (Variance) 為母體變異數除以樣本大小 (\(\frac{\sigma^2}{n}\))。

等等,多大才算「夠大」?

在你的考試中,標準的「經驗法則」是 \(n > 30\) 通常被視為足夠大,足以讓 CLT 發揮作用。如果你的樣本大小是 40、50 或 100,你就可以安心使用 CLT!

重點總結:隨著 \(n\) 越大,樣本平均值的「離散程度」(spread) 就越小。這很合理——你擁有的數據越多,你的平均值就越可靠!

3. 將 CLT 應用於其他分佈

CLT 的魅力在於其通用性。你可以用它來為你在「進階統計學 1」中學過的所有分佈計算平均值的機率。以下為你需要代入 CLT 公式的參數快速複習:

卜瓦松分佈 (Poisson Distribution): \(X \sim Po(\lambda)\)
平均值 (\(\mu\)) = \(\lambda\)
變異數 (\(\sigma^2\)) = \(\lambda\)
CLT 應用: \( \bar{X} \approx \sim N\left(\lambda, \frac{\lambda}{n}\right) \)

幾何分佈 (Geometric Distribution): \(X \sim Geo(p)\)
平均值 (\(\mu\)) = \(\frac{1}{p}\)
變異數 (\(\sigma^2\)) = \(\frac{1-p}{p^2}\)
CLT 應用: \( \bar{X} \approx \sim N\left(\frac{1}{p}, \frac{1-p}{np^2}\right) \)

離散均勻分佈 (Discrete Uniform Distribution, 1 到 \(k\))
平均值 (\(\mu\)) = \(\frac{k+1}{2}\)
變異數 (\(\sigma^2\)) = \frac{k^2-1}{12}
CLT 應用: \( \bar{X} \approx \sim N\left(\frac{k+1}{2}, \frac{k^2-1}{12n}\right) \)

複習小貼士:
務必先檢查你的樣本大小!如果 \(n \leq 30\),除非母體原本就是常態分佈,否則使用 CLT 可能不太合適。

4. 逐步教學:如何解 CLT 問題

當你看到題目詢問關於樣本平均值的機率時(例如:「求 50 個項目的平均重量小於……的機率」),請依照以下步驟進行:

步驟 1:識別母體參數。 找出原始分佈的平均值 (\(\mu\)) 和變異數 (\(\sigma^2\))。如果是卜瓦松或幾何分佈,先使用標準公式計算它們。

步驟 2:檢查樣本大小 (\(n\))。 是否夠大(通常 \(n > 30\))?如果是,請說明你正在使用中央極限定理

步驟 3:定義樣本平均值的分佈。 寫下 \( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)。常見錯誤: 許多學生會忘記將變異數除以 \(n\)。千萬別犯這個錯!

步驟 4:標準化並計算。 使用計算機或 \(Z\)-公式:\( Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \)。請注意,標準差是 \(\sqrt{\frac{\sigma^2}{n}}\),也就是 \(\frac{\sigma}{\sqrt{n}}\)。

記憶口訣:使用 "M-V-N" 來記住步驟:Mean(平均值)、Variance(變異數),然後是針對平均值計算的 Normal(常態分佈)!

5. 連續性修正 (Continuity Corrections):我們需要嗎?

這對許多學生來說是個困惑點!

當我們使用常態分佈(連續的)來近似離散分佈(如卜瓦松或二項分佈)時,我們通常會使用連續性修正(加或減 0.5)。

然而:當我們處理大樣本的平均值 (\(\bar{X}\)) 時,平均值各個可能數值之間的間隙會變得非常微小,因此在 CLT 問題中,我們通常不需要對 \(\bar{X}\) 進行連續性修正。直接使用題目給定的數值即可!

鼓勵一下:如果這讓你感到混亂,記住:如果題目詢問的是項目的總和 (Total Sum),請使用連續性修正;如果題目詢問的是平均值 (Mean),通常是不需要的。

6. 總結與最後建議

「必知」重點:
1. CLT 適用於樣本平均值的分佈,而非個別項目本身。
2. 你需要較大的樣本 (n > 30) 才能使用。
3. 你所需的公式是:\( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)。
4. 考試不需要你證明這個定理——只要知道如何應用它就好!

避免常見錯誤:
- 開根號陷阱:使用計算機時,記得公式中使用的是變異數 (\(\sigma^2/n\))。如果計算機要求輸入標準差,你必須輸入 \(\sqrt{\sigma^2/n}\) 或 \(\sigma / \sqrt{n}\)。
- 樣本平均值 vs. 總和:如果題目詢問的是總和 (\(\sum X\)) 的機率,請記住 \(\sum X \sim N(n\mu, n\sigma^2)\)。這其實就是將 CLT 公式乘以 \(n\)!

最終寄語:中央極限定理是你 Paper 3B 中最好的夥伴。它將複雜、非常態的問題轉化為計算機幾秒鐘就能解決的簡單常態分佈題目。精通公式,留意 \(n\) 的值,你一定會考得很好!