歡迎來到常態分佈的世界!

在本章中,我們將探索被許多統計學家稱為「分佈之王」的領域。常態分佈(Normal Distribution)極其重要,因為它在現實生活中隨處可見——從人類的身高、蘋果的重量,到考試成績,甚至是科學儀器的測量誤差,都能見到它的身影。讀完這份筆記後,你將能掌握如何描述這個「鐘形曲線」,如何利用計算機計算機率,以及如何利用它來簡化複雜的問題。

1. 什麼是常態分佈?

常態分佈是一種連續機率分佈。與離散分佈(我們計算事物的個數,如 1、2、3 等整數)不同,連續分佈處理的是可以取任何數值的測量結果,例如 1.5、1.55 或 1.5555……

鐘形曲線的核心特性

  • 對稱性(Symmetrical): 如果你在曲線的正中央將其對折,兩邊會完全吻合。
  • 平均數、中位數與眾數相等: 它們全都落在曲線最頂端、正中央的位置。
  • 總面積 = 1: 曲線下的總面積代表總機率,永遠等於 1(即 100%)。
  • 漸近線(Asymptotic): 曲線的兩側「尾端」會無限靠近橫軸,但永遠不會真正觸碰到它。

表示法: 我們將常態分佈寫作 \(X \sim N(\mu, \sigma^2)\)。
\(\mu\) (mu): 母體平均數(中心點)。
\(\sigma^2\) (sigma squared): 母體變異數(數據的分散程度)。

小撇步: 要小心!在 \(N(\mu, \sigma^2)\) 的表示法中,第二個數字是變異數。當你使用計算機時,它通常會要求輸入 \(\sigma\)(標準差)。永遠記得 \(\sigma = \sqrt{\text{變異數}}\)。

重點總結

常態分佈由兩個要素定義:它的中心(平均數)和它的離散程度(標準差)。只要掌握這兩個數值,你就掌握了整個分佈!

2. 「經驗法則」(2/3、95%、99.8%)

即使沒有計算機,我們也能大致知道數據在常態分佈中的分佈情況。課程大綱要求你熟記以下這些特定的近似值:

  • 在 1 個標準差範圍內 (\(\mu \pm \sigma\)): 大約 \(2/3\)(約 68%)的觀測值位於此處。
  • 在 2 個標準差範圍內 (\(\mu \pm 2\sigma\)): 大約 95% 的觀測值位於此處。
  • 在 3 個標準差範圍內 (\(\mu \pm 3\sigma\)): 大約 99.8% 的觀測值位於此處。

現實生活中的例子: 想像成年男性的身高。如果平均數是 175cm,標準差是 7cm,那麼 95% 的男性身高會落在 161cm (\(175 - 2 \times 7\)) 到 189cm (\(175 + 2 \times 7\)) 之間。要找到超出這 3 個標準差範圍的人是非常罕見的!

3. 計算機率與參數

在考試中,建議使用你的計算機功能,而不是查閱舊式的統計表。你通常需要用到兩個主要功能:

常態累積機率分佈(Normal CD)

當你已知數值(例如身高或體重)並想求出機率(曲線下的面積)時,請使用此功能。

反向常態分佈(Inverse Normal)

當你已知機率(例如「前 10%」)並想求出 x 軸上對應的數值時,請使用此功能。

你知道嗎? 「標準常態分佈」是一種特殊版本,其平均數 \(\mu = 0\),標準差 \(\sigma = 1\)。我們稱之為 \(Z\) 分佈。我們使用 \(Z = \frac{x - \mu}{\sigma}\) 這個公式將任何常態分佈的數值轉換為 \(Z\)-分數。這能告訴你該數值距離平均數有幾個標準差。

避免常見錯誤

在常態分佈中尋找 \(P(X < 5)\) 或 \(P(X \le 5)\) 時,它們完全一樣! 因為這是一個連續分佈,數值「精確等於」 5.000000... 的機率為零。別讓「等於」符號像在二項分佈中那樣混淆你了。

4. 樣本平均數的分佈 (\(\bar{X}\))

這是一個稍微進階的概念,但邏輯非常清晰。如果我們選取 \(n\) 個項目並計算它們的平均值 (\(\bar{X}\)),這個平均值同樣會遵循常態分佈,但它會比原始母體分佈「更瘦」(分散程度更小)。

如果 \(X \sim N(\mu, \sigma^2)\),那麼樣本平均數的分佈為:
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)

為什麼會這樣? 想想看:某個個體可能非常高或非常矮。但如果你取 100 個人的樣本並算出他們的平均身高,它就極大機率會非常接近母體的平均數。極端值會互相抵消!

5. 使用常態分佈近似二項分佈

有時,如果試驗次數 (\(n\)) 非常大,處理二項分佈(計算成功次數)會變得太困難。在特定情況下,我們可以「走捷徑」,改用常態分佈來計算。

我們何時可以這樣做?(條件)

如果符合以下條件,你可以使用常態近似:

  • \(n\) 很大(通常 \(n \ge 20\))
  • \(p\) 接近 0.5(對稱性)
  • 或者更具體來說: \(np > 10\) 且 \(n(1-p) > 10\)。

連續性修正(Continuity Correction)

因為我們正從離散分佈(二項分佈:1, 2, 3...)過渡到連續分佈(常態分佈:1.1, 1.2...),我們必須將數值調整 0.5。這就是所謂的連續性修正。

怎麼做: 把每個整數想像成一個從數值下方 0.5 到上方 0.5 的「區塊」。

  • 要包含 10:\(P(X \ge 10)\) 變為 \(P(Y > 9.5)\)。
  • 要排除 10:\(P(X > 10)\) 變為 \(P(Y > 10.5)\)。
  • 要包含 10 以內:\(P(X \le 10)\) 變為 \(P(Y < 10.5)\)。

剛開始覺得困難別擔心! 只要畫一條簡單的數線即可。如果你想包含數字 10,你需要從 9.5 開始計算面積,以確保數字 10 的「區塊」被完全涵蓋。

重點總結

當用常態分佈近似二項分佈時,使用 \(\mu = np\) 和 \(\sigma^2 = np(1-p)\),並永遠記得進行 +/- 0.5 的連續性修正!

總結檢查清單

  • 你能列出鐘形曲線的特性嗎?
  • 你是否熟記 2/3、95% 和 99.8% 的經驗法則?
  • 你能使用計算機上的 Normal CD 功能來求出機率嗎?
  • 在處理樣本平均數 (\(\bar{X}\)) 時,你是否記得將變異數除以 \(n\)?
  • 在近似二項分佈時,你能正確應用連續性修正嗎?