常態分佈簡介

歡迎來到統計學中最重要的章節之一!你有沒有發現,在人群中,大多數人的身高都在平均值左右,而極高或極矮的人非常少?或者,大多數學生在考試中的得分都接近平均分?這種「中間高、兩邊低」的規律在自然界和社會科學中非常普遍,因此數學家為其建立了一個模型,稱為常態分佈(Normal Distribution)

如果起初覺得這些概念有點抽象,請不用擔心。學完這些筆記後,你將能夠描述這個著名的「鐘形曲線」,並學會使用計算機來解決以往需要耗費數小時人工計算的問題!

1. 什麼是常態分佈?

常態分佈是一種連續型概率分佈。這意味著它處理的數據可以是任何數值,例如時間、重量或身高(這與處理「成功次數」如 1、2 或 3 的二項分佈不同)。

記法

我們將隨機變量 \(X\) 服從常態分佈寫作:
\(X \sim N(\mu, \sigma^2)\)

拆解如下:
1. \(\mu\) (mu): 這是平均值(mean)。它告訴你鐘形曲線的中心位置在哪裡。
2. \(\sigma^2\) (sigma squared): 這是方差(variance)
3. \(\sigma\) (sigma): 這是標準差(standard deviation)。它告訴你曲線有多「寬」或有多「窄」。

快速複習: 在考試中,務必確認題目給出的是方差 (\(\sigma^2\)) 還是標準差 (\(\sigma\))。如果題目給出 \(\sigma^2 = 16\),那麼 \(\sigma = 4\)。

鐘形曲線的關鍵特徵

  • 對稱性: 曲線關於平均值 (\(\mu\)) 完全對稱。左側是右側的鏡像。
  • 平均值 = 中位數 = 眾數: 這三個集中趨勢指標都位於曲線的正中央。
  • 總面積 = 1: 因為曲線下的面積代表所有可能結果的總概率,所以它必須等於 1。
  • 反曲點: 這是曲線從「凹」轉為「凸」的點。這些點精確地位於 \(x = \mu + \sigma\)\(x = \mu - \sigma\) 的位置。

你知道嗎? 因為曲線是對稱的,所以正好有 50% 的數據高於平均值,50% 的數據低於平均值。這是在檢查答案時非常實用的「救命」小技巧!

重點總結: 常態分佈描述了圍繞中心平均值聚集,並呈鐘形向兩側對稱散佈的數據。

2. 「68-95-99.7」法則

這是一個非常有用的經驗法則,可以幫助你直觀地理解數據在常態分佈中是如何分佈的。對於任何常態分佈:

  • 約有 68%(大約三分之二)的數據落在距離平均值 1 個標準差的範圍內 (\(\mu \pm \sigma\))。
  • 約有 95% 的數據落在距離平均值 2 個標準差的範圍內 (\(\mu \pm 2\sigma\))。
  • 幾乎所有 (99.7%) 的數據都落在距離平均值 3 個標準差的範圍內 (\(\mu \pm 3\sigma\))。

記憶小幫手: 將其視為 1-2-3 法則。跨越 1 個單位 = 68%,2 個單位 = 95%,3 個單位 = 涵蓋幾乎所有人!

重點總結: 如果一個數值距離平均值超過 3 個標準差,它就非常罕見(即異常值)!

3. 標準常態分佈 (\(Z\))

試想一下,如果要把以厘米為單位的高度和以公斤為單位的重量進行比較,這是不可能的!為了克服這一點,我們使用標準常態分佈,其平均值為 0標準差為 1

我們使用字母 \(Z\) 來表示: \(Z \sim N(0, 1)\)

Z-轉換公式

你可以使用這個「萬能轉換器」公式,將任何常態分佈的數值 (\(X\)) 轉換為標準分數 (\(Z\)):
\(Z = \frac{X - \mu}{\sigma}\)

範例:如果智商分數為 \(N(100, 15^2)\),那麼智商為 130 的人的 Z-score 是多少?
\(Z = \frac{130 - 100}{15} = 2\)。
這意味著該人的智商比平均水平高出正好 2 個標準差。

常見錯誤: 忘記對方差開平方根!如果分佈是 \(N(50, 25)\),\(\sigma\) 是 5 而不是 25。在 Z 分數公式的分母中,始終使用 \(\sigma\)

重點總結: Z-score 告訴你一個數值距離平均值有多少個標準差。

4. 使用計算機

在 OCR A Level 課程中,你需要使用計算機的統計功能,而不是查閱舊式的統計表。

A. 求概率 (Normal CD)

當你有一個數值範圍(例如 \(P(X < 55)\) 或 \(P(40 < X < 60)\))並想求概率(曲線下的面積)時使用此功能。

  • 下限 (Lower Bound): 範圍內的最小值。如果沒有下限(例如 \(X < 55\)),請輸入一個極小的數,如 \(-9999\)。
  • 上限 (Upper Bound): 範圍內的最大值。如果沒有上限(例如 \(X > 70\)),請輸入一個極大的數,如 \(9999\)。

B. 求數值 (Inverse Normal)

當你知道概率(即「面積」)並想找出對應的數值 (\(x\)) 時使用此功能。
範例:「找出最高 10% 的人所對應的身高臨界值。」

提示: 大多數計算機要求「Area」必須是該數值左側的面積。如果你想計算前 10%(即右側 10%),你必須輸入 0.90 的面積(左側 90%)。

重點總結: 概率用 "Normal CD",求數值用 "Inverse Normal"。

5. 選擇正確的模型

有時你需要判斷常態分佈是否適用於現實情境。

常態模型的適用條件:

  • 數據是連續的。
  • 數據是對稱且呈鐘形的。
  • 大多數數據點都靠近中間。

近似二項分佈:

如果你有一個二項分佈 \(X \sim B(n, p)\),其中 \(n\) 很大(通常 \(n > 50\))且 \(p\) 接近 0.5,那麼二項分佈的長條圖看起來會非常像一個平滑的常態曲線!

在這種情況下,我們可以使用:
平均值:\(\mu = np\)
方差:\(\sigma^2 = np(1-p)\)

注意: 在本卷中,你不會被要求進行繁瑣的近似計算,但你必須理解「何時可以用一種分佈來建模另一種分佈」的邏輯。

快速總結複習:
1. 記法: \(X \sim N(\mu, \sigma^2)\)。
2. 形狀: 對稱,總面積 = 1,平均值位於中心。
3. Z-score: \(Z = (X - \mu) / \sigma\)。
4. 68-95-99.7: 數據在 1、2 和 3 個標準差內的散佈情況。
5. 計算機: 用 'Normal CD' 求面積/概率,用 'Inverse Normal' 求數值。