The normal distribution - Mathematics A - H240 - Cambridge OCR A Level

常態分佈簡介

歡迎來到統計學中最重要的章節之一！你有沒有發現，在人群中，大多數人的身高都在平均值左右，而極高或極矮的人非常少？或者，大多數學生在考試中的得分都接近平均分？這種「中間高、兩邊低」的規律在自然界和社會科學中非常普遍，因此數學家為其建立了一個模型，稱為常態分佈（Normal Distribution）。

如果起初覺得這些概念有點抽象，請不用擔心。學完這些筆記後，你將能夠描述這個著名的「鐘形曲線」，並學會使用計算機來解決以往需要耗費數小時人工計算的問題！

1. 什麼是常態分佈？

常態分佈是一種連續型概率分佈。這意味著它處理的數據可以是任何數值，例如時間、重量或身高（這與處理「成功次數」如 1、2 或 3 的二項分佈不同）。

記法

我們將隨機變量 \(X\) 服從常態分佈寫作：
\(X \sim N(\mu, \sigma^2)\)

拆解如下：
1. \(\mu\) (mu)： 這是平均值（mean）。它告訴你鐘形曲線的中心位置在哪裡。
2. \(\sigma^2\) (sigma squared)： 這是方差（variance）。
3. \(\sigma\) (sigma)： 這是標準差（standard deviation）。它告訴你曲線有多「寬」或有多「窄」。

快速複習： 在考試中，務必確認題目給出的是方差 (\(\sigma^2\)) 還是標準差 (\(\sigma\))。如果題目給出 \(\sigma^2 = 16\)，那麼 \(\sigma = 4\)。

鐘形曲線的關鍵特徵

對稱性： 曲線關於平均值 (\(\mu\)) 完全對稱。左側是右側的鏡像。
平均值 = 中位數 = 眾數： 這三個集中趨勢指標都位於曲線的正中央。
總面積 = 1： 因為曲線下的面積代表所有可能結果的總概率，所以它必須等於 1。
反曲點： 這是曲線從「凹」轉為「凸」的點。這些點精確地位於 \(x = \mu + \sigma\) 和 \(x = \mu - \sigma\) 的位置。

你知道嗎？ 因為曲線是對稱的，所以正好有 50% 的數據高於平均值，50% 的數據低於平均值。這是在檢查答案時非常實用的「救命」小技巧！

重點總結： 常態分佈描述了圍繞中心平均值聚集，並呈鐘形向兩側對稱散佈的數據。

2. 「68-95-99.7」法則

這是一個非常有用的經驗法則，可以幫助你直觀地理解數據在常態分佈中是如何分佈的。對於任何常態分佈：

約有 68%（大約三分之二）的數據落在距離平均值 1 個標準差的範圍內 (\(\mu \pm \sigma\))。
約有 95% 的數據落在距離平均值 2 個標準差的範圍內 (\(\mu \pm 2\sigma\))。
幾乎所有 (99.7%) 的數據都落在距離平均值 3 個標準差的範圍內 (\(\mu \pm 3\sigma\))。

記憶小幫手： 將其視為 1-2-3 法則。跨越 1 個單位 = 68%，2 個單位 = 95%，3 個單位 = 涵蓋幾乎所有人！

重點總結： 如果一個數值距離平均值超過 3 個標準差，它就非常罕見（即異常值）！

3. 標準常態分佈 (\(Z\))

試想一下，如果要把以厘米為單位的高度和以公斤為單位的重量進行比較，這是不可能的！為了克服這一點，我們使用標準常態分佈，其平均值為 0，標準差為 1。

我們使用字母 \(Z\) 來表示： \(Z \sim N(0, 1)\)。

Z-轉換公式

你可以使用這個「萬能轉換器」公式，將任何常態分佈的數值 (\(X\)) 轉換為標準分數 (\(Z\))：
\(Z = \frac{X - \mu}{\sigma}\)

範例：如果智商分數為 \(N(100, 15^2)\)，那麼智商為 130 的人的 Z-score 是多少？
\(Z = \frac{130 - 100}{15} = 2\)。
這意味著該人的智商比平均水平高出正好 2 個標準差。

常見錯誤： 忘記對方差開平方根！如果分佈是 \(N(50, 25)\)，\(\sigma\) 是 5 而不是 25。在 Z 分數公式的分母中，始終使用 \(\sigma\)。

重點總結： Z-score 告訴你一個數值距離平均值有多少個標準差。

4. 使用計算機

在 OCR A Level 課程中，你需要使用計算機的統計功能，而不是查閱舊式的統計表。

A. 求概率 (Normal CD)

當你有一個數值範圍（例如 \(P(X < 55)\) 或 \(P(40 < X < 60)\)）並想求概率（曲線下的面積）時使用此功能。

下限 (Lower Bound)： 範圍內的最小值。如果沒有下限（例如 \(X < 55\)），請輸入一個極小的數，如 \(-9999\)。
上限 (Upper Bound)： 範圍內的最大值。如果沒有上限（例如 \(X > 70\)），請輸入一個極大的數，如 \(9999\)。

B. 求數值 (Inverse Normal)

當你知道概率（即「面積」）並想找出對應的數值 (\(x\)) 時使用此功能。
範例：「找出最高 10% 的人所對應的身高臨界值。」

提示： 大多數計算機要求「Area」必須是該數值左側的面積。如果你想計算前 10%（即右側 10%），你必須輸入 0.90 的面積（左側 90%）。

重點總結： 概率用 "Normal CD"，求數值用 "Inverse Normal"。

5. 選擇正確的模型

有時你需要判斷常態分佈是否適用於現實情境。

常態模型的適用條件：

數據是連續的。
數據是對稱且呈鐘形的。
大多數數據點都靠近中間。

近似二項分佈：

如果你有一個二項分佈 \(X \sim B(n, p)\)，其中 \(n\) 很大（通常 \(n > 50\)）且 \(p\) 接近 0.5，那麼二項分佈的長條圖看起來會非常像一個平滑的常態曲線！

在這種情況下，我們可以使用：
平均值：\(\mu = np\)
方差：\(\sigma^2 = np(1-p)\)

注意： 在本卷中，你不會被要求進行繁瑣的近似計算，但你必須理解「何時可以用一種分佈來建模另一種分佈」的邏輯。

快速總結複習：
1. 記法： \(X \sim N(\mu, \sigma^2)\)。
2. 形狀： 對稱，總面積 = 1，平均值位於中心。
3. Z-score： \(Z = (X - \mu) / \sigma\)。
4. 68-95-99.7： 數據在 1、2 和 3 個標準差內的散佈情況。
5. 計算機： 用 'Normal CD' 求面積/概率，用 'Inverse Normal' 求數值。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。