學習筆記:5.5 常態分佈 (The Normal Distribution)

你好!歡迎來到「概率與統計 1」(Probability & Statistics 1) 的最後一個章節。常態分佈 (Normal Distribution) 可以說是統計學中最重要的一個連續分佈。為什麼呢?因為現實世界中許多事物——從人的身高到測量誤差——都遵循這種規律。掌握這個主題,你就能解決關於這些現實變量的複雜問題。如果一開始覺得有點棘手,別擔心,我們會一步一步拆解!

1. 理解常態分佈 \(X \sim N(\mu, \sigma^2)\)

常態分佈用於建立連續隨機變量 (Continuous Random Variable, CRV) 的模型。連續隨機變量是指在給定範圍內可以取任何數值的變量(例如身高、溫度、時間)。

鐘形曲線 (The Bell Curve)

常態分佈的圖形通常被稱為鐘形曲線,因為它有獨特的形狀。

  • 它圍繞平均值 \(\mu\) 完全對稱
  • 平均值 (\(\mu\))、中位數和眾數都在同一個中心點上。
  • 曲線下的總面積永遠是 1(代表 100% 的概率)。
記號與參數

我們使用兩個關鍵參數來描述常態分佈:

隨機變量 \(X\) 服從常態分佈的記號是:
$$X \sim N(\mu, \sigma^2)$$

  • \(\mu\) (Mu): 這是平均值(或期望值)。它標定了曲線的中心位置。
  • \(\sigma^2\) (Sigma squared): 這是方差。它衡量數據的離散程度。
  • \(\sigma\) (Sigma): 這是標準差。它是方差的平方根,在理解數據離散程度時通常比方差更直觀。

重點總結: 平均值 \(\mu\) 告訴你鐘形曲線的中心在哪裡,而標準差 \(\sigma\) 則告訴你曲線有多寬或多窄。

2. 標準常態分佈 (\(Z\))

每個常態分佈根據其 \(\mu\) 和 \(\sigma\) 的不同,形態都會略有差異。為了避免需要無限多張表格,我們將任何常態變量 \(X\) 轉換為標準形式,稱為標準常態分佈 (Standard Normal Distribution)

標準常態隨機變量記作 \(Z\)。

$$Z \sim N(0, 1)$$

這個分佈的平均值 \(\mu = 0\),方差 \(\sigma^2 = 1\)。

使用常態分佈表 (\(\Phi(z)\))

MF19 小冊子中提供的表格給出了標準常態分佈的值,記作 \(\Phi(z)\)。

\(\Phi(z) = P(Z < z)\)

這意味著表格給出的永遠是給定 \(Z\) 值左側的面積(概率)。

記憶小貼士: 把 \(\Phi\) (Phi) 想成累計概率——它收集了直到該點為止的所有概率。

3. 標準化:\(Z\)-公式

要將任何常態分佈 \(N(\mu, \sigma^2)\) 中的變量 \(X\) 轉換為標準變量 \(Z\),我們使用標準化 (Standardisation) 的過程:

$$Z = \frac{X - \mu}{\sigma}$$
  • \((X - \mu)\) 計算了 \(X\) 與平均值的距離。
  • 除以 \(\sigma\) 則是將此距離以標準差為單位進行衡量。

例子類比: 想像一場考試得了 70 分。這算高嗎?這取決於平均分!
如果平均值 (\(\mu\)) 是 50,標準差 (\(\sigma\)) 是 10:
\(Z = \frac{70 - 50}{10} = 2\)。這個分數比平均水平高出 2 個標準差——非常優秀!
\(Z\)-分數能精確告訴你任何分數高出或低於平均水平的幅度。

標準化步驟:

  1. 找出 \(\mu\) 和 \(\sigma\)(記住:\(\sigma\) 是方差 \(\sigma^2\) 的平方根)。
  2. 找出你感興趣的 \(x\) 值。
  3. 使用公式 \(Z = \frac{X - \mu}{\sigma}\) 將 \(X\) 轉換為 \(Z\)。
  4. 畫出曲線!這對於確定要計算哪部分的面積至關重要。


快速回顧:重要特性

因為常態分佈是連續的:
$$P(X < x) = P(X \leq x)$$
取得特定單一點的概率永遠為零。


4. 使用 \(Z\)-表解決概率問題

在解決問題時,你必須始終將原始 \(X\) 曲線上的所需面積轉換為 \(Z\) 曲線上的面積,這樣才能在 \(\Phi(z)\) 表中查到值。

情況 1:\(P(Z < a)\),其中 \(a > 0\)(左側面積)

這可以直接查表:
$$P(Z < a) = \Phi(a)$$

情況 2:\(P(Z > a)\),其中 \(a > 0\)(右側面積)

由於總面積為 1,右側面積即 1 減去左側面積:
$$P(Z > a) = 1 - P(Z < a) = 1 - \Phi(a)$$

情況 3:\(P(Z < -a)\),其中 \(-a < 0\)(負值左側的面積)

表格只顯示正的 \(Z\)。由於對稱性,\(-a\) 左側的面積與 \(a\) 右側的面積相同。
$$P(Z < -a) = P(Z > a) = 1 - \Phi(a)$$

(課程大綱註:表格指明了這種關係:\( \Phi(-z) = 1 - \Phi(z) \))

情況 4:\(P(Z > -a)\),其中 \(-a < 0\)(負值右側的面積)

由於對稱性,\(-a\) 右側的面積涵蓋了整個正半部分加上 \(P(0 < Z < a)\) 的面積。這等同於整個面積 \(P(Z < a)\):
$$P(Z > -a) = P(Z < a) = \Phi(a)$$

情況 5:\(P(a < Z < b)\)(兩個值之間的面積)

將較大值的累計概率減去較小值的累計概率。
$$P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a)$$

給同學的關鍵提示: 一定要畫出鐘形曲線並標出所需的區域。這能直觀地確認你需要使用哪個公式(\(1 - \Phi\) 還是直接 \(\Phi\))。

重點總結: 所有常態分佈概率問題都依賴於對目標面積進行操作,直到你能用基本的累計函數 \(\Phi(z)\) 來表示它。

5. 反向常態分佈問題

有時,題目會給你概率(面積),並要求你找出對應的 \(X\) 值,或是參數 \(\mu\) 或 \(\sigma\)。這稱為反向標準化 (Reverse Standardisation)

反向計算步驟:
  1. 找出 \(Z\)-分數: 使用給定的概率(面積)並查閱 \(Z\)-表(反向查找)來找出對應的 \(z\)-值。
  2. 確定正負號:
    • 如果給定的概率面積小於 0.5,則 \(z\)-值必須為
    • 如果給定的概率面積大於 0.5,則 \(z\)-值必須為
  3. 使用標準化公式: 將已知值代入 \(Z = \frac{X - \mu}{\sigma}\) 並解出未知參數(\(X\)、\(\mu\) 或 \(\sigma\))。

例子: 如果 \(P(X < x_1) = 0.1587\)。由於 0.1587 小於 0.5,\(x_1\) 必須位於平均值的左側,其對應的 \(Z\)-分數 \(z_1\) 必須是負數。
我們在表中查找面積 \(1 - 0.1587 = 0.8413\),得到 \(z = 1.00\)。
因此,\(x_1\) 的實際 \(Z\)-分數為 \(\mathbf{z_1 = -1.00}\)。

常見錯誤: 在反向問題中,當概率小於 0.5 時,忘記調整 \(Z\)-分數的正負號。

6. 用常態分佈近似二項分佈

常態分佈作為連續分佈,有時可以用來估計離散的二項分佈 (Binomial Distribution) 的概率。當試驗次數 \(n\) 非常大,導致直接計算困難時,這非常有用。

近似條件

當以下條件滿足時,認為使用常態分佈近似二項分佈 \(X \sim B(n, p)\) 是合適的:

  • 試驗次數 \(n\) 很大。
  • 同時滿足 \(\mathbf{np > 5}\) 和 \(\mathbf{nq > 5}\)(其中 \(q = 1 - p\))。

近似參數

若滿足上述條件,我們使用常態分佈 \(N(\mu, \sigma^2)\) 來近似 \(X\),參數如下:
$$ \mu = np $$ $$ \sigma^2 = npq $$

連續性修正 (Continuity Correction, CC) - 這非常關鍵!

由於我們從離散分佈(二項分佈,結果為整數)轉換為連續分佈(常態分佈),我們必須應用連續性修正

連續性修正涉及將整數值的邊界調整 0.5。將每個整數 \(x\) 視為在連續尺度上涵蓋了從 \((x - 0.5)\) 到 \((x + 0.5)\) 的區間。

連續性修正總結:

離散二項概率 連續常態近似
\(P(X = x)\) \(P(x - 0.5 < X < x + 0.5)\)
\(P(X \leq x)\) \(P(X < x + 0.5)\)
\(P(X < x)\) \(P(X < x - 0.5)\)
\(P(X \geq x)\) \(P(X > x - 0.5)\)
\(P(X > x)\) \(P(X > x + 0.5)\)

例子: 假設你想求恰好 10 次成功的概率,\(P(X=10)\)。
在連續尺度上,「恰好 10」由 9.5 到 10.5 的區間表示。
近似值:\(P(9.5 < X < 10.5)\)。

例子: 如果題目要求「小於 15」,意即 \(X \leq 14\)。
允許的最大整數是 14。連續邊界必須延伸至 14.5。
近似值:\(P(X < 14.5)\)。

近似步驟:

  1. 檢查條件:\(np > 5\) 且 \(nq > 5\)。
  2. 計算 \(\mu = np\) 和 \(\sigma^2 = npq\)。
  3. 對所需的整數邊界應用連續性修正(加或減 0.5)。
  4. 使用 \(Z = \frac{X - \mu}{\sigma}\) 進行標準化。
  5. 按照第 4 節的方法使用 \(Z\)-表求解。

你知道嗎? 常態分佈出現得如此頻繁是因為中心極限定理 (Central Limit Theorem)(Paper 6/S2 的內容)。該定理指出,無論個別變量原本的分佈如何,許多獨立隨機變量的總和或平均值往往會趨向於常態分佈!

重點總結: 當用常態分佈近似二項分佈時,請記住兩個關鍵步驟:從二項分佈參數計算正確的 \(\mu\) 和 \(\sigma^2\),並永遠應用連續性修正(加減 0.5)。