The normal distribution

學習筆記：5.5 常態分佈 (The Normal Distribution)

你好！歡迎來到「概率與統計 1」(Probability & Statistics 1) 的最後一個章節。常態分佈 (Normal Distribution) 可以說是統計學中最重要的一個連續分佈。為什麼呢？因為現實世界中許多事物——從人的身高到測量誤差——都遵循這種規律。掌握這個主題，你就能解決關於這些現實變量的複雜問題。如果一開始覺得有點棘手，別擔心，我們會一步一步拆解！

1. 理解常態分佈 $X \sim N(\mu, \sigma^2)$

常態分佈用於建立連續隨機變量 (Continuous Random Variable, CRV) 的模型。連續隨機變量是指在給定範圍內可以取任何數值的變量（例如身高、溫度、時間）。

鐘形曲線 (The Bell Curve)

常態分佈的圖形通常被稱為鐘形曲線，因為它有獨特的形狀。

它圍繞平均值 $\mu$ 完全對稱。
平均值 ($\mu$)、中位數和眾數都在同一個中心點上。
曲線下的總面積永遠是 1（代表 100% 的概率）。

記號與參數

我們使用兩個關鍵參數來描述常態分佈：

隨機變量 $X$ 服從常態分佈的記號是：
$$X \sim N(\mu, \sigma^2)$$

$\mu$ (Mu)： 這是平均值（或期望值）。它標定了曲線的中心位置。
$\sigma^2$ (Sigma squared)： 這是方差。它衡量數據的離散程度。
$\sigma$ (Sigma)： 這是標準差。它是方差的平方根，在理解數據離散程度時通常比方差更直觀。

重點總結： 平均值 $\mu$ 告訴你鐘形曲線的中心在哪裡，而標準差 $\sigma$ 則告訴你曲線有多寬或多窄。

2. 標準常態分佈 ($Z$)

每個常態分佈根據其 $\mu$ 和 $\sigma$ 的不同，形態都會略有差異。為了避免需要無限多張表格，我們將任何常態變量 $X$ 轉換為標準形式，稱為標準常態分佈 (Standard Normal Distribution)。

標準常態隨機變量記作 $Z$。

$$Z \sim N(0, 1)$$

這個分佈的平均值 $\mu = 0$，方差 $\sigma^2 = 1$。

使用常態分佈表 ($\Phi(z)$)

MF19 小冊子中提供的表格給出了標準常態分佈的值，記作 $\Phi(z)$。

$\Phi(z) = P(Z < z)$

這意味著表格給出的永遠是給定 $Z$ 值左側的面積（概率）。

記憶小貼士： 把 $\Phi$ (Phi) 想成累計概率——它收集了直到該點為止的所有概率。

3. 標準化：$Z$-公式

要將任何常態分佈 $N(\mu, \sigma^2)$ 中的變量 $X$ 轉換為標準變量 $Z$，我們使用標準化 (Standardisation) 的過程：

$$Z = \frac{X - \mu}{\sigma}$$

$(X - \mu)$ 計算了 $X$ 與平均值的距離。
除以 $\sigma$ 則是將此距離以標準差為單位進行衡量。

例子類比： 想像一場考試得了 70 分。這算高嗎？這取決於平均分！
如果平均值 ($\mu$) 是 50，標準差 ($\sigma$) 是 10：
$Z = \frac{70 - 50}{10} = 2$。這個分數比平均水平高出 2 個標準差——非常優秀！
$Z$-分數能精確告訴你任何分數高出或低於平均水平的幅度。

標準化步驟：

找出 $\mu$ 和 $\sigma$（記住：$\sigma$ 是方差 $\sigma^2$ 的平方根）。
找出你感興趣的 $x$ 值。
使用公式 $Z = \frac{X - \mu}{\sigma}$ 將 $X$ 轉換為 $Z$。
畫出曲線！這對於確定要計算哪部分的面積至關重要。

快速回顧：重要特性

因為常態分佈是連續的：
$$P(X < x) = P(X \leq x)$$
取得特定單一點的概率永遠為零。

4. 使用 $Z$-表解決概率問題

在解決問題時，你必須始終將原始 $X$ 曲線上的所需面積轉換為 $Z$ 曲線上的面積，這樣才能在 $\Phi(z)$ 表中查到值。

情況 1：$P(Z < a)$，其中 $a > 0$（左側面積）

這可以直接查表：
$$P(Z < a) = \Phi(a)$$

情況 2：$P(Z > a)$，其中 $a > 0$（右側面積）

由於總面積為 1，右側面積即 1 減去左側面積：
$$P(Z > a) = 1 - P(Z < a) = 1 - \Phi(a)$$

情況 3：$P(Z < -a)$，其中 $-a < 0$（負值左側的面積）

表格只顯示正的 $Z$。由於對稱性，$-a$ 左側的面積與 $a$ 右側的面積相同。
$$P(Z < -a) = P(Z > a) = 1 - \Phi(a)$$

（課程大綱註：表格指明了這種關係：$ \Phi(-z) = 1 - \Phi(z) $）

情況 4：$P(Z > -a)$，其中 $-a < 0$（負值右側的面積）

由於對稱性，$-a$ 右側的面積涵蓋了整個正半部分加上 $P(0 < Z < a)$ 的面積。這等同於整個面積 $P(Z < a)$：
$$P(Z > -a) = P(Z < a) = \Phi(a)$$

情況 5：$P(a < Z < b)$（兩個值之間的面積）

將較大值的累計概率減去較小值的累計概率。
$$P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a)$$

給同學的關鍵提示： 一定要畫出鐘形曲線並標出所需的區域。這能直觀地確認你需要使用哪個公式（$1 - \Phi$ 還是直接 $\Phi$）。

重點總結： 所有常態分佈概率問題都依賴於對目標面積進行操作，直到你能用基本的累計函數 $\Phi(z)$ 來表示它。

5. 反向常態分佈問題

有時，題目會給你概率（面積），並要求你找出對應的 $X$ 值，或是參數 $\mu$ 或 $\sigma$。這稱為反向標準化 (Reverse Standardisation)。

反向計算步驟：

找出 $Z$-分數： 使用給定的概率（面積）並查閱 $Z$-表（反向查找）來找出對應的 $z$-值。
確定正負號：
- 如果給定的概率面積小於 0.5，則 $z$-值必須為負。
- 如果給定的概率面積大於 0.5，則 $z$-值必須為正。
使用標準化公式： 將已知值代入 $Z = \frac{X - \mu}{\sigma}$ 並解出未知參數（$X$、$\mu$ 或 $\sigma$）。

例子： 如果 $P(X < x_1) = 0.1587$。由於 0.1587 小於 0.5，$x_1$ 必須位於平均值的左側，其對應的 $Z$-分數 $z_1$ 必須是負數。
我們在表中查找面積 $1 - 0.1587 = 0.8413$，得到 $z = 1.00$。
因此，$x_1$ 的實際 $Z$-分數為 $\mathbf{z_1 = -1.00}$。

常見錯誤： 在反向問題中，當概率小於 0.5 時，忘記調整 $Z$-分數的正負號。

6. 用常態分佈近似二項分佈

常態分佈作為連續分佈，有時可以用來估計離散的二項分佈 (Binomial Distribution) 的概率。當試驗次數 $n$ 非常大，導致直接計算困難時，這非常有用。

近似條件

當以下條件滿足時，認為使用常態分佈近似二項分佈 $X \sim B(n, p)$ 是合適的：

試驗次數 $n$ 很大。
同時滿足 $\mathbf{np > 5}$ 和 $\mathbf{nq > 5}$（其中 $q = 1 - p$）。

近似參數

若滿足上述條件，我們使用常態分佈 $N(\mu, \sigma^2)$ 來近似 $X$，參數如下：
$$ \mu = np $$ $$ \sigma^2 = npq $$

連續性修正 (Continuity Correction, CC) - 這非常關鍵！

由於我們從離散分佈（二項分佈，結果為整數）轉換為連續分佈（常態分佈），我們必須應用連續性修正。

連續性修正涉及將整數值的邊界調整 0.5。將每個整數 $x$ 視為在連續尺度上涵蓋了從 $(x - 0.5)$ 到 $(x + 0.5)$ 的區間。

連續性修正總結：

離散二項概率	連續常態近似
$P(X = x)$	$P(x - 0.5 < X < x + 0.5)$
$P(X \leq x)$	$P(X < x + 0.5)$
$P(X < x)$	$P(X < x - 0.5)$
$P(X \geq x)$	$P(X > x - 0.5)$
$P(X > x)$	$P(X > x + 0.5)$

例子： 假設你想求恰好 10 次成功的概率，$P(X=10)$。
在連續尺度上，「恰好 10」由 9.5 到 10.5 的區間表示。
近似值：$P(9.5 < X < 10.5)$。

例子： 如果題目要求「小於 15」，意即 $X \leq 14$。
允許的最大整數是 14。連續邊界必須延伸至 14.5。
近似值：$P(X < 14.5)$。

近似步驟：

檢查條件：$np > 5$ 且 $nq > 5$。
計算 $\mu = np$ 和 $\sigma^2 = npq$。
對所需的整數邊界應用連續性修正（加或減 0.5）。
使用 $Z = \frac{X - \mu}{\sigma}$ 進行標準化。
按照第 4 節的方法使用 $Z$-表求解。

你知道嗎？ 常態分佈出現得如此頻繁是因為中心極限定理 (Central Limit Theorem)（Paper 6/S2 的內容）。該定理指出，無論個別變量原本的分佈如何，許多獨立隨機變量的總和或平均值往往會趨向於常態分佈！

重點總結： 當用常態分佈近似二項分佈時，請記住兩個關鍵步驟：從二項分佈參數計算正確的 $\mu$ 和 $\sigma^2$，並永遠應用連續性修正（加減 0.5）。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

離散二項概率	連續常態近似
\(P(X = x)\)	\(P(x - 0.5 < X < x + 0.5)\)
\(P(X \leq x)\)	\(P(X < x + 0.5)\)
\(P(X < x)\)	\(P(X < x - 0.5)\)
\(P(X \geq x)\)	\(P(X > x - 0.5)\)
\(P(X > x)\)	\(P(X > x + 0.5)\)

學習筆記：5.5 常態分佈 (The Normal Distribution)

1. 理解常態分佈 \(X \sim N(\mu, \sigma^2)\)

鐘形曲線 (The Bell Curve)

記號與參數

2. 標準常態分佈 (\(Z\))

使用常態分佈表 (\(\Phi(z)\))

3. 標準化：\(Z\)-公式

快速回顧：重要特性

4. 使用 \(Z\)-表解決概率問題

情況 1：\(P(Z < a)\)，其中 \(a > 0\)（左側面積）

情況 2：\(P(Z > a)\)，其中 \(a > 0\)（右側面積）

情況 3：\(P(Z < -a)\)，其中 \(-a < 0\)（負值左側的面積）

情況 4：\(P(Z > -a)\)，其中 \(-a < 0\)（負值右側的面積）

情況 5：\(P(a < Z < b)\)（兩個值之間的面積）