學習筆記:S2.4 正態分佈 (The Normal Distribution)
你好!歡迎來到正態分佈的世界。如果你想了解現實生活中如人類身高、考試分數或製造誤差等數據是如何自然分佈的,那麼這章節正是為你準備的。它是統計學中最重要的概念之一,因為它能為許多現實生活中的現象建立模型。
別擔心,如果起初看到統計表和公式覺得頭昏腦脹。我們會將每一個步驟拆解,重點放在對稱性和標準化這兩個核心概念上。一旦你掌握了 Z 分數,其他部分就會豁然開朗!
1. 定義正態分佈
1.1 關鍵特徵與符號
正態分佈應用於連續隨機變量。與離散變量(如計數)不同,連續變量可以在某個範圍內取任何數值(例如身高或時間)。
- 分佈形狀呈獨特、對稱的鐘形曲線。
- 它完全由兩個參數決定:平均值 (\(\mu\)) 和變異數 (\(\sigma^2\))。
- 它圍繞平均值對稱,即 平均值 = 中位數 = 眾數。
- 曲線兩端無限延伸,但概率會迅速趨近於零。
關鍵符號:
如果隨機變量 \(X\) 服從平均值為 \(\mu\) 且變異數為 \(\sigma^2\) 的正態分佈,我們寫作:
\( X \sim N(\mu, \sigma^2) \)
常見錯誤警示!
請務必記住,符號 \( N(\mu, \sigma^2) \) 中的第二個數字是變異數 (\(\sigma^2\))。如果題目給你的是標準差 (\(\sigma\)),在代入符號或特定公式前,你必須先將其平方;而在計算 Z 分數時,你必須使用 \(\sigma\)(平方根)。
1.2 性質與經驗法則 (Empirical Rule)
曲線下的總面積為 1(即 100%),代表總概率。
課程要求了解數據相對於標準差 (\(\sigma\)) 的分佈情況:
- 約 \(\frac{2}{3}\) 的觀測值(約 68%)落在平均值的一個標準差內: \( \mu \pm \sigma \)。
- 約 95% 的觀測值落在兩個標準差內: \( \mu \pm 2\sigma \)。
- 幾乎所有(約 99.7%)的觀測值落在三個標準差內: \( \mu \pm 3\sigma \)。
你知道嗎?正態分佈通常也被稱為「高斯分佈」(Gaussian Distribution),是以數學家卡爾·弗里德里希·高斯的名字命名的。
- 形狀: 鐘形且對稱。
- 參數: 由平均值 (\(\mu\)) 和變異數 (\(\sigma^2\)) 定義。
- 面積: 曲線下總面積 = 1。
2. 標準化:Z 轉換 (Z-Transformation)
由於正態分佈可以有任何平均值和標準差,我們無法為每一種可能性都建立一張表。因此,我們使用一個技巧:將每個正態變量 \(X\) 轉換為標準正態變量 \(Z\)。
2.1 標準正態分佈
標準正態分佈是一種特定的正態分佈,其平均值為 0,變異數為 1。
\( Z \sim N(0, 1) \)
2.2 計算 Z 分數 (Z-Score)
Z 分數告訴我們觀測值 (\(X\)) 距離平均值 (\(\mu\)) 到底有多少個標準差。
Z 轉換公式:
\( Z = \frac{X - \mu}{\sigma} \)
其中:
\(X\) 是觀測值。
\(\mu\) 是平均值。
\(\sigma\) 是標準差(不是變異數)。
標準化步驟:
- 找出已知數值:\(X\)、\(\mu\) 和 \(\sigma\)。
- 計算觀測值與平均值的差: \( X - \mu \)。
- 將該差值除以標準差: \(\frac{X - \mu}{\sigma}\)。
- 所得的 \(Z\) 值(根據課程指引,四捨五入至小數點後兩位)便是你在統計表中所使用的數值。
類比:將 Z 分數想像成一種通用語言。無論你是在測量身高(厘米)還是體重(公斤),Z 分數都能將測量值轉換為標準單位(即距離平均值有多遠)。
3. 使用統計表計算概率
標準正態分佈表(通常稱為 \(\Phi\) 表)給出了給定 Z 分數左側的曲線下面積。這寫作 \(\Phi(z)\),意思是 \( P(Z < z) \)。
3.3 對稱性與面積規則
由於正態分佈是完全對稱的,我們可以利用統計表找出所需的任何概率,即使是涉及負 Z 分數或右側面積的情況。
情況 1:左側面積(直接讀表)
對於 \( P(Z < z) \),當 \(z\) 為正數時,直接從表中讀取 \(\Phi(z)\) 值。
情況 2:右側面積
總面積為 1。如果我們需要 \(z\) 右側的面積,則用 1 減去左側的面積:
\( P(Z > z) = 1 - P(Z < z) = 1 - \Phi(z) \)
情況 3:負 Z 分數
如果 Z 分數為負數,例如 \(-z\),根據對稱性,其左側的面積等於 \(z\) 右側的面積。
\( P(Z < -z) = P(Z > z) = 1 - \Phi(z) \)
情況 4:兩個 Z 分數之間的面積
要找出 \(a\) 和 \(b\) 兩個分數之間的概率:
\( P(a < Z < b) = P(Z < b) - P(Z < a) = \Phi(b) - \Phi(a) \)
一定要畫草圖!把你想要的面積塗上陰影。這能立刻讓你看出你需要的是 \( \Phi(z) \)、 \( 1 - \Phi(z) \),還是兩者相減。
- 左側面積: \(\Phi(z)\)
- 右側面積: \(1 - \Phi(z)\)
- 內部面積(對稱): \( \Phi(z) - \Phi(-z) = 2\Phi(z) - 1 \)
4. 反向問題:求未知參數
有時候題目會給出概率(面積),而你需要求出具體的 \(X\) 值,或是未知的平均值 (\(\mu\)) 或標準差 (\(\sigma\))。
反向問題步驟:
- 找出臨界 Z 分數: 使用給定的概率(例如前 10% 或中間 50%)在統計表中查找對應的 Z 分數(你可以使用專用的百分點表 (Percentage Points Table) 查找常見的臨界值)。
- 確定符號: 如果面積涉及低於平均值的情況,Z 分數必須為負;如果高於平均值,則 Z 分數為正。
- 使用公式: 將 Z 分數以及任何已知的 \(X\)、\(\mu\) 或 \(\sigma\) 代入標準化公式: \( Z = \frac{X - \mu}{\sigma} \)。
- 求解: 解出方程式中的未知參數。
情境示例:如果你知道 90% 的學生分數低於 75 分,你可以使用 0.90 查出對應的 Z 分數 (\(z\)),然後列出公式: \( z = \frac{75 - \mu}{\sigma} \)。
5. 獨立正態變量的和與差
這一部分處理將兩個或多個相互獨立的正態分佈隨機變量進行合併的問題。當需要計算例如兩個隨機選擇組件的總重量時,這是一個非常強大的概念。
如果 \( X_1 \sim N(\mu_1, \sigma_1^2) \) 和 \( X_2 \sim N(\mu_2, \sigma_2^2) \) 是相互獨立的,那麼它們的和或差也服從正態分佈。
5.1 合併平均值 (期望值)
和或差的平均值,僅僅是各個平均值的和或差。
對於和: \( E(X_1 + X_2) = \mu_1 + \mu_2 \)
對於差: \( E(X_1 - X_2) = \mu_1 - \mu_2 \)
5.2 合併變異數 (黃金法則)
處理獨立正態變量時,變異數永遠相加,無論你是要計算和 (\(X_1 + X_2\)) 還是差 (\(X_1 - X_2\)) 的概率。
對於和與差:
\( Var(X_1 \pm X_2) = Var(X_1) + Var(X_2) = \sigma_1^2 + \sigma_2^2 \)
關鍵點: 當計算差值的合併分佈(例如 \( X_1 - X_2 \))時,平均值要相減,但變異數依然要相加。之後你必須對合併後的變異數開平方,以求得用於 Z 分數計算的新標準差 (\(\sigma_{new}\))。
5.3 合併後的分佈
如果 \( X_1 \) 和 \( X_2 \) 是獨立且服從正態分佈的:
對於和: \( X_1 + X_2 \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2) \)
對於差: \( X_1 - X_2 \sim N(\mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2) \)
重點總結
正態分佈由其平均值和變異數定義。解決正態分佈問題的核心在於 Z 分數轉換,這讓你可以利用標準統計表。請牢記求概率的對稱規則,以及合併獨立正態變量時變異數永遠相加的規則,無論它們是相加還是相減。