Further hypothesis testing

👋 歡迎來到進階假設檢定！

哈囉，未來的統計學家！在 AS Mathematics 的課程中，你已經掌握了假設檢定的基本概念：檢驗單一總體平均值或比例是否與聲稱的數值有所不同。這章節我們要更上一層樓！

在進階數學（Further Mathematics）中，我們會探討更複雜的現實情境。我們將學習如何比較兩個總體（A 國的薪資真的比 B 國高嗎？），以及如何檢定數據是否符合特定的分佈（這顆骰子真的是隨機的嗎？）。

這個單元需要你為任務選擇正確的統計工具——無論是 Z-test、t-test、$\chi^2$ 檢定還是 F-test。別擔心，我們會為你詳細拆解該在何時使用哪種檢定！

1. 評估檢定：檢定的效力（Power）

進行假設檢定時，我們總是有犯錯的風險。你已經知道兩種類型的錯誤，但讓我們快速複習一下，因為這對於理解「效力（Power）」至關重要。

1.1 複習錯誤類型（法庭比喻）

第一型錯誤（Type I Error, $\alpha$）： 當虛無假設（$H_0$）實際上為真時，卻拒絕了它。
比喻：陪審團判定一個清白的人有罪。
第二型錯誤（Type II Error, $\beta$）： 當對立假設（$H_1$）實際上為真時，卻無法拒絕 $H_0$。
比喻：陪審團讓一個有罪的人無罪釋放。

顯著水準（Significance Level, $\alpha$） 是犯下第一型錯誤的最大機率。

1.2 效力（Power）的定義

檢定的效力（Power）是指正確拒絕虛偽虛無假設的機率。

$$ \text{Power} = 1 - P(\text{第二型錯誤}) = 1 - \beta $$

解讀： 一個高效力的檢定，在差異真實存在時，非常擅長偵測出這種差異。我們當然希望檢定的效力越高越好！

1.3 計算 $P(\text{第二型錯誤})$ 與效力

計算 $\beta$（進而求出效力）只有在對立假設（$H_1$）為簡單對立假設（Simple Alternative）時才可行。這意味著 $H_1$ 為總體參數指定了一個單一數值，例如 $H_1: \mu = 105$（而不是 $H_1: \mu > 100$）。

逐步計算 $\beta$ 的步驟：

步驟 1：設定拒絕域（在 $H_0$ 下）： 使用虛無假設（$H_0$）和顯著水準（$\alpha$）找到臨界值（Critical value, $C$）。此臨界值通常是以樣本平均數（$\bar{X}$）來表示。
步驟 2：計算 $\beta$： 假設對立假設（$H_1$）為真。使用步驟 1 找到的臨界值（$C$），但此時要計算檢定統計量落在拒絕域「之外」的機率，前提是假設 $H_1$ 所定義的分佈是正確的。
步驟 3：計算效力： $1 - \beta$。

快速回顧： 效力告訴你你的檢定有多準。如果真實的平均值與 $H_0$ 的平均值相距很遠，效力就會很高（容易偵測）；如果真實平均值非常接近，效力就會很低（難以偵測）。

2. 比較兩個總體平均值的檢定（$\mu_1$ 對比 $\mu_2$）

在進階數學中，我們經常比較兩個不同總體的平均值 $\mu_1$ 和 $\mu_2$。虛無假設通常是 $H_0: \mu_1 = \mu_2$，或者等價地寫為 $H_0: \mu_1 - \mu_2 = 0$。

2.1 獨立樣本且變異數已知（Z-test）

如果兩個總體變異數（$\sigma_1^2$ 和 $\sigma_2^2$）均已知，或者兩個樣本均為大樣本（$n_1 > 30$ 且 $n_2 > 30$），我們使用基於常態分佈的 Z-test。

檢定統計量為： $$ Z = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} $$

注意： 如果樣本很大但變異數未知，我們可以用樣本變異數（$S_1^2, S_2^2$）來替代總體變異數（$\sigma_1^2, \sigma_2^2$）。

2.2 獨立小樣本且變異數未知但相等（合拼 t-test, Pooled t-Test）

這是最棘手的情況。如果樣本很小（$n < 30$），總體變異數未知，且我們假設兩個總體具有相同的變異數（$\sigma_1^2 = \sigma_2^2$），我們必須使用合拼 t-test（pooled t-test）。

為什麼要「合拼（Pooling）」？

既然我們假設 $\sigma_1^2 = \sigma_2^2$，將兩個樣本的資訊結合起來以獲得這個共同變異數的更好整體估計值是很合理的。這個結合後的估計值稱為合拼變異數估計值（pooled estimate of variance），記作 $S_p^2$。

合拼變異數的公式為： $$ S_p^2 = \frac{(n_1 - 1) S_1^2 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2} $$

所得的 t-test 統計量為： $$ T = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{S_p^2 \left( \frac{1}{n_1} + \frac{1}{n_2} \right)}} $$

此檢定的自由度（Degrees of Freedom, $v$）為 $n_1 + n_2 - 2$。

常見錯誤： 當樣本很小且假設變異數相等時，學生常忘記使用合拼變異數。請留意題目中的關鍵字，如 *"assume population variances are the same"*。

2.3 配對樣本（非獨立數據）

如果數據點是配對的（例如：減肥前的體重與減肥後的體重），那麼這兩個樣本是非獨立的。

在這種情況下，我們不直接比較平均值。相反，我們會計算每一對的差值（Difference, $D$），並檢定差值的平均值（$\mu_D$）是否為零。

$H_0: \mu_D = 0$
我們對差值數據 $D$ 使用標準的單樣本 t-test 公式。
$T = \frac{\bar{D} - \mu_D}{S_D / \sqrt{n}}$
自由度：$n - 1$（其中 $n$ 為配對的數量）。

比喻： 想像測試兩款輪胎。如果你把 A 款裝在一輛車上，B 款裝在另一輛不同的車上，它們是獨立的。但如果你把 A 款裝在 10 輛車的左邊，B 款裝在同樣 10 輛車的右邊，它們就是配對的——車輛本身的差異被抵消了。

3. 變異數檢定：$\chi^2$ 與 $F$ 分佈

有時，總體內部的變異性（變異數）與平均值同樣重要。例如，品質管理團隊需要確保製造零件的尺寸變異不會太大。

3.1 單一變異數（$\sigma^2$）檢定

要檢定單一總體變異數（$\sigma^2$）是否等於某個特定值（$\sigma_0^2$），我們使用卡方分佈（Chi-Squared distribution, $\chi^2$）。

你知道嗎？

使用 $\chi^2$ 分佈是因為變異數（標準差的平方）不可能為負。與常態分佈不同，所得的分佈是偏態的。

檢定統計量為： $$ \chi^2 = \frac{(n-1) S^2}{\sigma^2} $$

$S^2$ 是樣本變異數。
$\sigma^2$ 是假設的總體變異數（在 $H_0$ 下）。
自由度（$v$）為 $n-1$。

我們將計算出的 $\chi^2$ 值與 $\chi^2$ 表中的臨界值進行比較。由於該分佈不對稱，進行雙尾檢定時必須檢查兩端。

3.2 兩個變異數比率的檢定（F-test）

如果你需要比較兩個獨立常態總體的變異數（$\sigma_1^2$ 對比 $\sigma_2^2$），你會使用 F-分佈。

此檢定常在執行合拼 t-test（2.2 節）之前作為初步檢查。

$H_0: \sigma_1^2 = \sigma_2^2$ （比率為 1）

檢定統計量為： $$ F = \frac{S_1^2}{S_2^2} $$

慣例： 進行 F-test 時，標準做法是將較大的樣本變異數（$S^2$）放在分子。這確保了 $F \ge 1$。
這將檢定轉換為單尾檢定（因為我們只檢查 F-分佈的右尾）。
F-分佈有兩組自由度：$v_1$（分子）和 $v_2$（分母）。如果 $S_1^2$ 在分子，則 $v_1 = n_1 - 1$ 且 $v_2 = n_2 - 1$。

快速回顧：

檢定一個變異數：使用 $\chi^2$ ($df = n-1$)。
檢定兩個變異數的比率：使用 $F$ ($df_1 = n_1-1, df_2 = n_2-1$)。

4. 分類數據與擬合度檢定（$\chi^2$ 檢定）

當處理非數值的分類數據，或想確認觀察到的數據是否符合已知機率分佈時，$\chi^2$ 統計量也被廣泛使用。

4.1 適合度檢定（Goodness of Fit, GoF）

GoF 檢定用於檢查從樣本中觀察到的頻率（$O_i$）是否與特定理論分佈（如均勻分佈、卜瓦松分佈、常態分佈）所導出的期望頻率（$E_i$）吻合。

檢定統計量衡量差異程度： $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

GoF 檢定的關鍵規則：

期望頻率（$E_i$）： 標準慣例是所有期望頻率 $E_i$ 必須大於 5。
合拼（Pooling）： 如果某個 $E_i$ 值為 5 或以下，你必須將該類別與相鄰類別合拼，直到合拼後的期望頻率大於 5 為止。
自由度（$v$）： $v = (\text{合拼後的類別數}) - 1 - (\text{估計的參數個數})$。
例子： 如果檢定卜瓦松分佈，必須從數據中估計平均值（$\lambda$），因此 $p=1$。如果檢定常態分佈，則估計平均值（$\mu$）與標準差（$\sigma$），所以 $p=2$。如果未估計任何參數（如均勻分佈），則 $p=0$。

比喻： 你正在把你實際烤出的蛋糕（Observed）與食譜上的照片（Expected）進行比較。$\chi^2$ 值告訴你你的蛋糕距離完美模型有多遠。

4.2 列聯表（獨立性檢定）

此檢定用於判定從單一總體收集的兩個不同分類（變數）之間是否存在關聯。

$H_0$：兩個分類是獨立的。
$H_1$：兩個分類是相關的。

$\chi^2$ 檢定統計量的公式保持不變： $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

計算 $E_i$ 的方法： $$ E_{i} = \frac{(\text{該列總計}) \times (\text{該行總計})}{\text{總樣本數}} $$

具有 $R$ 列與 $C$ 行的列聯表的自由度（$v$）為： $$ v = (R - 1)(C - 1) $$

4.3 $2 \times 2$ 表的葉氏校正（Yates' Correction）

處理小型列聯表（$2 \times 2$ 表，自由度為 1）時，連續的 $\chi^2$ 分佈只是離散數據的一個粗略近似。為了提高準確度，我們使用葉氏連續性校正（Yates' correction for continuity）。

此校正會在平方之前，將觀察頻率與期望頻率之間的差距縮小 0.5： $$ \chi_{\text{corrected}}^2 = \sum \frac{(|O_i - E_i| - 0.5)^2}{E_i} $$

記住： 僅在 $2 \times 2$ 表中使用葉氏校正，並且別忘了 $E_i > 5$ 的慣例依然適用。

🧠 進階假設檢定重點總結

效力（Power, 1 - $\beta$）： 偵測到真實效果的機率。計算方式是先找到 $H_0$ 下的「不拒絕域」，然後檢查在 $H_1$ 分佈下落在該區域的機率。
比較平均值： 使用 Z（大樣本/已知 $\sigma^2$）、使用合拼變異數的 t（小樣本、$\sigma^2$ 未知但假設相等），或對差值使用 t（配對樣本）。
檢定 $\sigma^2$： 單一變異數使用 $\chi^2$，兩個變異數比率使用 $F$。對於 F-test，務必將較大的 $S^2$ 放在分子。
分類數據 $\chi^2$ 檢定： 用於適合度（GoF）或獨立性（列聯表）。
- 確保所有期望頻率 $E_i > 5$（必要時進行類別合拼）。
- 在 GoF 檢定中，記得減去估計參數所佔用的自由度。
- 對於 $2 \times 2$ 列聯表，務必使用葉氏校正（Yates' correction）。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

👋 歡迎來到進階假設檢定！

1. 評估檢定：檢定的效力（Power）

1.1 複習錯誤類型（法庭比喻）

1.2 效力（Power）的定義

1.3 計算 \(P(\text{第二型錯誤})\) 與效力

逐步計算 \(\beta\) 的步驟：

2. 比較兩個總體平均值的檢定（\(\mu_1\) 對比 \(\mu_2\)）

2.1 獨立樣本且變異數已知（Z-test）

2.2 獨立小樣本且變異數未知但相等（合拼 t-test, Pooled t-Test）

為什麼要「合拼（Pooling）」？

2.3 配對樣本（非獨立數據）

3. 變異數檢定：\(\chi^2\) 與 \(F\) 分佈

3.1 單一變異數（\(\sigma^2\)）檢定

你知道嗎？

3.2 兩個變異數比率的檢定（F-test）

4. 分類數據與擬合度檢定（\(\chi^2\) 檢定）

4.1 適合度檢定（Goodness of Fit, GoF）

GoF 檢定的關鍵規則：

4.2 列聯表（獨立性檢定）

4.3 \(2 \times 2\) 表的葉氏校正（Yates' Correction）

🧠 進階假設檢定重點總結

立即實踐所學