χ2-test

歡迎來到 $\chi^2$ 檢定：成為數據偵探！

歡迎來到「進階統計學」中最實用且引人入勝的章節之一！卡方檢定（Chi-squared test，簡稱 $\chi^2$-test）是你的得力工具，用來判斷你在現實世界觀察到的數據是否符合理論預期，或是兩個特徵（例如性別與喜愛的運動）之間是否存在關聯。
如果起初覺得有點複雜，別擔心！我們會將其拆解成清晰且符合邏輯的步驟。學完這一章，你將能夠運用統計檢定來判斷自己對數據的假設是否合理！

在本課程大綱中，$\chi^2$ 檢定主要分為兩大類：
1. 適合度檢定 (Goodness of Fit, GOF)：一個理論分佈（例如卜瓦松分佈或二項分佈）能否準確描述觀察到的數據？
2. 獨立性檢定 (Test for Independence)：兩個類別變數是相關的，還是相互獨立的？（這會用到列聯表 Contingency Table）。

1. 基礎概念：$\chi^2$ 檢定統計量

1.1 什麼是 $\chi^2$ 統計量？

$\chi^2$ 檢定統計量是一個用來衡量觀察次數（$O$，Observed Frequencies）與期望次數（$E$，Expected Frequencies）之間差異的單一數值。

類比： 想像你預期有 50 人穿紅色、50 人穿藍色。如果你觀察到 60 人穿紅、40 人穿藍，$\chi^2$ 統計量就能量化這種「10/10 的差異」到底有多「嚴重」。

1.2 公式

計算方式是將每個類別或儲存格中「觀察次數與期望次數之差的平方」，除以該期望次數，然後將結果加總：

$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

$\chi^2$：計算出的卡方統計量。
$O_i$：第 $i$ 個類別的觀察次數（實驗中實際計數的結果）。
$E_i$：第 $i$ 個類別的期望次數（基於虛無假設 $H_0$ 所預期的結果）。

重點總結：
$\chi^2$ 值越大，代表觀察到的數據與預期之間的偏差越大。這表示反對虛無假設 ($H_0$) 的證據越強。

2. 適合度檢定 (GOF)

適合度檢定用於檢查一組觀察數據是否符合假設的理論分佈（如均勻分佈、二項分佈或卜瓦松分佈）。

2.1 GOF 的操作步驟

步驟 1：建立假設

$\chi^2$ 檢定永遠是右尾檢定（因為更大的數值代表差異更大）。

虛無假設 ($H_0$)：數據符合指定的分佈。（例如：$H_0$：數據符合卜瓦松分佈。）
對立假設 ($H_1$)：數據不符合指定的分佈。（例如：$H_1$：數據不符合卜瓦松分佈。）

步驟 2：計算期望次數 ($E_i$)

完全基於 $H_0$，你必須為每個類別計算期望次數。

範例： 如果 $H_0$ 指出數據在 5 個類別中呈均勻分佈，且總觀察數為 100，那麼每個類別的 $E_i = 100 / 5 = 20$。

若是卜瓦松/二項分佈： 使用 $H_0$ 指定分佈中的理論機率 $P(X=x)$，然後計算 $E_i = N \times P(X=x)$，其中 $N$ 為總觀察次數。

步驟 3：檢查期望次數規則（黃金法則）

關鍵要求： 為確保 $\chi^2$ 檢定的有效性，每個期望次數 $(E_i)$ 必須至少為 5。

如果你發現某個期望次數小於 5，你必須將該類別（以及對應的觀察次數）與鄰近的類別合併。這通常發生在分佈的兩端（極小或極大的類別）。

你知道嗎？這條規則的存在是因為 $\chi^2$ 檢定的數學原理依賴於近似值，若期望值太小，該近似將會失效。

步驟 4：計算檢定統計量 $\chi^2$

必要時使用合併後的類別代入公式進行計算。

$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

步驟 5：確定自由度 ($\nu$)

這通常是 GOF 檢定中最棘手的部分。自由度 $\nu$ 代表在應用約束條件後，有多少類別可以「自由變動」。

$$ \nu = (\text{最終類別數}) - 1 - (\text{估計的參數個數}) $$

減去 1 是因為總數 ($N$) 固定，限制了最後一個類別。
如果你必須從數據本身估計參數（例如卜瓦松的 $\lambda$ 或二項分佈的 $p$）來計算 $E_i$，則每估計一個參數就要多減去 1。

範例：

檢定均勻分佈（無估計參數）：$\nu = (\text{類別數}) - 1$。
檢定卜瓦松分佈，且由數據估計出平均值 $\lambda$：$\nu = (\text{類別數}) - 1 - 1$。
檢定常態分佈，且由數據估計出平均值 $\mu$ 和變異數 $\sigma^2$：$\nu = (\text{類別數}) - 1 - 2$。

快速複習：GOF 的自由度

記憶口訣： C 減 C 減 P。
$\nu = \mathbf{C}$ategories (最終類別數) - $\mathbf{C}$onstraint (約束，永遠為 1) - $\mathbf{P}$arameters estimated (估計參數數)。

3. 獨立性檢定 (列聯表)

當你有兩個類別變數，並想知道了解其中一個變數是否有助於預測另一個變數時，就會用到獨立性檢定。數據通常呈現在一個稱為列聯表 (Contingency Table) 的矩形表格中。

3.1 獨立性檢定的操作步驟

步驟 1：建立假設

此檢定檢驗兩個變數 A 與 B 之間的關係。

虛無假設 ($H_0$)：兩個變數獨立（無關聯）。
對立假設 ($H_1$)：兩個變數不獨立（有關聯/關係）。

範例：$H_0$：性別與偏好的交通工具是獨立的。

步驟 2：計算每個儲存格的期望次數

若事件 A 與 B 獨立，則 $P(A \cap B) = P(A) \times P(B)$。我們將此邏輯應用於次數計算。

表中任何儲存格的期望次數 ($E$) 可利用邊際合計數計算：

$$ E = \frac{(\text{列合計}) \times (\text{欄合計})}{\text{總合計}} $$

再次確認黃金法則： 與 GOF 一樣，每個儲存格的期望次數 ($E_i$) 必須至少為 5。若有任何儲存格 $E_i < 5$，必須合併相應的列或欄，直到符合限制為止。

步驟 3：計算檢定統計量 $\chi^2$

計算方式與前述完全相同，將列聯表中所有最終儲存格的數值進行加總。

$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$

步驟 4：確定自由度 ($\nu$)

對於包含 $r$ 列與 $c$ 欄的列聯表，自由度的計算非常簡單：

$$ \nu = (r-1)(c-1) $$

其中 $r$ 與 $c$ 是合併完成後最終的列數與欄數。

範例： 若你有一個 3x4 表格（3 列，4 欄）：$\nu = (3-1)(4-1) = 2 \times 3 = 6$。

重點總結：
獨立性檢定的自由度計算方式：將（列數減 1）乘以（欄數減 1），即 $(r-1)(c-1)$。

4. 下決策 (解讀結果)

計算出 $\chi^2$ 統計量與自由度 $\nu$ 後，請查閱 MF19 表格中的卡方分佈臨界值表。

4.1 臨界值與顯著水準

比較你計算出的 $\chi^2$ 值與選定顯著水準 ($\alpha$) 及對應自由度 $\nu$ 下的臨界值 $k$。記住，由於我們只關注巨大的偏差，因此 $\chi^2$ 檢定永遠是右尾的。

例如，若以 5% 的顯著水準進行檢定，則查表時對應 $p=0.95$ 的欄位。

4.2 拒絕規則

卡方分佈顯著向右偏斜，拒絕區域總是在右尾。

若 計算值 $\chi^2 \le$ 臨界值：我們不拒絕 $H_0$。
結論： 沒有足夠的證據顯示數據不符合模型 (GOF)，或顯示變數之間存在關聯 (獨立性)。
若 計算值 $\chi^2 >$ 臨界值：我們拒絕 $H_0$。
結論： 在 $\alpha\%$ 水準下有充分證據顯示數據不符合建議的分佈，或變數之間並非獨立。

你知道嗎？「卡方」一詞來自希臘字母 $\chi$。卡方分佈本身是一種連續機率分佈，但在這裡我們用它來近似測試數據的離散頻率。

4.3 避免常見錯誤

忘記 $\nu$ 的約束條件： 記得檢查是否需要減去估計的參數 (GOF)，或是否使用了錯誤的 $r$ 與 $c$ (獨立性)。
違反黃金法則： 忽略期望次數 ($E_i$) 必須 $\ge 5$ 的要求會導致檢定無效。請務必合併類別直到符合此準則。
過早比較 O 和 E： 檢定統計量是使用「次數」而非「機率」計算的。務必確保所有期望值都已換算為計數值。

章節總結：$\chi^2$ 精華

公式（永遠不變）：

$$ \chi^2 = \sum \frac{(O - E)^2}{E} $$

黃金法則（務必檢查）：

期望次數 $E$ 必須 $\ge 5$。若不符合，請合併類別/儲存格。

自由度 ($\nu$)：

適合度檢定 (GOF)： $\nu = (\text{類別數}) - 1 - (\text{估計參數數})$
獨立性檢定： $\nu = (r-1)(c-1)$ （$r$ 為列，$c$ 為欄）

決策標準：

若 計算值 $\chi^2 >$ 臨界值，則拒絕 $H_0$。代表你的觀察數據與預期差異過大。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

歡迎來到 $\chi^2$ 檢定：成為數據偵探！

1. 基礎概念：$\chi^2$ 檢定統計量

1.1 什麼是 $\chi^2$ 統計量？

1.2 公式

2. 適合度檢定 (GOF)

2.1 GOF 的操作步驟

步驟 1：建立假設

步驟 2：計算期望次數 (\(E_i\))

步驟 3：檢查期望次數規則（黃金法則）

步驟 4：計算檢定統計量 \(\chi^2\)

步驟 5：確定自由度 (\(\nu\))

3. 獨立性檢定 (列聯表)

3.1 獨立性檢定的操作步驟

步驟 1：建立假設

步驟 2：計算每個儲存格的期望次數

步驟 3：計算檢定統計量 \(\chi^2\)

步驟 4：確定自由度 (\(\nu\))

4. 下決策 (解讀結果)

4.1 臨界值與顯著水準

4.2 拒絕規則

4.3 避免常見錯誤

章節總結：\(\chi^2\) 精華

公式（永遠不變）：

黃金法則（務必檢查）：

自由度 (\(\nu\))：

決策標準：

立即實踐所學