卡方 (\(\chi^2\)) 檢定簡介

歡迎來到進階統計學中最實用的章節之一!你有沒有想過一枚硬幣是否真的公平,或者一間公司聲稱糖果包裝內顏色分佈是「隨機」的說法是否屬實?卡方檢定 (Chi-squared tests) 就是數學家用來解答這些疑問的工具。

在本章中,我們基本上是在比較我們觀察到的數值 (Observed values) 與基於數學模型預期會出現的數值 (Expected values)。如果兩者差異巨大,我們就可能推論該模型是錯誤的!

1. 適合度檢定 (Goodness of Fit Test)

「適合度」檢定旨在檢查特定的機率分佈(例如離散均勻分佈二項分佈卜瓦松分佈)與實際數據的吻合程度。

虛無假設與對立假設

每次檢定都從兩個陳述開始:

\(H_0\) (虛無假設):數據符合該指定分佈(例如:「數據服從卜瓦松分佈」)。
\(H_1\) (對立假設):數據不符合該指定分佈。

檢定統計量

為了衡量觀察值與預期值之間的「差距」,我們使用卡方統計量

\(\chi^2_{calc} = \sum \frac{(O_i - E_i)^2}{E_i}\)

其中:
- \(O_i\) = 觀察頻率(實際發生次數)。
- \(E_i\) = 預期頻率(數學模型預測發生的次數)。

類比:想像你預期每天會收到 10 則訊息。如果收到 9 則,那沒什麼大不了;但如果你收到 200 則,肯定有什麼地方不對勁!卡方統計量正是用來計算這種差異有多「異常」。

黃金法則:「5 的規則」

為了確保卡方檢定的準確性,每個儲存格的預期頻率 (\(E_i\)) 必須至少為 5
常見錯誤:學生經常去檢查觀察值 (\(O_i\))。千萬別這樣做!一定要檢查預期值 (\(E_i\))。如果某個數值小於 5,你必須將該儲存格與相鄰的儲存格合併(並且記得隨後要調整自由度!)。

快速複習箱:
1. 設定 \(H_0\) 與 \(H_1\)。
2. 計算預期頻率 (\(E_i\))。
3. 檢查是否有 \(E_i < 5\)。若有,請合併儲存格。
4. 計算 \(\chi^2\) 統計量。

2. 自由度 (\(\nu\))

「自由度」(用希臘字母 nu, \(\nu\) 表示)告訴我們該使用哪條卡方曲線。這是最容易丟分的地方,所以務必留心!

對於適合度檢定:

\(\nu = n - 1 - k\)

其中:
- \(n\) = 儲存格總數(合併的數量)。
- \(1\) = 由於總頻率固定,必須減去 1。
- \(k\) = 從數據中估計出的參數數量。

何時使用 \(k\)?
- 離散均勻分佈:通常 \(k=0\)(沒有參數需要估計)。
- 卜瓦松分佈:如果你已知 \(\lambda\),則 \(k=0\);如果你必須先從數據中計算平均值 (\(\bar{x}\)),則 \(k=1\)。
- 二項分佈:如果你已知 \(p\),則 \(k=0\);如果你必須利用數據的平均值來計算 \(p\),則 \(k=1\)。

冷知識:「自由度」一詞指的是系統中有多少數值可以自由變動。如果你知道總頻率,且知道除最後一個外的所有儲存格數值,那最後一個數值就「被鎖定」了,這就是為什麼我們要減去 1 的原因!

3. 列聯表 (Contingency Tables)

列聯表用於檢定兩個不同因素是否獨立。例如:「學生的最愛科目與性別之間是否存在關聯?」

列聯表的假設:

\(H_0\):兩個因素相互獨立(無關聯)。
\(H_1\):兩個因素不獨立(存在關聯)。

計算預期頻率:

對於表中的每個儲存格,使用這個簡單的公式:
\(E = \frac{\text{行總和} \times \text{列總和}}{\text{總計}}\)

列聯表的自由度:

\(\nu = (r - 1)(c - 1)\)
其中 \(r\) 是列數,\(c\) 是行數。

提示:對於列聯表,你不需要擔心「估計參數」(\(k\)) 的問題,只需使用行/列公式即可!

4. 尋找臨界值並作出結論

當你算出了 \(\chi^2\) 統計量與自由度 \(\nu\) 後,你需要判斷結果是否顯著。

步驟 1:利用你的顯著水準(通常為 5% 或 1%)與 \(\nu\),查閱考試提供的統計表以找出臨界值 (Critical Value)
步驟 2:比較!
- 若計算出的 \(\chi^2\) > 臨界值:差異大到不可能是巧合。拒絕 \(H_0\)
- 若計算出的 \(\chi^2\) < 臨界值:差異小到可能是隨機誤差。無法拒絕 \(H_0\)(接受 \(H_0\))。

使用計算機:你的計算機通常可以給你一個 p-值 (p-value)
- 若 p-值 < 顯著水準(例如 0.03 < 0.05),則拒絕 \(H_0\)
- 如果覺得一開始很難理解也不用擔心,記住這句口訣:「p 值若低,\(H_0\) 必去!」(If the p is low, the \(H_0\) must go!)

重點檢查清單

核心重點:
- 觀察 (\(O\)):真實數據。預期 (\(E\)):理論數據。
- 5 的規則:若 \(E < 5\),務必合併儲存格。
- 適合度檢定 \(\nu\): \(n - 1 - \text{估計參數數量}\)。
- 列聯表 \(\nu\): \((r-1)(c-1)\)。
- 結論:巨大的 \(\chi^2\) 值會導致拒絕虛無假設。