卡方 (\(\chi^2\)) 檢定簡介
歡迎來到進階統計學中最實用的章節之一!你有沒有想過一枚硬幣是否真的公平,或者一間公司聲稱糖果包裝內顏色分佈是「隨機」的說法是否屬實?卡方檢定 (Chi-squared tests) 就是數學家用來解答這些疑問的工具。
在本章中,我們基本上是在比較我們觀察到的數值 (Observed values) 與基於數學模型預期會出現的數值 (Expected values)。如果兩者差異巨大,我們就可能推論該模型是錯誤的!
1. 適合度檢定 (Goodness of Fit Test)
「適合度」檢定旨在檢查特定的機率分佈(例如離散均勻分佈、二項分佈或卜瓦松分佈)與實際數據的吻合程度。
虛無假設與對立假設
每次檢定都從兩個陳述開始:
\(H_0\) (虛無假設):數據符合該指定分佈(例如:「數據服從卜瓦松分佈」)。
\(H_1\) (對立假設):數據不符合該指定分佈。
檢定統計量
為了衡量觀察值與預期值之間的「差距」,我們使用卡方統計量:
\(\chi^2_{calc} = \sum \frac{(O_i - E_i)^2}{E_i}\)
其中:
- \(O_i\) = 觀察頻率(實際發生次數)。
- \(E_i\) = 預期頻率(數學模型預測發生的次數)。
類比:想像你預期每天會收到 10 則訊息。如果收到 9 則,那沒什麼大不了;但如果你收到 200 則,肯定有什麼地方不對勁!卡方統計量正是用來計算這種差異有多「異常」。
黃金法則:「5 的規則」
為了確保卡方檢定的準確性,每個儲存格的預期頻率 (\(E_i\)) 必須至少為 5。
常見錯誤:學生經常去檢查觀察值 (\(O_i\))。千萬別這樣做!一定要檢查預期值 (\(E_i\))。如果某個數值小於 5,你必須將該儲存格與相鄰的儲存格合併(並且記得隨後要調整自由度!)。
快速複習箱:
1. 設定 \(H_0\) 與 \(H_1\)。
2. 計算預期頻率 (\(E_i\))。
3. 檢查是否有 \(E_i < 5\)。若有,請合併儲存格。
4. 計算 \(\chi^2\) 統計量。
2. 自由度 (\(\nu\))
「自由度」(用希臘字母 nu, \(\nu\) 表示)告訴我們該使用哪條卡方曲線。這是最容易丟分的地方,所以務必留心!
對於適合度檢定:
\(\nu = n - 1 - k\)
其中:
- \(n\) = 儲存格總數(合併後的數量)。
- \(1\) = 由於總頻率固定,必須減去 1。
- \(k\) = 從數據中估計出的參數數量。
何時使用 \(k\)?
- 離散均勻分佈:通常 \(k=0\)(沒有參數需要估計)。
- 卜瓦松分佈:如果你已知 \(\lambda\),則 \(k=0\);如果你必須先從數據中計算平均值 (\(\bar{x}\)),則 \(k=1\)。
- 二項分佈:如果你已知 \(p\),則 \(k=0\);如果你必須利用數據的平均值來計算 \(p\),則 \(k=1\)。
冷知識:「自由度」一詞指的是系統中有多少數值可以自由變動。如果你知道總頻率,且知道除最後一個外的所有儲存格數值,那最後一個數值就「被鎖定」了,這就是為什麼我們要減去 1 的原因!
3. 列聯表 (Contingency Tables)
列聯表用於檢定兩個不同因素是否獨立。例如:「學生的最愛科目與性別之間是否存在關聯?」
列聯表的假設:
\(H_0\):兩個因素相互獨立(無關聯)。
\(H_1\):兩個因素不獨立(存在關聯)。
計算預期頻率:
對於表中的每個儲存格,使用這個簡單的公式:
\(E = \frac{\text{行總和} \times \text{列總和}}{\text{總計}}\)
列聯表的自由度:
\(\nu = (r - 1)(c - 1)\)
其中 \(r\) 是列數,\(c\) 是行數。
提示:對於列聯表,你不需要擔心「估計參數」(\(k\)) 的問題,只需使用行/列公式即可!
4. 尋找臨界值並作出結論
當你算出了 \(\chi^2\) 統計量與自由度 \(\nu\) 後,你需要判斷結果是否顯著。
步驟 1:利用你的顯著水準(通常為 5% 或 1%)與 \(\nu\),查閱考試提供的統計表以找出臨界值 (Critical Value)。
步驟 2:比較!
- 若計算出的 \(\chi^2\) > 臨界值:差異大到不可能是巧合。拒絕 \(H_0\)。
- 若計算出的 \(\chi^2\) < 臨界值:差異小到可能是隨機誤差。無法拒絕 \(H_0\)(接受 \(H_0\))。
使用計算機:你的計算機通常可以給你一個 p-值 (p-value)。
- 若 p-值 < 顯著水準(例如 0.03 < 0.05),則拒絕 \(H_0\)。
- 如果覺得一開始很難理解也不用擔心,記住這句口訣:「p 值若低,\(H_0\) 必去!」(If the p is low, the \(H_0\) must go!)
重點檢查清單
核心重點:
- 觀察 (\(O\)):真實數據。預期 (\(E\)):理論數據。
- 5 的規則:若 \(E < 5\),務必合併儲存格。
- 適合度檢定 \(\nu\): \(n - 1 - \text{估計參數數量}\)。
- 列聯表 \(\nu\): \((r-1)(c-1)\)。
- 結論:巨大的 \(\chi^2\) 值會導致拒絕虛無假設。