卡方 (\(\chi^2\)) 檢定簡介
歡迎來到統計學中最實用的章節之一!你有沒有想過,你擲骰子時的「運氣」會不會是因為骰子本身不均勻?或者人們聽的音樂是否真的與他們的年齡有關?卡方 (\(\chi^2\)) 檢定就是數學家用來回答這類「預期與現實」問題的工具。
在本章中,我們將學習如何測量我們實際觀察到的數據(Observed)與我們預期會看到的數據(Expected)之間的差異。如果差異很大,那就說明背後有一些值得探究的現象!
1. 核心公式:衡量差距
每一個卡方檢定都使用同一個基本引擎來計算統計量。不用擔心它看起來很嚇人;它其實只是衡量我們的預期與實際情況有多大「出入」的一種方法。
\(\chi^2_{calc} = \sum \frac{(O - E)^2}{E}\)
其中:
\(O\) = 觀察頻數(你收集到的真實數據)。
\(E\) = 期望頻數(如果你的理論正確,數據理應呈現的樣子)。
生活化類比:
想像你預期一天會收到 10 則訊息 (\(E=10\)),但某天你收到了 15 則 (\(O=15\))。「差距」是 5。我們將該差距平方 (\(5^2 = 25\)),這樣負數差距就不會抵消正數差距,然後除以原本的期望值,以了解該差距相對於總體而言有多顯著。
快速回顧:
- \(\chi^2\) 值較大 = 數據與理論之間存在巨大差異。
- \(\chi^2\) 值較小 = 數據與理論非常吻合。
2. 卡方關聯性檢定(列聯表)
當你擁有類別數據並想知道兩個因素是否獨立時,就會用到這個檢定。例如:「數學成績」與「是否吃早餐」之間是否獨立?
假設
\(H_0\):這兩個因素之間沒有關聯(它們是獨立的)。
\(H_1\):這兩個因素之間有關聯(它們是相關的)。
計算期望頻數 (\(E\))
針對表格中的每個格子,計算:
\(E = \frac{\text{列總計} \times \text{行總計}}{\text{總計}}\)
自由度 (\(df\))
「自由度」告訴我們,在總計數值的限制下,表格中有多少個格子是可以「自由變動」的。
公式: \(df = (r - 1)(c - 1)\)
(其中 \(r\) 為列數,\(c\) 為行數)
常見錯誤:
計算 \(df\) 時,請勿將「總計」這一行或一列計算在內!只計算類別本身。
重點總結:
如果你的計算所得 \(\chi^2\) 大於查表所得的臨界值,你就要拒絕 \(H_0\),並得出結論認為兩者之間存在關聯。
3. 卡方適合度檢定
此檢定用於檢查某個特定的數學模型(例如均勻分佈、二項分佈或卜瓦松分佈)是否真的適合你的實際數據。
假設
\(H_0\):數據符合該模型(例如:卜瓦松分佈是一個合適的模型)。
\(H_1\):數據不符合該模型。
黃金法則:較小的期望頻數
如果期望頻數 (\(E\)) 太小,卡方檢定的可靠性會降低。
法則: 如果任何一個 \(E < 5\),你必須將該格與相鄰的格子合併(觀察值也需做同樣處理)。
別擔心,記住這句口訣:「若低於五,合併求生!」
計算模型的自由度 (\(df\))
這與列聯表略有不同:
\(df = (\text{合併後的格子數量}) - 1 - (\text{從數據中估計出的參數數量})\)
估計的參數:
- 均勻分佈: 通常估計 0 個參數。
- 卜瓦松分佈: 如果你從數據中計算平均值,則有 1 個參數 (\(\lambda\))。
- 二項分佈: 如果你從數據中計算機率,則有 1 個參數 (\(p\))。
你知道嗎?
卡方分佈總是正數且向右偏態。隨著自由度增加,其圖形會變得越來越像常態分佈曲線!
4. 解讀結果
得到 \(\chi^2_{calc}\) 後,有兩種方法可以做出決定:
方法 A:使用臨界值表
1. 選擇顯著性水準(通常為 5%)。
2. 使用你的 \(df\) 在公式手冊中查出臨界值。
3. 如果 \(\chi^2_{calc} > \text{臨界值}\),則結果具有顯著性。拒絕 \(H_0\)。
方法 B:使用 p 值(軟體輸出)
如果你使用計算機或電腦,它可能會給你一個 p 值。
- 如果 \(p < \text{顯著性水準}\):拒絕 \(H_0\)。
- 如果 \(p > \text{顯著性水準}\):無法拒絕 \(H_0\)。
記憶口訣:
「P 值低,\(H_0\) 去;P 值高,\(H_0\) 留。」
5. 最後檢查清單
處理卡方考題時,請遵循以下步驟:
1. 清晰陳述假設(\(H_0\) 永遠是「無變化」或「獨立」的一方)。
2. 為每個類別計算期望值 (\(E\))。
3. 檢查 \(E \ge 5\) 規則。必要時合併格子!
4. 使用公式 \(\sum \frac{(O - E)^2}{E}\) 找出統計量。
5. 根據檢定類型確定 \(df\)。
6. 將結果與臨界值比較,並在題目語境中做出結論(例如:「有充分證據表明……」)。
快速複習盒:
- 列聯表 \(df\): \((r-1)(c-1)\)。
- 期望值: 必須 \(\ge 5\)。
- 結論: 務必回到題目本身的內容進行作答!