簡介:解讀隨機性

歡迎來到卡方 (\(\chi^2\)) 檢定的世界!你有沒有想過,兩件事情之間是真的有關聯,還是純屬巧合?例如,你選擇的雪糕口味是真的取決於天氣,還是完全隨機的?

在本章中,我們將學習如何使用卡方分佈來驗證這類想法。這是統計學家工具箱中最實用的工具之一,因為它能幫助我們判斷「預期」與「實際」結果之間的「差距」是否大到具有統計學意義。

如果起初覺得這些符號有點複雜也不用擔心,讀完這份筆記後,你會發現這其實是一個非常合乎邏輯的步驟化過程!

1. 核心概念:「驚喜」公式

卡方檢定的本質是衡量數據讓我們有多「驚訝」。我們將觀測頻數 (\(O\))(我們實際收集到的數據)與期望頻數 (\(E\))(若虛無假設成立時,我們預期會看到的數據)進行比較。

檢定統計量使用以下公式計算:

\(\chi^2 = \sum \frac{(O - E)^2}{E}\)


公式解析:
  • \((O - E)\):差異(即「差距」)。
  • \((O - E)^2\):我們將其平方,以免正負差異互相抵消。
  • \(\div E\):我們除以期望值以進行標準化。如果你預期有 10 個,出現 5 的差距是「大事」;但如果你預期有 1,000 個,出現 5 的差距則是「微不足道」!

快速複習:卡方檢定的「大原則」

為了使檢定有效,每個期望頻數 (\(E\)) 必須至少為 5。如果有任何數值小於 5,你需要合併列或行(在列聯表中),或合併鄰近的組別(在適合度檢定中),直到數值達到 5 或以上。

重點摘要: 卡方統計量是各項「貢獻值」的總和。卡方值越大,代表我們的數據與預期之間的差異越顯著。

2. 獨立性檢定(列聯表)

列聯表 (Contingency table) 是一個顯示兩個變數(如「性別」與「投票意向」)頻數的表格。我們使用卡方檢定來判斷這兩個變數是否獨立

步驟流程:

  1. 設定假設:
    \(H_0\):兩個變數是獨立的(沒有關係)。
    \(H_1\):兩個變數不是獨立的(存在關係)。
  2. 計算期望頻數 (\(E\)): 對於表格中的每個儲存格,使用這個實用公式:

    \(E = \frac{\text{列合計} \times \text{行合計}}{\text{總合計}}\)

  3. 檢查「5 之法則」: 如果有任何 \(E < 5\),請將該行/列與鄰近的行/列合併。
  4. 計算卡方檢定統計量: 使用 \(\sum \frac{(O-E)^2}{E}\) 公式。
  5. 找出自由度 (\(\nu\)):

    \(\nu = (\text{行數} - 1) \times (\text{列數} - 1)\)

  6. 與臨界值比較: 在提供的表格中查閱對應的 \(\nu\) 和顯著水準(例如 5%)。如果計算出的 \(\chi^2\) 大於臨界值,則拒絕 \(H_0\)

記憶輔助:自由度

你可以將自由度想像成「數據可以變動的空間」。如果你知道一個 \(2 \times 2\) 表格的合計,並且填入其中一個儲存格,其他三個儲存格就會自動被固定!這就是為什麼 \((2-1) \times (2-1) = 1\)。

特殊情況:耶茨修正 (Yates’ Correction)

如果你處理的是 \(2 \times 2\) 表格(且 \(\nu = 1\)),你必須使用耶茨連續性修正 (Yates’ continuity correction) 以提高檢定的準確性。公式會略有調整:

\(\chi^2 = \sum \frac{(|O - E| - 0.5)^2}{E}\)

(基本上,在平方之前,先從絕對差值中減去 0.5。)

重點摘要: 對於列聯表,我們根據列和行的合計來計算期望值。別忘了 2x2 表格要使用耶茨修正!

3. 適合度檢定 (Goodness of Fit Tests)

適合度檢定用於檢查你的數據是否「符合」某種特定的理論分佈,例如均勻分佈、二項分佈、卜瓦松分佈或常態分佈

如何計算期望頻數 (\(E\)):

  • 離散均勻分佈: 所有類別的可能性相同。\(E = \frac{\text{總頻數}}{\text{類別數量}}\)。
  • 給定比例: 如果你預期比例為 1:2:1,則將總數按此比例分配計算 \(E\)。
  • 二項/卜瓦松分佈: 使用該分佈的機率公式,並乘以總樣本數 (\(n\))。

適合度檢定的自由度:

這是學生最常踩雷的地方!公式如下:

\(\nu = n - 1 - k\)

其中:
  • \(n\) = 組別數量(合併後)。
  • \(1\) = 因為總頻數是固定的,所以必須減去 1。
  • \(k\) = 你從數據中估計出的參數數量(例如,如果你必須自己計算卜瓦松檢定中的平均值 \(\lambda\),則 \(k=1\))。如果參數是題目直接給出的,則 \(k=0\)。
你知道嗎?
卡方檢定是由 Karl Pearson 於 1900 年開發的,它被視為現代統計科學的基石之一!

重點摘要: 適合度檢定告訴我們模型對數據的「貼合度」。計算自由度時要格外小心——務必檢查你是否估計了任何參數!

4. 常見錯誤避雷區

  • 忘了合併: 如果期望頻數是 4.9,你必須將其與下一組合併。計算時請使用合併後組別的觀測值。
  • 使用百分比: 請務必使用頻數(原始計數)。永遠不要在卡方公式中使用百分比或平均值。
  • 自由度 (\(\nu\)) 算錯: 仔細確認你是進行列聯表檢定還是適合度檢定,兩者的自由度計算方法不同!
  • 混淆 \(H_0/H_1\): 在卡方檢定中,\(H_0\) 通常是「現狀」(例如:「符合程度良好」或「兩者獨立」)。

最終總結檢查清單

1. 設定假設: \(H_0\) 通常是「獨立」或「適合」。
2. 計算 \(E\): 使用列/行合計或機率模型。
3. 「5」之法則: 如果 \(E < 5\),合併組別。
4. 計算: 對 \(\frac{(O-E)^2}{E}\) 求和(2x2 表格使用耶茨修正)。
5. 自由度: \((r-1)(c-1)\) 或 \(n-1-k\)。
6. 結論: 比較 \(\chi^2_{calc}\) 與 \(\chi^2_{crit}\)。如果計算值較大,代表差異顯著!


如果剛開始覺得很難也不要灰心! 多練習幾次表格計算,你很快就能看出規律。你只是在衡量數據中相較於「正常情況」有多少「偏差」而已。加油!