卡方相關性檢定簡介

你好!歡迎來到統計學課程中最實用的一章。你有沒有好奇過,兩者之間是否存在真正的聯繫?例如:你最喜歡的音樂類型是否與你的年齡層有關?或者人們對早餐的選擇是否取決於他們的工作?

在本章中,我們將學習卡方 (\(\chi^2\)) 相關性檢定。這是一個非常出色的工具,能幫助我們判斷兩個類別變量是獨立的(沒有關聯),還是存在相關性(彼此有聯繫)。如果一開始覺得有點複雜,別擔心;我們會把它拆解成簡單易懂的步驟!

你知道嗎? 「卡方」(Chi-Squared)中的「Chi」是一個希臘字母,發音為 "Kai"(與 "sky" 押韻),而不是 "Chee"!


1. 場景設定:列聯表 (Contingency Tables)

在進行任何計算之前,我們需要先整理數據。我們使用一種稱為 \(n \times m\) 列聯表的工具。

想像我們詢問了 100 名學生關於他們最喜歡的運動和所屬年級。表格看起來可能像這樣:

示例表格:
12年級: 足球 (20), 網球 (10), 游泳 (5)
13年級: 足球 (15), 網球 (30), 游泳 (20)

在這種情況下,我們有 2 個列(12年級和13年級)和 3 個欄(足球、網球、游泳)。我們稱之為 \(2 \times 3\) 表格

關鍵術語:

  • 觀測頻數 (\(O_i\)): 這是我們從調查或實驗中收集到的實際數據。
  • 期望頻數 (\(E_i\)): 這些是如果變量之間完全沒有關聯時,我們預期會看到的數據。

快速複習: \(n \times m\) 表格僅表示一個有 \(n\) 個列和 \(m\) 個欄的表格。記得先點算你的列數和欄數!


2. 「如果……會怎樣」階段:計算期望頻數

為了看出是否存在相關性,我們首先要計算如果變量是獨立的,表格會是什麼樣子。對於表格中的每一個格子,你需要使用以下簡單的公式計算期望頻數 (\(E_i\))

\(E_i = \frac{\text{列總計} \times \text{欄總計}}{\text{總計}}\)

必須記住的一條黃金法則!

為了使卡方檢定有效,所有期望頻數 (\(E_i\)) 必須大於 5
如果你計算出的 \(E_i\) 小於或等於 5,你通常需要合併列或欄,直到所有期望值都安全地大於 5 為止。

類比: 把這想像成一場派對。如果一個房間裡的人少於 5 個,就太小了無法跳舞(檢定將無法運作),所以你要把它與隔壁房間合併!


3. 卡方統計量 (\(\chi^2\))

現在我們要比較「現實」(觀測值)與「理論」(期望值)。我們使用以下公式來找出檢定統計量

\(\chi^2_{calc} = \sum \frac{(O_i - E_i)^2}{E_i}\)

逐步操作流程:

  1. 對於每個格子,用觀測值減去期望值 (\(O - E\))。
  2. 將該數字平方(這樣可以消除惱人的負號!)。
  3. 將平方結果除以該格子的期望值。
  4. 將表格中所有格子的結果相加。

關鍵要點: 一個較大的 \(\chi^2\) 值表示現實與理論大相徑庭,這意味著它們之間很可能存在相關性!


4. 自由度 (\(df\))

為了在統計表中查找「臨界值」,我們需要知道自由度。這告訴我們數據有多少「調整空間」。對於一個 \(r \times c\) 表格(列 \(\times\) 欄):

\(df = (r - 1) \times (c - 1)\)

例子: 在我們的 \(2 \times 3\) 運動表格中,\(df = (2 - 1) \times (3 - 1) = 1 \times 2 = 2\)。


5. 葉氏修正 (Yates’ Correction)(僅適用於 \(2 \times 2\) 表格)

有時,當我們處理較小的表格(特別是 \(2 \times 2\) 表格)時,標準公式可能會顯得過於「寬鬆」。為了更準確,我們使用葉氏連續性修正 (Yates’ Continuity Correction)

你僅在擁有 \(2 \times 2\) 列聯表時才使用此方法。公式會略有改變:

\(\chi^2_{Yates} = \sum \frac{(|O_i - E_i| - 0.5)^2}{E_i}\)

\(|O_i - E_i|\) 的部分僅表示「取正差值」。然後在平方前減去 0.5。這會稍微「縮小」差異,使檢定更趨於保守。

常見錯誤: 學生經常試圖在 \(2 \times 3\) 或 \(3 \times 3\) 的表格上使用葉氏修正。千萬別這樣做! 它嚴格適用於 \(2 \times 2\) 表格。


6. 識別相關性的來源

如果你的檢定得出結論認為確實存在相關性,考官可能會問:「這種相關性從何而來?」

要回答這個問題,請回頭查看你計算 \(\frac{(O_i - E_i)^2}{E_i}\) 的過程。貢獻最大(數值最大)的那個格子,就是現實與理論之間差異最大的地方。

例子: 如果「13年級學生」和「網球」這組數據對 \(\chi^2\) 總和有巨大的貢獻,你應該說:「相關性的主要來源是 13 年級學生打網球的次數遠多於(或遠少於)預期。」


考試成功檢查清單

  • 假設: 務必列出 \(H_0\)(變量獨立)和 \(H_1\)(變量相關)。
  • 檢查 \(E_i\): 所有期望值是否都 \( > 5\)?如果沒有,請合併列/欄。
  • 葉氏修正?: 如果是 \(2 \times 2\) 表格,請使用修正公式。
  • 自由度: 使用 \((r-1)(c-1)\)。
  • 比較: 如果你的 \(\chi^2_{calc} > \text{臨界值}\),則拒絕 \(H_0\)
  • 語境: 務必將最終結論寫在原始問題的語境中(例如:「有證據顯示年齡與運動選擇之間存在相關性」)。

記憶小撇步: 如果 \(\chi^2\) 值高 (High),虛無假設就要走 (Go)!(即拒絕 \(H_0\))。