歡迎來到卡方 (\(\chi^2\)) 關聯性檢定!
你有沒有想過兩件事之間是否存在真正的關聯?例如,你選擇最喜歡的運動是否與你的年齡層有關?又或者,人們聽的音樂類型與他們居住的地方有關嗎?在統計學中,我們不只是「猜測」是否存在聯繫;我們會使用一種稱為卡方關聯性檢定 (Chi-Squared Test for Association) 的數學工具來進行驗證!
在本章中,你將學習如何處理原始數據、整理數據,並計算一個「分數」來判定兩個變數是否獨立,或是它們之間是否存在顯著的「關聯」(這是指關聯性的專業用語)。別擔心,如果起初覺得有點複雜——我們會一步步帶你掌握!
1. 準備工作:列聯表 (Contingency Tables)
在進行任何數學計算之前,我們需要先整理數據。我們使用 \(n \times m\) 列聯表。這只是一個網格,行代表一個類別,列代表另一個類別。
例子: 想像我們詢問了 100 名學生他們喜歡茶還是咖啡。同時,我們還記錄了他們是中六還是中七的學生。
觀察頻數 (\(O_i\)): 這些是你從調查中收集到的實際數據。
• 第一行:中六學生
• 第二行:中七學生
• 第一列:喝茶的學生
• 第二列:喝咖啡的學生
表格的「大小」表示為(行數)\(\times\)(列數)。上面的例子是一個 \(2 \times 2\) 的表格。如果我們增加一行「中五」,它就會變成 \(3 \times 2\) 的表格。
快速複習:
在開始之前,請務必先計算行總計 (Row Totals)、列總計 (Column Totals) 和總計 (Grand Total)(所有數據的總和)。下一步你會用到這些數據!
2. 「如果……會怎樣?」情境:期望頻數 (Expected Frequencies)
要了解是否存在聯繫,我們首先要想像,如果兩者之間完全沒有聯繫,數據應該長什麼樣子。我們稱這些為期望頻數 (\(E_i\))。
期望頻數的黃金法則:
對於表格中的任何一個格子,計算方式為:
\(E = \frac{\text{行總計} \times \text{列總計}}{\text{總計}}\)
重要準則 (SE3):
為了確保卡方檢定的準確性,每一個期望頻數 (\(E_i\)) 必須大於 5。
為什麼呢? 如果期望數值太小,檢定會變得「不穩定」且不可靠。如果在現實問題中發現 \(E_i < 5\),你可能需要合併行或列來增大樣本組!
重點總結: \(O\) 是我們在現實中觀察到 (Observed) 的結果;\(E\) 是如果兩個變數毫無關聯時,我們所期望 (Expected) 的結果。
3. 卡方統計量:衡量差距
現在我們要計算現實數據 (\(O\)) 與「無關聯」數據 (\(E\)) 之間的差異。我們使用卡方 (\(\chi^2\)) 公式:
\(\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}\)
計算 \(\chi^2\) 的分步指南:
1. 對於表格中的每個格子,用觀察值減去期望值:\((O - E)\)。
2. 將該數值平方:\((O - E)^2\)。(這能確保負數不會抵銷正數!)
3. 將該結果除以期望值:\(\frac{(O - E)^2}{E}\)。
4. 將所有這些數值相加 (\(\sum\))。最終的總和就是你的檢定統計量。
記憶小撇步: 把 \(\chi^2\) 想成一個「差異偵測器」。如果觀察值非常接近期望值,\(\chi^2\) 會是一個很小的數字(意味著沒有關聯)。如果兩者差異很大,\(\chi^2\) 會是一個很大的數字(意味著可能存在關聯!)。
4. 自由度 (\(v\))
在我們查統計表以取得「分數」之前,我們需要知道自由度 (Degrees of Freedom)。這告訴我們數據有多少「變動空間」。
對於一個有 \(r\) 行和 \(c\) 列的列聯表:
\(v = (r - 1) \times (c - 1)\)
例子: 在 \(3 \times 2\) 的表格中,自由度為 \((3 - 1) \times (2 - 1) = 2 \times 1 = 2\)。
常見錯誤: 在計算 \(r\) 和 \(c\) 時,請勿將「總計」行或列計算在內!只計算包含實際數據類別的行數和列數。
5. 下結論:假設與決策
每一個統計檢定都需要一個起始假設,我們稱之為假設 (Hypotheses)。
\(H_0\)(零假設): 兩個變數之間沒有關聯。(它們是獨立的)。
\(H_1\)(備擇假設): 兩個變數之間存在關聯。
如何下結論:
1. 使用你的自由度 (\(v\)) 和顯著性水平(通常為 5% 或 0.05)從 \(\chi^2\) 表中找到臨界值 (Critical Value)。
2. 如果你的計算 \(\chi^2\) 值大於臨界值,則拒絕 \(H_0\)。這表示有證據顯示兩者有關聯!
3. 如果你的計算 \(\chi^2\) 值小於臨界值,則未能拒絕 \(H_0\)。這表示沒有足夠的證據證明關聯存在。
6. 識別關聯來源 (SE4)
有時,檢定結果告訴我們「存在」關聯,但沒告訴我們關聯「在哪裡」。為了找出「關聯來源」,我們回頭檢查每個格子對應的個別 \(\frac{(O - E)^2}{E}\) 值。
尋找最大的數值: 對最終 \(\chi^2\) 總和貢獻最大的那個格子,就是關聯的主要來源。這正是「觀察值」與「期望值」差異最極端的所在。
解釋範例: 「關聯的主要來源是中七學生喝的咖啡比預期多得多。」這為你的數學答案增加了背景資訊,對於在考試題目中拿滿分至關重要!
快速總結清單
• 整理: 建立列聯表並計算總計。
• 假設: 說明 \(H_0\)(無關聯)和 \(H_1\)(存在關聯)。
• 期望: 計算 \(E = \frac{\text{行總計} \times \text{列總計}}{\text{總計}}\)。確保所有 \(E > 5\)。
• 計算: 使用 \(\sum \frac{(O - E)^2}{E}\) 找出 \(\chi^2\)。
• 自由度: 使用 \(v = (r-1)(c-1)\)。
• 比較: 將你的數值與表中的臨界值進行比較。
• 識別: 如果存在關聯,找出對 \(\chi^2\) 分數貢獻最大的格子。
別擔心,如果這看起來步驟很多!稍微練習一下,計算表格就會變得輕而易舉。記住:你只是在衡量「現實」與「隨機機率」相差有多大。