Chi squared tests for association - Further Mathematics 7366 - AQA AS Level

歡迎來到卡方 (\(\chi^2\)) 關聯性檢定！

你有沒有想過兩件事之間是否存在真正的關聯？例如，你選擇最喜歡的運動是否與你的年齡層有關？又或者，人們聽的音樂類型與他們居住的地方有關嗎？在統計學中，我們不只是「猜測」是否存在聯繫；我們會使用一種稱為卡方關聯性檢定 (Chi-Squared Test for Association) 的數學工具來進行驗證！

在本章中，你將學習如何處理原始數據、整理數據，並計算一個「分數」來判定兩個變數是否獨立，或是它們之間是否存在顯著的「關聯」（這是指關聯性的專業用語）。別擔心，如果起初覺得有點複雜——我們會一步步帶你掌握！

1. 準備工作：列聯表 (Contingency Tables)

在進行任何數學計算之前，我們需要先整理數據。我們使用 \(n \times m\) 列聯表。這只是一個網格，行代表一個類別，列代表另一個類別。

例子： 想像我們詢問了 100 名學生他們喜歡茶還是咖啡。同時，我們還記錄了他們是中六還是中七的學生。

觀察頻數 (\(O_i\))： 這些是你從調查中收集到的實際數據。
• 第一行：中六學生
• 第二行：中七學生
• 第一列：喝茶的學生
• 第二列：喝咖啡的學生

表格的「大小」表示為（行數）\(\times\)（列數）。上面的例子是一個 \(2 \times 2\) 的表格。如果我們增加一行「中五」，它就會變成 \(3 \times 2\) 的表格。

快速複習：
在開始之前，請務必先計算行總計 (Row Totals)、列總計 (Column Totals) 和總計 (Grand Total)（所有數據的總和）。下一步你會用到這些數據！

2. 「如果……會怎樣？」情境：期望頻數 (Expected Frequencies)

要了解是否存在聯繫，我們首先要想像，如果兩者之間完全沒有聯繫，數據應該長什麼樣子。我們稱這些為期望頻數 (\(E_i\))。

期望頻數的黃金法則：
對於表格中的任何一個格子，計算方式為：
\(E = \frac{\text{行總計} \times \text{列總計}}{\text{總計}}\)

重要準則 (SE3)：
為了確保卡方檢定的準確性，每一個期望頻數 (\(E_i\)) 必須大於 5。
為什麼呢？ 如果期望數值太小，檢定會變得「不穩定」且不可靠。如果在現實問題中發現 \(E_i < 5\)，你可能需要合併行或列來增大樣本組！

重點總結： \(O\) 是我們在現實中觀察到 (Observed) 的結果；\(E\) 是如果兩個變數毫無關聯時，我們所期望 (Expected) 的結果。

3. 卡方統計量：衡量差距

現在我們要計算現實數據 (\(O\)) 與「無關聯」數據 (\(E\)) 之間的差異。我們使用卡方 (\(\chi^2\)) 公式：

\(\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}\)

計算 \(\chi^2\) 的分步指南：
1. 對於表格中的每個格子，用觀察值減去期望值：\((O - E)\)。
2. 將該數值平方：\((O - E)^2\)。(這能確保負數不會抵銷正數！)
3. 將該結果除以期望值：\(\frac{(O - E)^2}{E}\)。
4. 將所有這些數值相加 (\(\sum\))。最終的總和就是你的檢定統計量。

記憶小撇步： 把 \(\chi^2\) 想成一個「差異偵測器」。如果觀察值非常接近期望值，\(\chi^2\) 會是一個很小的數字（意味著沒有關聯）。如果兩者差異很大，\(\chi^2\) 會是一個很大的數字（意味著可能存在關聯！）。

4. 自由度 (\(v\))

在我們查統計表以取得「分數」之前，我們需要知道自由度 (Degrees of Freedom)。這告訴我們數據有多少「變動空間」。

對於一個有 \(r\) 行和 \(c\) 列的列聯表：
\(v = (r - 1) \times (c - 1)\)

例子： 在 \(3 \times 2\) 的表格中，自由度為 \((3 - 1) \times (2 - 1) = 2 \times 1 = 2\)。

常見錯誤： 在計算 \(r\) 和 \(c\) 時，請勿將「總計」行或列計算在內！只計算包含實際數據類別的行數和列數。

5. 下結論：假設與決策

每一個統計檢定都需要一個起始假設，我們稱之為假設 (Hypotheses)。

\(H_0\)（零假設）： 兩個變數之間沒有關聯。（它們是獨立的）。
\(H_1\)（備擇假設）： 兩個變數之間存在關聯。

如何下結論：
1. 使用你的自由度 (\(v\)) 和顯著性水平（通常為 5% 或 0.05）從 \(\chi^2\) 表中找到臨界值 (Critical Value)。
2. 如果你的計算 \(\chi^2\) 值大於臨界值，則拒絕 \(H_0\)。這表示有證據顯示兩者有關聯！
3. 如果你的計算 \(\chi^2\) 值小於臨界值，則未能拒絕 \(H_0\)。這表示沒有足夠的證據證明關聯存在。

6. 識別關聯來源 (SE4)

有時，檢定結果告訴我們「存在」關聯，但沒告訴我們關聯「在哪裡」。為了找出「關聯來源」，我們回頭檢查每個格子對應的個別 \(\frac{(O - E)^2}{E}\) 值。

尋找最大的數值： 對最終 \(\chi^2\) 總和貢獻最大的那個格子，就是關聯的主要來源。這正是「觀察值」與「期望值」差異最極端的所在。

解釋範例： 「關聯的主要來源是中七學生喝的咖啡比預期多得多。」這為你的數學答案增加了背景資訊，對於在考試題目中拿滿分至關重要！

快速總結清單

• 整理： 建立列聯表並計算總計。
• 假設： 說明 \(H_0\)（無關聯）和 \(H_1\)（存在關聯）。
• 期望： 計算 \(E = \frac{\text{行總計} \times \text{列總計}}{\text{總計}}\)。確保所有 \(E > 5\)。
• 計算： 使用 \(\sum \frac{(O - E)^2}{E}\) 找出 \(\chi^2\)。
• 自由度： 使用 \(v = (r-1)(c-1)\)。
• 比較： 將你的數值與表中的臨界值進行比較。
• 識別： 如果存在關聯，找出對 \(\chi^2\) 分數貢獻最大的格子。

別擔心，如果這看起來步驟很多！稍微練習一下，計算表格就會變得輕而易舉。記住：你只是在衡量「現實」與「隨機機率」相差有多大。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。