列聯表簡介
歡迎!在本章中,我們將探討統計學家如何判斷兩個不同的類別變數 (categorical variables) 之間是否存在關聯。例如:一個人的運動習慣與其偏好的球鞋品牌之間是否有關聯?或者,你居住的地區會影響你的政黨傾向嗎?
在 Paper 2 中,你的重點是統計推論 (Statistical Inference)。這意味著我們利用樣本數據來對整個母體做出「最佳猜測」或推論。列聯表 (contingency tables) 是達成此目的的強大工具,因為它們讓我們能夠測試獨立性 (independence)——即檢查一件事的發生是否完全與另一件事無關。
如果現在覺得這些概念有點抽象,別擔心!我們將把它拆解成簡單的步驟,讓你每次都能輕鬆上手!
1. 什麼是列聯表?
列聯表(有時稱為交叉表,two-way table)只是一個用來總結兩個類別變數之間關係的表格。其中一個變數顯示在行 (rows) 中,另一個則顯示在列 (columns) 中。
例子:一項調查訪問了 100 名學生,詢問他們偏好茶還是咖啡,以及他們是 12 年級還是 13 年級。
觀測頻數 (Observed Frequencies, O): 這些是你從研究中收集到的實際數據。你可能會看到像這樣的表格:
- 12 年級:20 人選茶,30 人選咖啡(總計 = 50)
- 13 年級:25 人選茶,25 人選咖啡(總計 = 50)
- 直行總計:45 人選茶,55 人選咖啡
- 總計 (Grand Total, N): 100
重點總結
列聯表將數據的原始計數 (raw counts) 整理成行與列,讓我們能觀察兩個類別之間的規律。
2. 卡方 (\(\chi^2\)) 獨立性檢定
為了判定兩個變數是否真的相關,我們執行卡方 (\(\chi^2\)) 檢定。我們測試的對象是虛無假設 (Null Hypothesis, \(H_0\))。
假設:
\(H_0\): 兩個變數是獨立的(沒有關聯)。
\(H_1\): 兩個變數是不獨立的(有關聯/連結)。
逐步教學:尋找期望頻數 (E)
為了觀察變數是否獨立,我們計算如果它們之間完全沒有連結,表格「應該」呈現的樣子。這些值我們稱為期望頻數 (Expected Frequencies)。
表格中每個儲存格的計算公式為:
\(E = \frac{\text{行總計} \times \text{列總計}}{\text{總計}}\)
快速回顧:
O = 觀測值 (Observed,你手頭上的真實數據)
E = 期望值 (Expected,你計算出的「完全獨立」模型數據)
逐步教學:檢定統計量
一旦你為每個儲存格算出 O 和 E 值,就可以使用以下公式計算 \(\chi^2\) 檢定統計量:
\(\chi^2 = \sum \frac{(O - E)^2}{E}\)
這樣想:我們是在衡量現實 (O) 與獨立模型 (E) 之間的「差距」。\(\chi^2\) 值越大,變數不獨立的可能性就越高。
重點總結
卡方檢定比較了我們觀察到的數據與如果兩個變數毫無關聯時我們期望看到的數據。
3. 自由度 (\(df\))
要在統計表中找到臨界值 (critical value),你需要知道自由度 (Degrees of Freedom)。這告訴我們數據有多少程度的「變動空間」。
對於列聯表,公式很簡單:
\(df = (\text{行數} - 1) \times (\text{列數} - 1)\)
常見錯誤: 計算行數和列數時,切記不要把「總計」那一行或那一列算進去!
例子:在一個 \(3 \times 2\) 的表格中(3 行,2 列):
\(df = (3 - 1) \times (2 - 1) = 2 \times 1 = 2\)
4. 重要規則:「5 的規則」與合併組別
卡方檢定是一種近似值**。為了準確起見,期望頻數 (E) 必須足夠大。Pearson Edexcel 課程大綱要求所有期望頻數必須大於或等於 5。
如果期望頻數小於 5 怎麼辦?
如果你計算出的 \(E\) 值小於 5,你必須合併 (pool) 行或列。這意味著你需要將兩個相似的類別合併,以產生一個更大的組別。
例子:如果你正在測試「冰淇淋口味」,而「薄荷味」的期望頻數是 3,你可以將「薄荷」與「巧克力」類別合併為「薄荷與巧克力」類,從而使頻數大於 5。
你知道嗎?
在考試中,你不需要使用耶茨修正法 (Yates' Correction)。即使你在舊教材或網路上看到它,對於 9ST0 課程規範來說,直接忽略它即可!只需使用標準的 \(\chi^2\) 公式。
重點總結
務必先檢查你的期望頻數**。如果任何數值小於 5 (\( < 5 \)),你必須合併類別,直到所有數值皆為 5 或以上。
5. 解讀結果
計算出 \(\chi^2\) 檢定統計量並找到臨界值(使用你的 \(df\) 和顯著水準,通常為 5%)後:
1. 如果計算出的 \(\chi^2\) > 臨界值**:拒絕 \(H_0\)。這代表有證據顯示兩者有關聯。
2. 如果計算出的 \(\chi^2\) < 臨界值**:接受 \(H_0\)(無法拒絕 \(H_0\))。這代表沒有證據顯示兩者有關聯。
記得:一定要根據題目背景寫出你的最終結論!不要只寫「拒絕 \(H_0\)」,要說「有證據表明 [變數 A] 與 [變數 B] 之間存在關聯。」
考試摘要清單
- [ ] 清晰地陳述你的假設(\(H_0\) 永遠是「獨立」)。
- [ ] 建構表格,並使用 \(\frac{RT \times CT}{GT}\) 計算期望頻數**。
- [ ] 檢查「5 的規則」:如果有任何 \(E < 5\),請合併類別。
- [ ] 使用 \(\sum \frac{(O - E)^2}{E}\) 計算 \(\chi^2\) 檢定統計量。
- [ ] 確定自由度**:\((r-1)(c-1)\)。
- [ ] 將結果與臨界值**進行比較,並在背景情境中給出結論。
專家提示:如果你必須合併行或列,請記住你的自由度會因為行數或列數的減少而隨之改變!