Chi-squared Tests - Further Mathematics A - H245 - Cambridge OCR A Level

簡介：解讀隨機性

歡迎來到卡方 (\(\chi^2\)) 檢定的世界！你有沒有想過，兩件事情之間是真的有關聯，還是純屬巧合？例如，你選擇的雪糕口味是真的取決於天氣，還是完全隨機的？

在本章中，我們將學習如何使用卡方分佈來驗證這類想法。這是統計學家工具箱中最實用的工具之一，因為它能幫助我們判斷「預期」與「實際」結果之間的「差距」是否大到具有統計學意義。

如果起初覺得這些符號有點複雜也不用擔心，讀完這份筆記後，你會發現這其實是一個非常合乎邏輯的步驟化過程！

1. 核心概念：「驚喜」公式

卡方檢定的本質是衡量數據讓我們有多「驚訝」。我們將觀測頻數 (\(O\))（我們實際收集到的數據）與期望頻數 (\(E\))（若虛無假設成立時，我們預期會看到的數據）進行比較。

檢定統計量使用以下公式計算：

\(\chi^2 = \sum \frac{(O - E)^2}{E}\)

公式解析：

\((O - E)\)：差異（即「差距」）。
\((O - E)^2\)：我們將其平方，以免正負差異互相抵消。
\(\div E\)：我們除以期望值以進行標準化。如果你預期有 10 個，出現 5 的差距是「大事」；但如果你預期有 1,000 個，出現 5 的差距則是「微不足道」！

快速複習：卡方檢定的「大原則」

為了使檢定有效，每個期望頻數 (\(E\)) 必須至少為 5。如果有任何數值小於 5，你需要合併列或行（在列聯表中），或合併鄰近的組別（在適合度檢定中），直到數值達到 5 或以上。

重點摘要： 卡方統計量是各項「貢獻值」的總和。卡方值越大，代表我們的數據與預期之間的差異越顯著。

2. 獨立性檢定（列聯表）

列聯表 (Contingency table) 是一個顯示兩個變數（如「性別」與「投票意向」）頻數的表格。我們使用卡方檢定來判斷這兩個變數是否獨立。

步驟流程：

設定假設：
\(H_0\)：兩個變數是獨立的（沒有關係）。
\(H_1\)：兩個變數不是獨立的（存在關係）。
計算期望頻數 (\(E\))： 對於表格中的每個儲存格，使用這個實用公式：
\(E = \frac{\text{列合計} \times \text{行合計}}{\text{總合計}}\)
檢查「5 之法則」： 如果有任何 \(E < 5\)，請將該行/列與鄰近的行/列合併。
計算卡方檢定統計量： 使用 \(\sum \frac{(O-E)^2}{E}\) 公式。
找出自由度 (\(\nu\))：
\(\nu = (\text{行數} - 1) \times (\text{列數} - 1)\)
與臨界值比較： 在提供的表格中查閱對應的 \(\nu\) 和顯著水準（例如 5%）。如果計算出的 \(\chi^2\) 大於臨界值，則拒絕 \(H_0\)。

記憶輔助：自由度

你可以將自由度想像成「數據可以變動的空間」。如果你知道一個 \(2 \times 2\) 表格的合計，並且填入其中一個儲存格，其他三個儲存格就會自動被固定！這就是為什麼 \((2-1) \times (2-1) = 1\)。

特殊情況：耶茨修正 (Yates’ Correction)

如果你處理的是 \(2 \times 2\) 表格（且 \(\nu = 1\)），你必須使用耶茨連續性修正 (Yates’ continuity correction) 以提高檢定的準確性。公式會略有調整：

\(\chi^2 = \sum \frac{(|O - E| - 0.5)^2}{E}\)

（基本上，在平方之前，先從絕對差值中減去 0.5。）

重點摘要： 對於列聯表，我們根據列和行的合計來計算期望值。別忘了 2x2 表格要使用耶茨修正！

3. 適合度檢定 (Goodness of Fit Tests)

適合度檢定用於檢查你的數據是否「符合」某種特定的理論分佈，例如均勻分佈、二項分佈、卜瓦松分佈或常態分佈。

如何計算期望頻數 (\(E\))：

離散均勻分佈： 所有類別的可能性相同。\(E = \frac{\text{總頻數}}{\text{類別數量}}\)。
給定比例： 如果你預期比例為 1:2:1，則將總數按此比例分配計算 \(E\)。
二項/卜瓦松分佈： 使用該分佈的機率公式，並乘以總樣本數 (\(n\))。

適合度檢定的自由度：

這是學生最常踩雷的地方！公式如下：

\(\nu = n - 1 - k\)

其中：

\(n\) = 組別數量（合併後）。
\(1\) = 因為總頻數是固定的，所以必須減去 1。
\(k\) = 你從數據中估計出的參數數量（例如，如果你必須自己計算卜瓦松檢定中的平均值 \(\lambda\)，則 \(k=1\)）。如果參數是題目直接給出的，則 \(k=0\)。

你知道嗎？

卡方檢定是由 Karl Pearson 於 1900 年開發的，它被視為現代統計科學的基石之一！

重點摘要： 適合度檢定告訴我們模型對數據的「貼合度」。計算自由度時要格外小心——務必檢查你是否估計了任何參數！

4. 常見錯誤避雷區

忘了合併： 如果期望頻數是 4.9，你必須將其與下一組合併。計算時請使用合併後組別的觀測值。
使用百分比： 請務必使用頻數（原始計數）。永遠不要在卡方公式中使用百分比或平均值。
自由度 (\(\nu\)) 算錯： 仔細確認你是進行列聯表檢定還是適合度檢定，兩者的自由度計算方法不同！
混淆 \(H_0/H_1\)： 在卡方檢定中，\(H_0\) 通常是「現狀」（例如：「符合程度良好」或「兩者獨立」）。

最終總結檢查清單

1. 設定假設： \(H_0\) 通常是「獨立」或「適合」。
2. 計算 \(E\)： 使用列/行合計或機率模型。
3. 「5」之法則： 如果 \(E < 5\)，合併組別。
4. 計算： 對 \(\frac{(O-E)^2}{E}\) 求和（2x2 表格使用耶茨修正）。
5. 自由度： \((r-1)(c-1)\) 或 \(n-1-k\)。
6. 結論： 比較 \(\chi^2_{calc}\) 與 \(\chi^2_{crit}\)。如果計算值較大，代表差異顯著！

如果剛開始覺得很難也不要灰心！ 多練習幾次表格計算，你很快就能看出規律。你只是在衡量數據中相較於「正常情況」有多少「偏差」而已。加油！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。