Goodness of fit and contingency tables - Further Mathematics (XFM01) - Pearson Edexcel International AS Level

歡迎來到「擬合度檢定與列聯表」的世界！

你有沒有想過，一顆「隨機」的骰子是否真的公平？或者你最喜歡的零食品牌是否真的在每一包裡都放了同樣份量的巧克力？在 Unit S3 的這一章，我們將學習如何運用 卡方 (\(\chi^2\)) 檢定，來比較我們在現實中觀察到的數據（觀察值 Observed）與數學模型預測的結果（期望值 Expected）。這就是為了看看模型與現實到底「吻合」得有多好！

1. 核心概念：\(\chi^2\) 檢定

本章的核心是擬合度檢定 (Goodness of Fit test)。我們使用一個特定的公式來計算一個「檢定統計量」。你可以把這個統計量想像成一個分數，用來衡量你的觀察結果與數學模型的預測目標「偏離」了多少。

公式

\(\chi^2\) 統計量的公式如下：
\( \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \)

其中：
• \(O_i\) 是 觀察頻數 (Observed frequency)（實際發生的次數）。
• \(E_i\) 是 期望頻數 (Expected frequency)（模型預測的次數）。

如何解讀這個分數

• 如果 \(\chi^2\) 的值很小，代表觀察值與期望值非常接近。這意味著模型 擬合度良好 (Good Fit)。
• 如果 \(\chi^2\) 的值很大，代表現實與模型之間存在巨大差距。這意味著模型 擬合度較差 (Poor Fit)。

快速複習區

\(H_0\)（虛無假設/零假設）： 數據符合指定的分配（例如：「這顆骰子是公平的」）。
\(H_1\)（對立假設/備擇假設）： 數據不符合指定的分配（例如：「這顆骰子是有偏差的」）。

重點總結： 我們是在測量觀察值與期望值之間的「距離」。如果這個距離太大，我們就要拒絕這個模型！

2. 「五之規則」與合併組別

如果數學看起來有點繁瑣也不用擔心；\(\chi^2\) 檢定中有一個非常重要的「黃金法則」：期望頻數 (\(E_i\)) 必須至少為 5。

如果期望頻數小於 5，\(\chi^2\) 檢定的結果就會不可靠。為了修正這一點，我們需要合併相鄰的組別，直到新的「合併後」期望頻數達到 5 或以上。

例子：如果你正在測試一顆骰子，而擲出「6」的期望頻數只有 3，你可能需要將「5」和「6」的類別合併為一個「5 或 6」的類別。

常見錯誤： 學生往往會去看 觀察值 (\(O\)) 是否小於 5。停！記得，這條規則只針對 期望值 (\(E\))。

3. 計算期望頻數

根據你正在測試的分配，計算 \(E_i\) 的方法也會不同。課程大綱主要涵蓋以下幾種類型：

A. 離散均勻分配 (Discrete Uniform Distribution)

這是最簡單的！如果所有情況發生的機率都相等（例如公平的骰子），那麼：
\( E_i = \frac{\text{總頻數}}{\text{類別總數}} \)

B. 二項分佈與卜瓦松分佈 (Binomial and Poisson Distributions)

你需要使用在 S2 學過的機率公式：
\( E_i = P(X = i) \times \text{總頻數} \)

重要提示： 如果你必須從數據中估計參數（例如卜瓦松的平均值 \(\lambda\) 或二項分佈的機率 \(p\)），因為這些參數不是題目給定的，這將會影響後面的「自由度」！

C. 常態分佈與連續均勻分配 (Normal and Continuous Uniform Distributions)

對於連續性數據，你需要計算落入某個範圍（組距）的機率，然後乘以總頻數。

你知道嗎？ 在醫學界，我們也會利用 \(\chi^2\) 檢定來驗證新藥的副作用是否與臨床試驗預測的結果相符！

4. 自由度 (\(v\))

自由度 (Degrees of Freedom)（用希臘字母 \(\nu\) 或直接用 \(v\) 表示）決定了我們應該查閱課本附表中的哪一條 \(\chi^2\) 分配曲線。

通用規則：

\( v = n - 1 - c \)

其中：
• \(n\) 是合併之後的組別數量。
• \(1\) 是因為總頻數必須相等，所以總是需要減去 1。
• \(c\) 是 估計參數的數量。

需要減去多少參數 (\(c\))？

• 離散均勻分配： \(c = 0\)（沒有參數需要估計）。
• 卜瓦松分佈： \(c = 1\)（如果你需要計算 \(\lambda = \text{平均值}\)）。
• 二項分佈： \(c = 1\)（如果你需要計算 \(p\)）。
• 常態分佈： \(c = 2\)（如果你需要同時計算 \(\mu\) 和 \(\sigma^2\)）。

重點總結： 務必先根據「五之規則」合併組別，計算出合併後的 \(n\)，減去 1，再減去你自己估計的參數數量。

5. 列聯表 (Contingency Tables)

有時候我們想知道兩個變數是否獨立 (independent)。例如：「你最喜歡的顏色與性別是否有關？」這時我們就會用到 列聯表。

逐步教學：尋找期望頻數

在列聯表中，你可以利用「行列總和」規則來計算每個儲存格的期望值：
\( E = \frac{\text{列總和} \times \text{行總和}}{\text{總計}} \)

列聯表的自由度

對於一個 \(r\) 行 \(c\) 列的表格：
\( v = (r - 1) \times (c - 1) \)

快速複習：列聯表的假設

\(H_0\)： 兩個變數之間 沒有關聯（它們是獨立的）。
\(H_1\)： 兩個變數之間 有關聯（它們是相關的）。

如果覺得這部分很複雜也不用擔心！ 只要記住：
1. 計算每一行和每一列的總和。
2. 對每個儲存格套用行列公式計算 \(E\)。
3. 像之前一樣套用 \(\sum \frac{(O-E)^2}{E}\) 公式即可！

6. 檢定流程總結

想要在考試中取得好成績，請每次都遵循以下步驟：

清楚寫出你的 虛無假設 (\(H_0\)) 和 對立假設 (\(H_1\))。
計算 期望頻數 (\(E\))。
檢查 五之規則：如果任何 \(E < 5\)，則合併組別。
利用 \( \sum \frac{(O-E)^2}{E} \) 計算你的 檢定統計量。
決定 自由度 (\(v\))。
根據題目給定的顯著水準（例如 5%），從課本的 \(\chi^2\) 表中找出 臨界值 (critical value)。
比較與結論： 如果你的計算值大於臨界值，則 拒絕 \(H_0\)。

最後鼓勵： 你做得到的！只要按部就班就好。最常見的錯誤就是忘記合併組別，或是算錯了自由度。只要確認這兩點，你就能成為 \(\chi^2\) 大師！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。