### 歡迎來到卡方檢定(Chi-Squared Tests)的世界! 在統計學中,我們經常想知道現實中觀察到的結果是否符合我們的預期。例如,如果你擲一枚骰子 60 次,理論上每個數字應該會出現約 10 次。但如果「6」出現了 20 次呢?這枚骰子是有問題的,還是純粹運氣不好? **卡方(\(\chi^2\))檢定**就是我們的數學偵探工具。它能幫助我們判斷**觀察值(\(O\))**與**期望值(\(E\))**之間的差異,究竟是重要到值得注意,還是僅僅是隨機波動。在這一章中,我們將探討如何進行獨立性檢定以及如何檢驗數據與特定模式的擬合程度。 如果剛開始覺得這些符號有點陌生,別擔心——一旦你看出了規律,這就像跟著食譜做菜一樣簡單!
### 1. 核心要素:\(O\) 與 \(E\) 在進行任何檢定前,我們需要為每個類別準備兩組數據:
  • 觀察頻數(Observed Frequencies, \(O\)):這是你從實驗或調查中收集到的實際結果。
  • 期望頻數(Expected Frequencies, \(E\)):這是如果你的理論(即虛無假設)成立時,你「理應」得到的結果。

檢定統計量公式

為了將這些差異轉化為一個我們能使用的數值,我們使用以下公式:

\(\chi^2_{calc} = \sum \frac{(O - E)^2}{E}\)

如何解讀此公式: 1. 對於每個類別,將觀察值減去期望值。 2. 將結果平方(這樣數值永遠為正)。 3. 除以期望值。 4. 將所有這些計算結果加總(這就是 \(\sum\) 符號的意義)。
快速回顧: 如果觀察值與期望值非常接近,\(\chi^2\) 就會很小。如果兩者差異巨大,\(\chi^2\) 就會很大!
### 2. 獨立性檢定(列聯表) 有時我們想知道兩件事是否相關。例如:最喜歡的顏色是否與性別有關?某種藥物是否對特定年齡層效果更好?我們會使用列聯表(Contingency Tables)(將數據排列在行與列中)來找出答案。

設定假設

每個檢定都始於兩個陳述:
  • \(H_0\)(虛無假設):兩個變數是獨立的(兩者沒有關聯)。
  • \(H_1\)(對立假設):兩個變數是不獨立的(兩者有某種關聯)。

計算期望值(\(E\))

對於列聯表,我們使用「行列總計法」來計算每個儲存格的期望值:

\(E = \frac{\text{列總計} \times \text{行總計}}{\text{總計}}\)

自由度(\(df\))

「自由度」告訴我們數據中有多少資訊是可以自由變動的。對於一個有 \(r\) 列和 \(c\) 行的列聯表:

\(df = (r - 1)(c - 1)\)

範例:在一個 \(3 \times 2\) 的表格中,\(df = (3-1)(2-1) = 2 \times 1 = 2\)。
重點筆記: 在獨立性檢定中,\(H_0\) 總是宣稱變數之間沒有關係
### 3. 黃金法則:限制與修正 \(\chi^2\) 檢定是一種近似值,只有在數據足夠充足時才準確。考試時你必須記住兩項「安全規則」:

「5 的法則」

每一個期望頻數(\(E\))必須至少為 5
如果不符合怎麼辦? 若某個 \(E\) 值小於 5,檢定結果會變得不可靠。為了修正,你必須將相鄰的行或列(或類別)合併,直到每個 \(E \ge 5\)。 注意:合併時,記得也要同時合併對應的觀察值(\(O\))!

耶茨連續性修正(Yates’ Continuity Correction)

這是一種特殊調整,僅用於 \(2 \times 2\) 表格(即 \(df = 1\) 時)。它會讓檢定變得更為保守。

修正後公式:\(\chi^2 = \sum \frac{(|O - E| - 0.5)^2}{E}\)

垂直線 \(|O - E|\) 代表「取正差值」(忽略負號)。在平方之前,先從差值中減去 0.5。
你知道嗎? 耶茨修正以英國統計學家 Frank Yates 命名。它就像是一個「安全緩衝區」,確保我們不會因一時運氣,而誤以為數據之間存在關聯!
### 4. 適配度檢定(Goodness of Fit Tests) 「適配度」檢定用於檢查數據是否遵循特定的理論分布,例如給定的比率比例離散均勻分布

擬合的類型

  • 給定比率:例如,檢驗植物後代是否符合 \(3:1\) 的遺傳比率。如果你有 100 株植物,你預期其中一類為 75 株,另一類為 25 株。
  • 離散均勻分布:這是當你預期每個結果出現的機率都相等時。如果你有 \(n\) 個類別且總觀察值為 \(N\),則每個 \(E = \frac{N}{n}\)。

適配度檢定的自由度

對於這類檢定:

\(df = \text{類別數量} - 1\)

注意:如果你為了滿足 \(E \ge 5\) 規則而合併了類別,「類別數量」是指合併後剩下的類別數。
常見錯誤: 學生常誤用「觀察值的總人數」來計算 \(df\)。請記住,\(df\) 是基於類別(儲存格)的數量,而不是你數了多少人或物品!
### 5. 逐步教學:如何進行檢定 考試時,請按照以下步驟來保持條理:
  1. 陳述假設:清楚寫出 \(H_0\) 和 \(H_1\)。
  2. 計算期望值(\(E\)):利用總計數和給定的分布/比率進行計算。
  3. 檢查 \(E \ge 5\) 規則:若有任何 \(E < 5\),合併類別並重新計算 \(df\)。
  4. 計算 \(\chi^2\) 統計量:使用公式 \(\sum \frac{(O-E)^2}{E}\)(若是 \(2 \times 2\) 表格,記得使用耶茨修正)。
  5. 查找臨界值:使用你的 \(df\) 和顯著水準(例如 5%)查表得出臨界值。
  6. 比較並得出結論:
    • 計算出的 \(\chi^2\) > 臨界值:拒絕 \(H_0\)。這代表有證據顯示存在某種模式/關聯。
    • 計算出的 \(\chi^2\) < 臨界值:無法拒絕 \(H_0\)。沒有足夠證據支持該模式的存在。

加油: 步驟 4 可能涉及許多微小的計算。請慢慢來,或許可以製作一個表格來追蹤你的 \((O-E)^2 / E\) 數值。細心是關鍵!
### 最終總結:全局觀
你已經學會了:
  • \(\chi^2\) 用來衡量觀察值(\(O\))與期望值(\(E\))之間的「差距」。
  • 獨立性檢定的自由度計算公式為 \((r-1)(c-1)\)。
  • 適配度檢定用於檢查數據是否符合特定的模式或比率。
  • 期望值必須 \(\ge 5\);否則,請合併類別。
  • 耶茨修正是你最好的朋友,但請記住它僅適用於 \(2 \times 2\) 表格!
重點筆記: 卡方檢定並不能證明事物發生「背後的原因」;它只是告訴我們,觀察到的模式是否不太可能是由純粹的隨機偶然造成的。利用它來判斷你的數據是否如你的理論所預測的那樣「規矩」吧!