### 1. 核心要素:\(O\) 與 \(E\) 在進行任何檢定前,我們需要為每個類別準備兩組數據:
- 觀察頻數(Observed Frequencies, \(O\)):這是你從實驗或調查中收集到的實際結果。
- 期望頻數(Expected Frequencies, \(E\)):這是如果你的理論(即虛無假設)成立時,你「理應」得到的結果。
檢定統計量公式
為了將這些差異轉化為一個我們能使用的數值,我們使用以下公式:\(\chi^2_{calc} = \sum \frac{(O - E)^2}{E}\)
如何解讀此公式: 1. 對於每個類別,將觀察值減去期望值。 2. 將結果平方(這樣數值永遠為正)。 3. 除以期望值。 4. 將所有這些計算結果加總(這就是 \(\sum\) 符號的意義)。快速回顧: 如果觀察值與期望值非常接近,\(\chi^2\) 就會很小。如果兩者差異巨大,\(\chi^2\) 就會很大!
### 2. 獨立性檢定(列聯表) 有時我們想知道兩件事是否相關。例如:最喜歡的顏色是否與性別有關?某種藥物是否對特定年齡層效果更好?我們會使用列聯表(Contingency Tables)(將數據排列在行與列中)來找出答案。
設定假設
每個檢定都始於兩個陳述:- \(H_0\)(虛無假設):兩個變數是獨立的(兩者沒有關聯)。
- \(H_1\)(對立假設):兩個變數是不獨立的(兩者有某種關聯)。
計算期望值(\(E\))
對於列聯表,我們使用「行列總計法」來計算每個儲存格的期望值:\(E = \frac{\text{列總計} \times \text{行總計}}{\text{總計}}\)
自由度(\(df\))
「自由度」告訴我們數據中有多少資訊是可以自由變動的。對於一個有 \(r\) 列和 \(c\) 行的列聯表:\(df = (r - 1)(c - 1)\)
範例:在一個 \(3 \times 2\) 的表格中,\(df = (3-1)(2-1) = 2 \times 1 = 2\)。重點筆記: 在獨立性檢定中,\(H_0\) 總是宣稱變數之間沒有關係。
### 3. 黃金法則:限制與修正 \(\chi^2\) 檢定是一種近似值,只有在數據足夠充足時才準確。考試時你必須記住兩項「安全規則」:
「5 的法則」
每一個期望頻數(\(E\))必須至少為 5。如果不符合怎麼辦? 若某個 \(E\) 值小於 5,檢定結果會變得不可靠。為了修正,你必須將相鄰的行或列(或類別)合併,直到每個 \(E \ge 5\)。 注意:合併時,記得也要同時合併對應的觀察值(\(O\))!
耶茨連續性修正(Yates’ Continuity Correction)
這是一種特殊調整,僅用於 \(2 \times 2\) 表格(即 \(df = 1\) 時)。它會讓檢定變得更為保守。修正後公式:\(\chi^2 = \sum \frac{(|O - E| - 0.5)^2}{E}\)
垂直線 \(|O - E|\) 代表「取正差值」(忽略負號)。在平方之前,先從差值中減去 0.5。你知道嗎? 耶茨修正以英國統計學家 Frank Yates 命名。它就像是一個「安全緩衝區」,確保我們不會因一時運氣,而誤以為數據之間存在關聯!
### 4. 適配度檢定(Goodness of Fit Tests) 「適配度」檢定用於檢查數據是否遵循特定的理論分布,例如給定的比率、比例或離散均勻分布。
擬合的類型
- 給定比率:例如,檢驗植物後代是否符合 \(3:1\) 的遺傳比率。如果你有 100 株植物,你預期其中一類為 75 株,另一類為 25 株。
- 離散均勻分布:這是當你預期每個結果出現的機率都相等時。如果你有 \(n\) 個類別且總觀察值為 \(N\),則每個 \(E = \frac{N}{n}\)。
適配度檢定的自由度
對於這類檢定:\(df = \text{類別數量} - 1\)
注意:如果你為了滿足 \(E \ge 5\) 規則而合併了類別,「類別數量」是指合併後剩下的類別數。常見錯誤: 學生常誤用「觀察值的總人數」來計算 \(df\)。請記住,\(df\) 是基於類別(儲存格)的數量,而不是你數了多少人或物品!
### 5. 逐步教學:如何進行檢定 考試時,請按照以下步驟來保持條理:
- 陳述假設:清楚寫出 \(H_0\) 和 \(H_1\)。
- 計算期望值(\(E\)):利用總計數和給定的分布/比率進行計算。
- 檢查 \(E \ge 5\) 規則:若有任何 \(E < 5\),合併類別並重新計算 \(df\)。
- 計算 \(\chi^2\) 統計量:使用公式 \(\sum \frac{(O-E)^2}{E}\)(若是 \(2 \times 2\) 表格,記得使用耶茨修正)。
- 查找臨界值:使用你的 \(df\) 和顯著水準(例如 5%)查表得出臨界值。
- 比較並得出結論:
- 若 計算出的 \(\chi^2\) > 臨界值:拒絕 \(H_0\)。這代表有證據顯示存在某種模式/關聯。
- 若 計算出的 \(\chi^2\) < 臨界值:無法拒絕 \(H_0\)。沒有足夠證據支持該模式的存在。
加油: 步驟 4 可能涉及許多微小的計算。請慢慢來,或許可以製作一個表格來追蹤你的 \((O-E)^2 / E\) 數值。細心是關鍵!
### 最終總結:全局觀
你已經學會了:
- \(\chi^2\) 用來衡量觀察值(\(O\))與期望值(\(E\))之間的「差距」。
- 獨立性檢定的自由度計算公式為 \((r-1)(c-1)\)。
- 適配度檢定用於檢查數據是否符合特定的模式或比率。
- 期望值必須 \(\ge 5\);否則,請合併類別。
- 耶茨修正是你最好的朋友,但請記住它僅適用於 \(2 \times 2\) 表格!