歡迎來到「適合度檢定」與「列聯表」章節!
你好!歡迎來到統計學 (Statistics 3) 中至關重要的一章。這一節將讓你化身為數據偵探,幫助我們判斷現實世界中觀察到的數據是否符合特定的分佈模式,或者兩個變量之間是否存在真正的關聯。
如果起初覺得有些複雜,別擔心;我們將會一步步拆解強大的卡方 ($\chi^2$) 檢定。學完這一章,你將能自信地測試統計模型與變量間的關係!
為什麼這一章很重要?
- 它讓我們能夠根據現實觀察結果來驗證理論模型(例如卜瓦松分佈或二項分佈)。
- 它提供了一種正式的方法來測試類別變量之間的關係(例如:「對足球的喜好是否與年齡組別獨立?」)。
- 這是高等統計分析中的一個基本概念。
第一節:卡方 ($\chi^2$) 檢定統計量
卡方檢定是進行「適合度檢定」與「列聯表」分析背後的引擎。它衡量了我們的觀察頻率 ($O_i$) 與期望頻率 ($E_i$) 之間的偏差程度。
$\chi^2$ 統計量衡量的是什麼?
想像你在玩飛鏢。你預期飛鏢大多會落在紅心區域(這是預期的模式)。$\chi^2$ 統計量告訴你,你實際投擲(觀察數據)落在的地方,平均而言與應該落在的地方偏離了多少。
如果算出的 $\chi^2$ 值很小,代表觀察數據與期望值相當吻合。如果值很大,代表期望值可能有誤,我們就會拒絕虛無假設。
檢定統計量 $X^2$ 的公式
檢定統計量 $X^2$ 的計算方式是將觀察頻率與期望頻率之差的平方除以期望頻率,並將所有類別的結果相加:
$$X^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$- $O_i$:類別 $i$ 的觀察頻率。這是你收集到的原始數據。
- $E_i$:類別 $i$ 的期望頻率。這是理論或虛無假設下預期會發生的數值。
- 總和符號 ($\sum$) 代表將所有類別或格子進行累加。
溫馨提示: $X^2$ 的值永遠為正,因為差值經過了平方處理。$X^2$ 越大,代表擬合程度越差。
第二節:適合度檢定 (Goodness of Fit, GoF)
適合度檢定用於檢查數據樣本是否來自具有特定分佈的母體(例如均勻分佈、常態分佈、卜瓦松分佈、二項分佈,或僅僅是固定的機率)。
適合度檢定的逐步指南
步驟 1:列出假設
適合度檢定的假設總是遵循以下結構:
$$H_0: \text{數據符合指定的分佈(例如:卜瓦松分佈、均勻分佈或特定機率)。}$$ $$H_1: \text{數據不符合指定的分佈。}$$
注意:卡方檢定永遠是單尾檢定,只關注右側的臨界值,因為我們只在乎 $X^2$ 是否過大(即擬合程度太差)。
步驟 2:計算期望頻率 ($E_i$)
這裡你需要運用 $H_0$ 中指定的理論分佈以及總樣本數 ($N$)。
如果是針對固定機率 ($p_i$) 進行檢定:
$$E_i = N \times p_i$$
如果是針對特定分佈(例如卜瓦松分佈)進行檢定:
1. 找出分佈所需的參數(例如卜瓦松分佈的 $\lambda$ 或二項分佈的 $p$)。
2. 使用分佈公式找出每個類別的機率 $P(X=x)$。
3. 計算 $E_i = N \times P(X=x)$。
步驟 3:檢查條件並合併類別 (Pooling)
卡方檢定依賴於近似值。只有當期望頻率足夠大時,這種近似才可靠。
關鍵條件: 每個期望頻率 ($E_i$) 必須大於或等於 5 ($E_i \ge 5$)。
如果任何 $E_i < 5$,你必須將該類別與相鄰類別合併,直到合併後的期望頻率 $\ge 5$ 為止。這對這些類別中的觀察值與期望值皆適用。
步驟 4:計算檢定統計量 ($X^2$)
使用最終的(若有合併,則為合併後的)$O_i$ 與 $E_i$ 值代入公式:
$$X^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$步驟 5:決定自由度 ($\nu$)
自由度 ($\nu$) 可能是適合度檢定中最具挑戰性的部分,請務必留意!
適合度檢定的一般公式為:
$$\nu = (\text{類別總數, } k) - 1 - (\text{估計參數的個數, } m)$$- $k$: 合併後的類別總數。
- $-1$: 必須減去 1,因為所有期望頻率的總和必須等於觀察頻率的總和(這意味著一旦已知其他類別的頻率,最後一個類別的頻率便被固定了)。
- $m$: 你從樣本數據中估計出的參數數量,以便計算 $E_i$。
- 如果你是針對固定機率進行檢定(例如 $P(\text{正面})=0.5$),則 $m=0$。
- 如果你必須從樣本數據中計算出 $\lambda$(卜瓦松)或 $p$(二項/幾何分佈),則 $m=1$。
- 如果你必須計算 $\mu$ 和 $\sigma$(常態分佈),則 $m=2$。
記憶小撇步: 如果你必須使用樣本數據來得出一個放入理論公式的數字,你就會為該估計參數「損失」一個自由度。
步驟 6:比較與結論
1. 使用你計算出的 $\nu$ 和題目給定的顯著性水準 ($\alpha$),在卡方分佈表中找到臨界值。
2. 比較:
- 若 $X^2 \le \text{臨界值}$:接受 $H_0$。有足夠證據顯示數據符合指定分佈。
- 若 $X^2 > \text{臨界值}$:拒絕 $H_0$。有足夠證據顯示數據不符合指定分佈。
第三節:列聯表 (獨立性檢定)
當我們想要研究兩個類別變量之間的關係時,會使用列聯表。這稱為獨立性檢定。
例如:一個人的音樂喜好(流行、搖滾、古典)與其主要交通方式(汽車、巴士、自行車)之間是否存在關聯?
目標:測試獨立性
如果兩個變量是獨立的,知道一個變量的值並不能提供任何關於另一個變量的信息。此檢定檢查數據中觀察到的模式,是否可能純屬巧合(若變量實際上是獨立的話)。
步驟 1:列出假設
$$H_0: \text{兩個變量是獨立的(即沒有關聯)。}$$ $$H_1: \text{兩個變量不是獨立的(即存在關聯)。}$$
步驟 2:計算期望頻率 ($E_{ij}$)
在列聯表(有 $r$ 行和 $c$ 列)中,任何特定格子 $(i, j)$ 的期望頻率都是基於獨立性假設 ($H_0$) 計算出來的:
$$E_{ij} = \frac{(\text{行總計}) \times (\text{列總計})}{\text{總計 (Grand Total)}}$$類比:如果 60% 的人喜歡搖滾樂,而 50% 的人搭巴士,那麼在假設獨立的情況下,喜歡搖滾樂「且」搭巴士的人比例應為 $0.60 \times 0.50 = 0.30$。我們再將此機率乘以總計,即可得出期望次數。
步驟 3:檢查條件
就像適合度檢定一樣,所有期望頻率 ($E_{ij}$) 必須 $\ge 5$。如果任何格子的 $E_{ij} < 5$,你必須合併行或列(pool),直到滿足此條件。合併過程必須符合邏輯(例如,合併兩個相似的年齡組別)。
步驟 4:計算檢定統計量 ($X^2$)
公式維持不變,但總和需針對表格中的所有格子進行:
$$X^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$步驟 5:決定自由度 ($\nu$)
對於有 $r$ 行 $c$ 列的列聯表,$\nu$ 的計算比適合度檢定簡單得多:
$$\nu = (r-1)(c-1)$$注意:如果你因期望頻率過小而合併了行/列,請使用合併「後」的行數/列數來計算。
步驟 6:比較與結論
步驟與適合度檢定相同:在顯著性水準 ($\alpha$) 和自由度 ($\nu$) 下,將 $X^2$ 與卡方表的臨界值進行比較。
如果 $X^2$ 很大(大於臨界值),拒絕 $H_0$,並結論認為有證據顯示這兩個變量之間存在關聯。
- 適合度檢定: 測試一個樣本是否符合單一理論分佈(例如:這組數據是卜瓦松分佈嗎?)。$\nu = k - 1 - m$。
- 列聯表: 測試兩個變量是否相關(例如:性別是否與食物喜好有關?)。$\nu = (r-1)(c-1)$。
第四節:常見錯誤與總結
要避免的常見錯誤
- 在檢查條件時使用觀察頻率: 學生常會檢查 $O_i \ge 5$。這是錯誤的!你「必須」檢查$E_i \ge 5$。
- 適合度檢定的自由度錯誤: 當參數(如 $\lambda$ 或 $p$)是從樣本數據估計得出時,忘記減去 $m$。
- 列聯表的自由度錯誤: 使用了所有格子的數量,而不是使用 $(r-1)(c-1)$。
- 假設表述錯誤: 搞混了假設。$H_0$ 總是假設預期的情況(擬合程度良好 / 變量是獨立的)。
- 忘記合併類別: 當 $E_i < 5$ 時沒有合併,這會導致檢定結果不可靠。
最後檢查清單
- 你有清楚寫出 $H_0$ 和 $H_1$ 嗎?
- 所有期望頻率都算對了嗎?
- 你檢查過 $E_i \ge 5$ 的條件並在必要時進行合併了嗎?
- $\nu$ 的值正確嗎(特別是在適合度檢定中考慮了參數估計 $m$)?
- 計算出的 $X^2$ 統計量正確嗎?
- 結論是否結合題目語境,並明確說明是接受還是拒絕 $H_0$?
你已經掌握了卡方檢定的基本功!這是一個極其多功能且強大的工具,能幫助你進行可靠的統計推論。