歡迎來到統計假設檢定!
你有沒有想過科學家是如何「證明」一種新藥有效,或者工廠如何知道機器是否在麥片盒裡裝得太少?他們使用的就是統計假設檢定 (statistical hypothesis testing)。你可以把它想像成一種正式的數學偵探工作。我們從一個「平淡無奇」的假設(現狀)開始,看看我們的數據是否「古怪」到足以暗示某些事情已經發生了改變。
別擔心,如果起初覺得這些很複雜!我們將會把這些「統計術語」拆解成簡單易懂的內容,並向你展示在 Paper 3 中應對這些問題的步驟清單。
1. 「法庭」語言
在英國的法律體系中,一個人是「未經證明有罪前,均視為無罪」。假設檢定也完全一樣。我們有兩個對立的觀點:
虛無假設 (Null Hypothesis, \(H_0\)): 這是「無罪」或「什麼都沒有改變」的立場。除非我們有非常強而有力的證據反對,否則我們都假設它是正確的。它總是包含「等號」(例如 \(p = 0.5\) 或 \(\mu = 10\))。
對立假設 (Alternative Hypothesis, \(H_1\)): 這是「有罪」或「發生了某些事」的立場。這是身為研究者的你懷疑可能正在發生的情況。它使用諸如 \(<\)、\(>\) 或 \(\neq\) 的符號。
你需要知道的關鍵術語:
- 檢定統計量 (Test Statistic): 這是你從樣本中得到的實際值(例如喜歡某產品的人數)。
- 顯著性水準 (Significance Level, \(\alpha\)): 證據的「門檻」。通常為 5% (0.05)。如果我們決定拒絕 \(H_0\),這就是出錯的機率。
- 拒絕域 (Critical Region): 「拒絕區」。如果你的檢定統計量落在這裡,代表該結果發生在偶然下的機率極低,因此我們拒絕虛無假設。
- 臨界值 (Critical Value): 「接受域」與「拒絕域」之間的界線。
- p值 (p-value): 如果 \(H_0\) 是真的,得到你目前結果(或更極端結果)的機率。
記憶口訣:「p值規則」
如果 p 值很低(小於顯著性水準),那麼 \(H_0\) 就必須走!
總結:
假設檢定就是基於我們的數據在 \(H_0\) 的假設下有多不可能發生,來決定該支持 \(H_0\)(沒改變)還是 \(H_1\)(有改變)。
2. 比例檢定(二項分佈)
當我們處理「成功或失敗」的場景時,就會用到這個——例如硬幣出現正面的機率,或是支持某候選人的選民百分比。
步驟流程:
1. 陳述假設: \(H_0: p = \dots\) 以及 \(H_1: p <, >, \text{ 或 } \neq \dots\)
2. 定義分佈: 使用 \(H_0\) 中的數值,假設 \(X \sim B(n, p)\)。
3. 求出 p 值: 計算得到你的結果或更極端結果的機率。
例子:如果你懷疑硬幣傾向正面,而你在 10 次投擲中得到 8 次正面,求 \(P(X \geq 8)\)。
4. 比較: 如果 p 值 \( < \) 顯著性水準,則拒絕 \(H_0\)。
5. 在語境中下結論: 務必寫出完整的句子,例如:「在 5% 的顯著性水準下,有充分證據表明……的比例已經增加。」
單尾檢定 vs 雙尾檢定:
- 單尾檢定 (1-tail): 你懷疑在某一個特定的方向上有變化(例如:「該藥物比舊藥物更好」)。
- 雙尾檢定 (2-tail): 你只是認為它不同了(例如:「機器不再準確了」)。關鍵提示: 在雙尾檢定中,你必須將顯著性水準一分為二(例如:上端 2.5% 和下端 2.5%)。
你知道嗎? 顯著性水準其實就是犯下「第一型錯誤 (Type I error)」的機率——這意味著在虛無假設實際上為真時拒絕了它。這是我們承擔「虛驚一場」的風險。
快速複習:
對於二項分佈檢定,請使用計算機的二項累積分佈 (BCD) 功能。永遠要檢查題目問的是「至少 (at least)」還是「多於 (more than)」,以確保你的不等式正確!
3. 平均值檢定(常態分佈)
當我們測量連續數值(如體重、身高或時間)時,會使用此方法。對於 Paper 3 的這部分,我們假設已知母體變異數 (\(\sigma^2\))。
「重大改變」:樣本平均值
當我們取一個大小為 \(n\) 的樣本時,樣本平均值 (\(\bar{X}\)) 會遵循一個特定的分佈:
\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)
別忘了: 你必須將變異數除以樣本大小 \(n\)。這很好理解——樣本越大,平均值就越穩定,離散程度越小!
要避免的常見錯誤:
學生經常忘記在計算機上使用「標準誤 (Standard Error)」\(\frac{\sigma}{\sqrt{n}}\),而錯誤地使用了 \(\sigma\)。如果你忘記了 \(\sqrt{n}\),整個檢定就會出錯!
總結:
平均值檢定與二項分佈檢定的過程幾乎相同,但你使用的是常態分佈,且你的檢定統計量是你樣本的平均值 (\(\bar{x}\))。
4. 相關性假設檢定
有時我們想知道兩件事是否相關(例如學習時間與考試分數)。我們使用積差相關係數 (Product Moment Correlation Coefficient, PMCC),記作 \(r\)。
母體相關係數以希臘字母 rho (\(\rho\)) 表示。
- \(H_0: \rho = 0\)(沒有相關性)。
- \(H_1: \rho > 0, \rho < 0, \text{ 或 } \rho \neq 0\)。
你不需要手動計算 \(r\)(計算機可以做到!),但你必須將計算出的 \(r\) 值與考試提供的表格中的臨界值 (Critical Value) 進行比較,或是使用 p 值。如果你的 \(r\) 值比臨界值更偏離零,那就代表你發現了真正的相關性!
類比: 想像在嘈雜的房間裡試圖聽清一個耳語。相關性就是「耳語」(訊號),而隨機變異就是「雜訊」。假設檢定能幫助我們判斷耳語是真實存在的,還是我們在雜訊中幻聽了。
快速複習:
相關性不代表因果關係。即使你拒絕了 \(H_0\) 並發現強相關性,也不代表其中一件事情導致了另一件——它們可能只是被其他因素連結在一起而已!
5. 考試成功的最後小貼士
要在 Paper 3 獲得滿分,請遵循以下「黃金法則」:
- 永遠定義你的參數。不要只寫 \(p\);要寫「\(p\) 是種子發芽的機率」。
- 不要過於武斷: 永遠不要說「這證明了虛無假設是正確的」。相反,應該說「沒有足夠的證據來拒絕虛無假設」。
- 語境為王: 你的結論句必須提及實際情況(種子、硬幣、重量等)。很多分數是因為最後結論寫得太「數學化」而丟失的。
如果覺得這些內容很多,別擔心。多練習幾次,這些步驟就會變成本能。你其實只需要檢查數據是否「怪到」值得探討的地步!