Statistical hypothesis testing - Mathematics 7357 - AQA A Level

歡迎來到統計假設檢定！

你有沒有想過科學家是如何「證明」一種新藥有效，或者工廠如何知道機器是否在麥片盒裡裝得太少？他們使用的就是統計假設檢定 (statistical hypothesis testing)。你可以把它想像成一種正式的數學偵探工作。我們從一個「平淡無奇」的假設（現狀）開始，看看我們的數據是否「古怪」到足以暗示某些事情已經發生了改變。

別擔心，如果起初覺得這些很複雜！我們將會把這些「統計術語」拆解成簡單易懂的內容，並向你展示在 Paper 3 中應對這些問題的步驟清單。

1. 「法庭」語言

在英國的法律體系中，一個人是「未經證明有罪前，均視為無罪」。假設檢定也完全一樣。我們有兩個對立的觀點：

虛無假設 (Null Hypothesis, \(H_0\))： 這是「無罪」或「什麼都沒有改變」的立場。除非我們有非常強而有力的證據反對，否則我們都假設它是正確的。它總是包含「等號」（例如 \(p = 0.5\) 或 \(\mu = 10\)）。

對立假設 (Alternative Hypothesis, \(H_1\))： 這是「有罪」或「發生了某些事」的立場。這是身為研究者的你懷疑可能正在發生的情況。它使用諸如 \(<\)、\(>\) 或 \(\neq\) 的符號。

你需要知道的關鍵術語：

檢定統計量 (Test Statistic)： 這是你從樣本中得到的實際值（例如喜歡某產品的人數）。
顯著性水準 (Significance Level, \(\alpha\))： 證據的「門檻」。通常為 5% (0.05)。如果我們決定拒絕 \(H_0\)，這就是出錯的機率。
拒絕域 (Critical Region)： 「拒絕區」。如果你的檢定統計量落在這裡，代表該結果發生在偶然下的機率極低，因此我們拒絕虛無假設。
臨界值 (Critical Value)： 「接受域」與「拒絕域」之間的界線。
p值 (p-value)： 如果 \(H_0\) 是真的，得到你目前結果（或更極端結果）的機率。

記憶口訣：「p值規則」
如果 p 值很低（小於顯著性水準），那麼 \(H_0\) 就必須走！

總結：

假設檢定就是基於我們的數據在 \(H_0\) 的假設下有多不可能發生，來決定該支持 \(H_0\)（沒改變）還是 \(H_1\)（有改變）。

2. 比例檢定（二項分佈）

當我們處理「成功或失敗」的場景時，就會用到這個——例如硬幣出現正面的機率，或是支持某候選人的選民百分比。

步驟流程：

1. 陳述假設： \(H_0: p = \dots\) 以及 \(H_1: p <, >, \text{ 或 } \neq \dots\)

2. 定義分佈： 使用 \(H_0\) 中的數值，假設 \(X \sim B(n, p)\)。

3. 求出 p 值： 計算得到你的結果或更極端結果的機率。
例子：如果你懷疑硬幣傾向正面，而你在 10 次投擲中得到 8 次正面，求 \(P(X \geq 8)\)。

4. 比較： 如果 p 值 \( < \) 顯著性水準，則拒絕 \(H_0\)。

5. 在語境中下結論： 務必寫出完整的句子，例如：「在 5% 的顯著性水準下，有充分證據表明……的比例已經增加。」

單尾檢定 vs 雙尾檢定：

單尾檢定 (1-tail)： 你懷疑在某一個特定的方向上有變化（例如：「該藥物比舊藥物更好」）。
雙尾檢定 (2-tail)： 你只是認為它不同了（例如：「機器不再準確了」）。關鍵提示： 在雙尾檢定中，你必須將顯著性水準一分為二（例如：上端 2.5% 和下端 2.5%）。

你知道嗎？ 顯著性水準其實就是犯下「第一型錯誤 (Type I error)」的機率——這意味著在虛無假設實際上為真時拒絕了它。這是我們承擔「虛驚一場」的風險。

快速複習：

對於二項分佈檢定，請使用計算機的二項累積分佈 (BCD) 功能。永遠要檢查題目問的是「至少 (at least)」還是「多於 (more than)」，以確保你的不等式正確！

3. 平均值檢定（常態分佈）

當我們測量連續數值（如體重、身高或時間）時，會使用此方法。對於 Paper 3 的這部分，我們假設已知母體變異數 (\(\sigma^2\))。

「重大改變」：樣本平均值

當我們取一個大小為 \(n\) 的樣本時，樣本平均值 (\(\bar{X}\)) 會遵循一個特定的分佈：
\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)

別忘了： 你必須將變異數除以樣本大小 \(n\)。這很好理解——樣本越大，平均值就越穩定，離散程度越小！

要避免的常見錯誤：

學生經常忘記在計算機上使用「標準誤 (Standard Error)」\(\frac{\sigma}{\sqrt{n}}\)，而錯誤地使用了 \(\sigma\)。如果你忘記了 \(\sqrt{n}\)，整個檢定就會出錯！

總結：

平均值檢定與二項分佈檢定的過程幾乎相同，但你使用的是常態分佈，且你的檢定統計量是你樣本的平均值 (\(\bar{x}\))。

4. 相關性假設檢定

有時我們想知道兩件事是否相關（例如學習時間與考試分數）。我們使用積差相關係數 (Product Moment Correlation Coefficient, PMCC)，記作 \(r\)。

母體相關係數以希臘字母 rho (\(\rho\)) 表示。

\(H_0: \rho = 0\)（沒有相關性）。
\(H_1: \rho > 0, \rho < 0, \text{ 或 } \rho \neq 0\)。

你不需要手動計算 \(r\)（計算機可以做到！），但你必須將計算出的 \(r\) 值與考試提供的表格中的臨界值 (Critical Value) 進行比較，或是使用 p 值。如果你的 \(r\) 值比臨界值更偏離零，那就代表你發現了真正的相關性！

類比： 想像在嘈雜的房間裡試圖聽清一個耳語。相關性就是「耳語」（訊號），而隨機變異就是「雜訊」。假設檢定能幫助我們判斷耳語是真實存在的，還是我們在雜訊中幻聽了。

快速複習：

相關性不代表因果關係。即使你拒絕了 \(H_0\) 並發現強相關性，也不代表其中一件事情導致了另一件——它們可能只是被其他因素連結在一起而已！

5. 考試成功的最後小貼士

要在 Paper 3 獲得滿分，請遵循以下「黃金法則」：

永遠定義你的參數。不要只寫 \(p\)；要寫「\(p\) 是種子發芽的機率」。
不要過於武斷： 永遠不要說「這證明了虛無假設是正確的」。相反，應該說「沒有足夠的證據來拒絕虛無假設」。
語境為王： 你的結論句必須提及實際情況（種子、硬幣、重量等）。很多分數是因為最後結論寫得太「數學化」而丟失的。

如果覺得這些內容很多，別擔心。多練習幾次，這些步驟就會變成本能。你其實只需要檢查數據是否「怪到」值得探討的地步！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

歡迎來到統計假設檢定！

1. 「法庭」語言

你需要知道的關鍵術語：

總結：

2. 比例檢定（二項分佈）

步驟流程：

單尾檢定 vs 雙尾檢定：

快速複習：

3. 平均值檢定（常態分佈）

「重大改變」：樣本平均值

要避免的常見錯誤：

總結：

4. 相關性假設檢定

快速複習：

5. 考試成功的最後小貼士

立即實踐所學