Hypothesis testing - Mathematics (9660) - Oxford AQA International A-level

歡迎來到假設檢定 (Hypothesis Testing)！

你好！這絕對是統計學中最實用且令人興奮的主題之一。假設檢定本質上是一種基於樣本數據來做出明智決策的統計方法。這就像擔任偵探或法官，決定是否有足夠的證據來推翻一個長期存在的信念或主張。

在本章中，我們將學習如何正式構建統計論證、評估證據，並判斷一項主張是否具有統計顯著性。如果剛開始覺得有些複雜，請別擔心——我們會將其拆解成簡單且易於掌握的步驟！

1. 核心概念：統計審判

你可以將假設檢定想像成法院的審判過程。

虛無假設 (Null Hypothesis, \(H_0\))：假設被告無罪（現狀）。
對立假設 (Alternative Hypothesis, \(H_1\))：指控內容（我們懷疑是真實的宣稱）。
樣本數據 (Sample Data)：所呈現的證據。
顯著性水平 (Significance Level)：定罪所需的證據強度。

假設原則

在統計學中，我們總是假設虛無假設 (\(H_0\)) 為真，就像假設一個人「未經證明有罪前即為無罪」。隨後，我們利用樣本數據觀察是否提供了足夠的矛盾證據來拒絕 \(H_0\)。

重點總結

我們永遠不會「證明」\(H_1\) 為真；我們只能決定證據是否足夠強大，從而拒絕 \(H_0\) 並轉而支持 \(H_1\)。

2. 設立假設 (\(H_0\) 與 \(H_1\))

2.1. 虛無假設 (\(H_0\))

虛無假設是起點，它聲稱沒有變化、沒有影響，或者參數等於某個特定值。

\(H_0\) 總是包含等號 (\(=\))。
範例（比例 \(p\)）：\(H_0: p = 0.5\)
範例（平均值 \(\mu\) 或 \(\lambda\)）：\(H_0: \mu = 10\)

2.2. 對立假設 (\(H_1\))

對立假設反映了參數已發生改變的主張或懷疑。這決定了檢定是單尾還是雙尾。

單尾檢定 (One-Tailed Test)： 如果預期變化發生在特定方向（較大或較小）。
範例： 一家製造商宣稱新工藝減少了缺陷。
\(H_1: p < 0.5\)（小於舊比例）
雙尾檢定 (Two-Tailed Test)： 如果僅預期參數有所不同，但未指定方向。
範例： 我們懷疑平均分數已不再是 10。
\(H_1: \mu \neq 10\)（不等於 10）

⛔ 常見錯誤警示！

絕對不要在 \(H_0\) 中使用小於 (\(<\))、大於 (\(>\)) 或不等於 (\(\neq\)) 的符號。\(H_0\) 必須始終指定一個單一的參數值，例如 \(H_0: \mu = 5\)。

3. 決策制定：關鍵組成部分

3.1. 顯著性水平 (\(\alpha\))

顯著性水平 (\(\alpha\))（通常為 5% (0.05) 或 1% (0.01)）是拒絕 \(H_0\) 的門檻。

它代表犯下第一型錯誤 (Type I Error)（即拒絕事實上為真的 \(H_0\)）的最大機率。
較小的 \(\alpha\)（例如 1%）意味著需要更強的證據才能拒絕 \(H_0\)。

3.2. 臨界值與臨界區域

臨界區域 (Critical Region)（或稱拒絕區域）是指導致拒絕 \(H_0\) 的檢定統計量數值範圍。此區域的邊界稱為臨界值 (Critical Value)。

如果計算出的檢定統計量 (test statistic) 落入臨界區域，則拒絕 \(H_0\)。
如果是雙尾檢定，顯著性水平 \(\alpha\) 必須平分到兩端。例如，5% 的顯著性水平會在右尾有 2.5% 的拒絕區域，左尾也有 2.5% 的拒絕區域。
剩下的數值範圍稱為接受區域 (Acceptance Region)。

3.3. p 值法 (p-value Method)

p 值是另一種做決策的方法，在現代計算機協助下，通常更為簡便。

p 值是在假設 \(H_0\) 為真的情況下，觀測到與樣本數據一樣極端，甚或更極端結果的機率。
決策準則： 若 p 值 < \(\alpha\)（顯著性水平），我們便拒絕 \(H_0\)。

比喻：如果純屬偶然看到此證據的機率（p 值）低於我們可承受的風險（顯著性水平），那麼證據便足以支持拒絕假設 (H₀)。

4. 假設檢定中的錯誤（第一型與第二型）

由於我們依賴樣本數據，因此總是有得出錯誤結論的風險。

4.1. 第一型錯誤 (Type I Error)

當我們拒絕 \(H_0\)，但事實上 \(H_0\) 為真時，即發生第一型錯誤。

法院比喻： 將無辜的人判定為有罪。
犯下第一型錯誤的風險（機率）等於顯著性水平，\(\alpha\)。

4.2. 第二型錯誤 (Type II Error)

當我們接受 \(H_0\)（或未能拒絕 \(H_0\)），但事實上 \(H_0\) 為假時，即發生第二型錯誤。

法院比喻： 讓有罪的人被判無罪。
犯下第二型錯誤的風險通常記為 \(\beta\)。

你知道嗎？

在樣本大小保持不變的前提下，若你降低犯下第一型錯誤的機率（例如將 \(\alpha\) 從 5% 降至 1%），通常會增加犯下第二型錯誤 (\(\beta\)) 的機率。除非收集更多數據，否則通常無法同時降低這兩種風險！

5. 課程大綱涵蓋的具體檢定

所有檢定的步驟均相同：1. 提出假設，2. 設定顯著性水平，3. 計算檢定統計量/p 值，4. 比較並得出結論。改變的是我們用於計算的機率分佈。

5.1. 母體比例檢定（二項分佈）

若你在檢定比例 \(p\)（例如支持某候選人的比例）且樣本數 \(n\) 為小型有限樣本時，必須使用二項分佈 (Binomial distribution)。

\(H_0\) 下假設的分佈：\(X \sim B(n, p_0)\)。
我們使用精確二項機率（累積機率表或公式）來尋找 p 值。

二項分佈/卜瓦松分佈檢定步驟（使用 p 值）：

設定 \(H_0\)（例如 \(p = 0.2\)）與 \(H_1\)（例如 \(p > 0.2\)）。
從樣本中找出觀測到的次數 \(x\)。
計算 p 值：使用假設分佈 \(B(n, p_0)\)，計算 \(P(X \ge x)\)（若 \(H_1\) 為 \(>\)）或 \(P(X \le x)\)（若 \(H_1\) 為 \(<\)）。
若為雙尾檢定 (\(H_1: p \neq p_0\))：找出觀測結果或更極端結果的機率，然後將此機率乘以 2 得到雙尾 p 值。
比較 p 值與 \(\alpha\)。

5.2. 卜瓦松分佈的平均值檢定

若數據由計數組成（例如每小時收到的郵件數量），且我們要檢定率參數 \(\lambda\)，則使用卜瓦松分佈 (Poisson distribution)。

\(H_0\) 下假設的分佈：\(X \sim Po(\lambda_0)\)。
我們使用精確卜瓦松機率（累積機率表或公式，包括 \(e^{-\lambda}\) 的計算）來尋找 p 值。

注意： 若你是針對特定時間段內的平均率 \(\lambda\) 進行檢定，請記住，若樣本是在時間 \(t\)（或長度 \(L\)）內收集的，則你在卜瓦松分佈中使用的參數必須為 \(\lambda_0 \times t\)（或 \(\lambda_0 \times L\)）。

5.3. 使用 Z 統計量的平均值 (\(\mu\)) 檢定

當檢定平均值 \(\mu\) 時，我們通常在以下三種關鍵情況下使用常態分佈 (Normal distribution)（即 Z 統計量）：

情況 A：已知變異數 (\(\sigma^2\)) 的常態分佈

若母體為常態分佈 \(X \sim N(\mu, \sigma^2\)，且已知 \(\sigma^2\)，則樣本平均值 \(\bar{X}\) 的分佈為：
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
檢定統計量為 Z 統計量：
\(Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\)

情況 B：大樣本檢定（常態近似）

根據中央極限定理 (CLT)，若樣本大小 \(n\) 足夠大（通常 \(n > 30\)），則無論母體分佈為何，平均值 \(\bar{X}\) 的抽樣分佈均可近似為常態分佈。

若已知母體變異數 \(\sigma^2\)，請在 Z 公式中使用它。
若 \(\sigma^2\) 未知，對於大樣本，我們可以用樣本變異數 \(S^2\)（或樣本標準差 \(S\)）替代 \(\sigma^2\)，並依然使用 Z 檢定。
檢定統計量（大樣本）：\(Z = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\)

5.4. 使用 t 統計量的平均值 (\(\mu\)) 檢定

當檢定的母體平均值符合以下條件時，會使用此進階檢定：

假設母體為常態分佈。
樣本大小 \(n\) 很小（例如 \(n < 30\)）。
母體變異數 \(\sigma^2\) 未知，必須使用樣本變異數 \(S^2\) 來估計。

當上述條件成立時，平均值的抽樣分佈遵循 t 分佈 (t-distribution)，而非標準常態分佈。

檢定統計量：\(T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\)
t 分佈取決於自由度 (degrees of freedom)，通常為 \(n-1\)。你需要查閱（公式冊中提供的）t 分佈表，而不是常態分佈表。

快速回顧：假設檢定步驟

假設： 寫出 \(H_0\)（包含 \(=\)）與 \(H_1\)（包含 \(<\)、\(>\) 或 \(\neq\)）。
水平： 定義顯著性水平 \(\alpha\)。
分佈： 識別適當的分佈（二項分佈、卜瓦松分佈或常態/t 分佈）。
檢定： 計算檢定統計量（或計算 p 值）。
決策： 比較 p 值與 \(\alpha\)，或比較檢定統計量與臨界值。
結論： 根據問題的情境寫出清晰的結論語句（例如：「在 5% 的顯著性水平下，有足夠的證據拒絕平均值為 10 的主張。」）

恭喜你成功掌握了統計決策的基礎！持續練習這些步驟，你很快就能成為假設檢定的專家。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。