Hypothesis tests - Mathematics (YMA01) - Pearson Edexcel International A Level

歡迎來到假設檢定：統計偵探的工作！

各位未來的統計學家，你們好！「假設檢定」聽起來可能有點嚇人，但它其實是統計學中最實用且令人興奮的課題之一。簡單來說，你將學習如何利用數學來驗證關於這個世界的各種假設。

本章是 Unit S2：統計學 2 (Statistics 2) 的基石。我們將重點探討參數檢定，特別是與二項分佈 (Binomial Distribution) 相關的機率 \(p\)，這也是你在本單元中最常遇到的假設檢定類型。

讓我們深入探討，學習如何利用紮實的統計證據來證明（或推翻！）一個主張！

引言重點摘要

假設檢定讓我們能夠利用樣本數據，對整體的參數（例如平均值或機率）做出決策。

1. 基礎：什麼是假設檢定？

想像有人宣稱一枚硬幣是公平的，也就是說出現正面的機率為 \(p = 0.5\)。你懷疑他在說謊，認為這枚硬幣被動過手腳。假設檢定 (Hypothesis Test) 就是一種正式的程序，用來檢查是否有足夠的證據來拒絕最初的主張。

任何檢定都包含兩個主要的陳述：

虛無假設 (\(H_0\))： 這是現狀或既有的觀念。它總是主張參數（例如機率 \(p\)）具有某個特定的值。
對立假設 (\(H_1\))： 這是你試圖尋找證據來支持的主張。它挑戰虛無假設，暗示參數小於、大於或僅僅是不同於 \(H_0\) 中的數值。

設定 \(H_0\) 的規則

虛無假設 (\(H_0\)) 必須永遠包含等號 (\(= \))。

例子： 如果我們要檢定「騎單車上學的學生比例為 20%」這一主張，那麼：

\(H_0: p = 0.2\)

如果我們懷疑比例其實更高：

\(H_1: p > 0.2\)

快速複習：兩個假設

\(H_0\) (現狀)： 總是使用 \(= \)。這是你在被證明有誤之前假設為真的內容。
\(H_1\) (挑戰者)： 使用 \(< \)、\(> \) 或 \(\ne \)。這是你正要進行檢定的內容。

2. 顯著水準 (\(\alpha\))：我們需要多高的把握？

在拒絕 \(H_0\) 之前，我們需要一個標準來衡量證據必須有多強。這個標準稱為顯著水準 (Significance Level)，以希臘字母 \(\alpha\) (alpha) 表示。

顯著水準是一種風險的衡量。它定義了錯誤地拒絕一個正確的 \(H_0\) 的最大機率。

常見的顯著水準有 10% (0.1)、5% (0.05) 或 1% (0.01)。

類比： 可以把顯著水準想像成法庭上「排除合理懷疑」的標準。如果 \(\alpha = 0.05\)，我們要求反對 \(H_0\) 的證據必須非常極端，以至於在 \(H_0\) 為真的情況下，這種現象發生的機率只有 5%（或更低）。

3. 單尾檢定與雙尾檢定

對立假設 (\(H_1\)) 的類型決定了你的檢定是單尾還是雙尾。這對於之後設定「棄卻域」(Critical Region) 至關重要。

3.1 單尾檢定 (One-Tailed Tests)

這些檢定只尋找單一方向的變化。

如果 \(H_1\) 使用 \(> \)：我們正在檢定是否有增加（右尾檢定）。
如果 \(H_1\) 使用 \(< \)：我們正在檢定是否有減少（左尾檢定）。

例子： 一家製造商聲稱某零件壽命為 1000 小時。消費者團體懷疑它實際壽命少於 1000 小時。
\(H_0: \mu = 1000\)
\(H_1: \mu < 1000\) （單尾，左尾檢定）

3.2 雙尾檢定 (Two-Tailed Tests)

這些檢定尋找任何方向（增加或減少）的變化。

如果 \(H_1\) 使用 \(\ne \)：表示參數僅僅是與原先聲稱的數值不同。

例子： 某硬幣聲稱是公平的 (\(p = 0.5\))。你只想檢定它是否不公平（無論是因為哪種原因被動了手腳）。
\(H_0: p = 0.5\)
\(H_1: p \ne 0.5\) （雙尾檢定）

雙尾檢定的重要提示

如果顯著水準為 \(\alpha\)，你必須將這份風險平均分配到兩個尾部。

如果 \(\alpha = 5\%\) (0.05) 且為雙尾檢定：
應用於右尾的顯著水準為 \(0.05 / 2 = 0.025\) (2.5%)。
應用於左尾的顯著水準為 \(0.05 / 2 = 0.025\) (2.5%)。

4. 使用二項分佈進行假設檢定 (S2 核心)

在 S2 單元中，你經常會處理結果為「成功次數」（固定次數的試驗中）的情境，這遵循二項分佈。

我們假設成功次數 \(X\) 遵循分佈 \(X \sim B(n, p)\)。

\(n\) 是固定的樣本大小（試驗次數）。
\(p\) 是在 \(H_0\) 下假設的成功機率。

5 步假設檢定程序

進行每次檢定時，請遵循以下步驟：

步驟 1：定義假設與顯著水準

寫出 \(H_0\)、\(H_1\) 以及顯著水準 \(\alpha\)。定義檢定統計量 \(X\) 的分佈。
例子： 檢定 \(p\) 是否從 0.4 增加，樣本大小為 20，\(\alpha = 5\%\)。
\(H_0: p = 0.4\)
\(H_1: p > 0.4\)
\(X \sim B(20, 0.4)\)

步驟 2：確定檢定統計量

這是從你的樣本中實際觀察到的數值。
例子： 如果觀察到 13 次成功，則檢定統計量為 \(x = 13\)。

步驟 3：尋找棄卻域 (CR) 或計算 P 值

此步驟決定你觀察到的結果是否「足夠極端」以至於可以拒絕 \(H_0\)。你必須使用統計表中的累積機率或計算機。

步驟 4：比較並做出決策

你的觀察值是否在棄卻域內？或者 P 值是否小於 \(\alpha\)？

步驟 5：在背景脈絡下陳述結論

將統計決策連回最初的現實世界問題。

5. 棄卻域與 P 值（決策工具）

棄卻域 (Critical Region, CR) 是指導致拒絕 \(H_0\) 的檢定統計量數值範圍。

5.1 方法一：尋找棄卻域

由於 \(X\) 是離散的（你只能有整數次的成功），我們尋找盡可能接近顯著水準 \(\alpha\) 但不超過它的區域。

例子演示（單尾檢定）

假設 \(X \sim B(10, 0.8)\) 且 \(H_1: p < 0.8\)。我們使用 \(\alpha = 5\%\) (0.05)。

1. 我們在尋找較小的 \(X\) 值。棄卻域 \(C\) 從 \(X=0\) 開始，直到某個值 \(c\)。我們希望找到 \(c\) 使得：
\(P(X \le c) \le 0.05\)

2. 使用 \(n=10, p=0.8\) 的二項分佈表：

\(P(X \le 5) = 0.0328\) (小於 0.05 - 合適！)
\(P(X \le 6) = 0.1209\) (大於 0.05 - 太大了！)

3. 因此，棄卻域為 \(X \le 5\)。

如果你的觀察結果 \(x\) 為 5 或更小，你就拒絕 \(H_0\)。如果 \(x\) 為 6 或更大，則不拒絕 \(H_0\)。

5.2 實際顯著水準

由於 \(X\) 是離散的，我們往往無法完全精確達到 \(\alpha\)。實際顯著水準 (Actual Significance Level) 是你實際找到的棄卻域所對應的機率。
在上面的例子中，實際顯著水準為 \(P(X \le 5) = 0.0328\) 或 3.28%。

5.3 方法二：計算 P 值

P 值 (P-value) 是在假設 \(H_0\) 為真的情況下，觀察到與你實際檢定統計量一樣極端（或更極端）的結果的機率。

P 值的經驗法則：

如果 P 值 \(\le \alpha\)：拒絕 \(H_0\)（在 \(H_0\) 假設下，該結果非常不可能發生）。
如果 P 值 \(> \alpha\)：不拒絕 \(H_0\)。

例子：

使用前例：\(X \sim B(10, 0.8)\)，\(H_1: p < 0.8\)，\(\alpha = 0.05\)。假設我們觀察到 \(x = 6\)。

1. 由於 \(H_1\) 是 \(p < 0.8\)，極端區域為左尾。
2. 計算觀察到 6 或更極端（更小）結果的機率：
P 值 \( = P(X \le 6)\)
P 值 \( = 0.1209\) (查表所得)

3. 比較：\(0.1209 > 0.05\)。
4. 結論：由於 P 值大於 \(\alpha\)，我們不拒絕 \(H_0\)。

重點摘要（決策規則）

無論你使用棄卻域還是 P 值法，結果都必須相同！選擇你覺得最順手的方法，但也要兩者都熟悉。

6. 做出結論（步驟 5）

此步驟需要清晰、非數學的語言。

如果你拒絕 \(H_0\)：

在 \(\alpha\) 的顯著水準下，有足夠的證據顯示 [在背景脈絡中陳述 \(H_1\) 的主張]。

如果你不拒絕 \(H_0\)：

在 \(\alpha\) 的顯著水準下，沒有足夠的證據拒絕虛無假設。我們得出結論：沒有顯著證據顯示 [在背景脈絡中陳述 \(H_1\) 的主張]。

避免一個常見錯誤！

永遠不要說「接受 \(H_0\)」。當我們無法拒絕 \(H_0\) 時，這僅僅意味著我們沒有「足夠的」證據來證明 \(H_1\)。我們並沒有證明 \(H_0\) 為真，我們只是未能證明它是假的！

想像法庭的比喻： 陪審團可能會判定某人「罪證不足」（不拒絕 \(H_0\)），但他們不一定證明了那個人是「無罪的」（接受 \(H_0\)）。

7. 假設檢定中的錯誤

由於我們使用機率與樣本，總是有可能做出錯誤的決策。錯誤分為兩種類型：

7.1 第一型錯誤 (Type I Error)

當你拒絕 \(H_0\)，但事實上 \(H_0\) 是正確的，就會發生這種情況。
（你發現硬幣有偏向，但它其實是公平的。）

第一型錯誤的機率恰好等於顯著水準 (\(\alpha\))。
\(P(\text{第一型錯誤}) = P(\text{拒絕 } H_0 \mid H_0 \text{ 為真}) = \alpha\)

7.2 第二型錯誤 (Type II Error)

當你不拒絕 \(H_0\)，但事實上 \(H_0\) 是錯誤的（即 \(H_1\) 為真）時，就會發生這種情況。
（你發現硬幣是公平的，但它其實有偏向。）

第二型錯誤的機率以 \(\beta\) (beta) 表示。
找出 \(\beta\) 比較複雜，因為 \(H_1\) 是一個值的範圍（例如 \(p > 0.5\)）。要計算 \(\beta\)，你必須被給予 \(H_1\) 下的一個特定值來進行測試。

計算第二型錯誤的機率 (\(\beta\))

\(\beta = P(\text{不拒絕 } H_0 \mid H_1 \text{ 在特定值 } p_1 \text{ 下為真})\)

流程：

首先，確定原始檢定的接受域 (Acceptance Region, AR)（即你「不拒絕 \(H_0\)」的區域）。
使用 \(H_1\) 下給定的特定值 \(p_1\) 來建立一個新的分佈：\(X \sim B(n, p_1)\)。
使用這個新的分佈計算落入接受域的機率。該機率即為 \(\beta\)。

你知道嗎？

這兩種錯誤之間存在反比關係。如果你降低第一型錯誤的風險 (\(\alpha\))，你就會自動增加第二型錯誤的風險 (\(\beta\))，反之亦然！將檢定標準設得太嚴格（例如 \(\alpha = 1\%\)）會使得更難拒絕 \(H_0\)，這意味著你更有可能錯過真實存在的效應。

重點摘要（錯誤）

第一型錯誤： 在 \(H_0\) 為真時拒絕它。機率為 \(\alpha\)。（偽陽性）
第二型錯誤： 在 \(H_0\) 為假時不拒絕它。機率為 \(\beta\)。（偽陰性）

本章總結檢核清單

如果你能充滿自信地完成以下事項，你就準備好應對考試題目了：

正確地陳述虛無假設 (\(H_0\)) 與對立假設 (\(H_1\))。
識別檢定是單尾還是雙尾。
正確地將雙尾檢定的顯著水準 (\(\alpha\)) 進行分配。
使用累積機率找出二項分佈檢定的棄卻域。
計算 P 值 並利用它做出決策。
定義並計算第一型錯誤 (\(\alpha\)) 的機率。
在給定對立假設的特定參數值下，計算第二型錯誤 (\(\beta\)) 的機率。

做得好！假設檢定通常被認為很有挑戰性，但只要有系統地遵循這些步驟，你一定能掌握它！繼續練習那些棄卻域的邊界計算吧！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。