Hypothesis tests

A Level Maths (9709) P3：概率與統計 2

第 6.5 章：假設檢定綜合學習筆記

你好，未來的統計學家！假設檢定聽起來可能很深奧，但它其實是統計學中最實用且充滿成就感的課題之一。簡單來說，這是一種正規的方法，用來判斷我們對群體參數（如平均值或概率）的某種信念（假設），是否能得到樣本數據的支持。

你可以把它想像成一場陪審團審判：我們從一個假設出發，利用證據來決定是否應該推翻這個假設。準備好開始了嗎？我們來拆解一下！

第一部分：假設檢定的術語

在解題之前，你需要熟悉這些基本詞彙。以下是核心術語：

1. 假設（聲稱）

每次檢定都涉及兩個對立的陳述：

虛無假設 (Null Hypothesis, $H_0$)：這是預設情況或現狀的假設。它一定包含等號 ($=$)。
例子：學生的平均身高是 170 cm ($\mu = 170$)。
對立假設 (Alternative Hypothesis, $H_1$)：這是我們懷疑或試圖尋找證據支持的觀點。它永遠不包含等號，旨在質疑 $H_0$。
例子：平均身高「不」是 170 cm ($\mu \neq 170$)。

2. 單尾檢定與雙尾檢定

這告訴我們懷疑中變化的方向，完全由 $H_1$ 定義：

雙尾檢定 (Two-Tailed Test)：當我們只關心參數是否發生了變化（無論是增加還是減少）時使用。
$H_1$ 使用 $\neq$。
單尾檢定 (One-Tailed Test)：當我們懷疑參數向特定方向改變（例如：增加或減少）時使用。
$H_1$ 使用 $<$ 或 $>$。

比喻：雙尾檢定問的是「這枚硬幣公平嗎？」；單尾檢定問的是「這枚硬幣是否傾向於正面？」

3. 顯著性水平與區域

顯著性水平 (Significance Level, $\alpha$)：這是當 $H_0$ 實際為真時，我們卻拒絕它的概率。它代表我們容許犯錯的最大風險（通常為 5% 或 1%）。
若 $\alpha = 0.05$，代表我們願意接受 5% 的風險去拒絕一個正確的 $H_0$。
檢定統計量 (Test Statistic)：從樣本數據中計算出的數值，用於決定是否拒絕 $H_0$。
臨界區域 (Critical Region 或 Rejection Region)：導致拒絕 $H_0$ 的檢定統計量數值範圍。這些是「極端」數值。
接受區域 (Acceptance Region)：導致結論為「沒有足夠證據拒絕 $H_0$」的數值範圍。

小貼士：它們之間的關係 分佈曲線下的總概率面積為 1。臨界區域的總面積等於 $\alpha$。對於 $\alpha=0.05$ 的雙尾檢定，臨界區域被平分到兩個尾端，每個尾端的面積為 $0.025$。

第二部分：進行假設檢定的五個步驟

無論你使用的是二項分佈、泊松分佈還是常態分佈，請按部就班地執行以下步驟：

步驟 1：列出假設 ($H_0$ 和 $H_1$)

定義群體參數（如概率 $p$ 或平均值 $\mu$），並寫出 $H_0$ 和 $H_1$。確保 $H_0$ 包含等號。

步驟 2：定義顯著性水平與檢定類型

寫出 $\alpha$（例如 5%），並根據 $H_1$ 判斷是單尾還是雙尾檢定。

步驟 3：計算檢定統計量（或找出臨界區域）

這是開始計算的地方。方法取決於你使用的分佈類型（見下文 3a 和 3b）。

步驟 4：作出決定（比較）

將步驟 3 的結果與臨界值或顯著性水平進行比較：

使用臨界區域法：如果計算出的檢定統計量落入臨界區域，則拒絕 $H_0$。
使用 $p$-值（直接概率）法：如果觀察到樣本數據（或更極端結果）的概率小於 $\alpha$，則拒絕 $H_0$。

步驟 5：結合題目背景解釋結論

這一步非常重要！請務必將最終決定結合題目背景陳述。不要只寫「拒絕 $H_0$」。

例子：「在 5% 的顯著性水平下，有足夠證據顯示平均身高有所增加。」

第三部分：針對特定分佈的檢定

3a：二項分佈與泊松分佈的假設檢定（單次觀測）

當檢定關於二項分佈 $B(n, p)$ 的群體概率 ($p$) 或泊松分佈 $Po(\lambda)$ 的平均比率 ($\lambda$) 的聲稱時，對於小樣本，我們通常使用直接概率法。

程序示例（二項分佈）： 某公司聲稱其產品 10% 是次品 ($p=0.1$)。在 20 個產品的樣本中發現 5 個次品。在 $\alpha = 5\%$ 的水平下，檢定次品比例是否增加 ($H_1: p > 0.1$) 的聲稱。

1. 假設：$H_0: p = 0.1$，$H_1: p > 0.1$。(單尾，上尾)

2. 在 $H_0$ 下的分佈：$X \sim B(20, 0.1)$。觀測結果：$x=5$。

3. 計算 $p$-值：在假設 $H_0$ 為真的情況下（即使用 $p=0.1$），計算觀察到 5 個或以上次品的概率。

$p\text{-value} = P(X \geq 5 \text{ | } p=0.1)$

$P(X \geq 5) = 1 - P(X \leq 4)$

（查表或使用計算機，假設 $P(X \leq 4) = 0.9568$）

$p\text{-value} = 1 - 0.9568 = 0.0432$

4. 決定：由於 $0.0432 < 0.05$，$p$-值小於 $\alpha$。拒絕 $H_0$。

5. 解釋：有證據顯示次品比例有所增加。

關於離散數據臨界區域的重要提示：

由於二項分佈與泊松分佈是離散的，臨界區域必須由第一個使累積概率小於或等於 $\alpha$ 的數值 $k$ 來定義。

若 $H_1: p > p_0$，找出最小的 $k$ 使得 $P(X \geq k) \leq \alpha$。
若 $H_1: p < p_0$，找出最大的 $k$ 使得 $P(X \leq k) \leq \alpha$。

3b：二項分佈與泊松分佈的常態近似

當 $n$ 很大（二項分佈）或 $\lambda$ 很大（泊松分佈）時，我們使用常態近似，將問題轉化為 Z-檢定。

近似條件：

二項分佈：$n > 50$，且 $np > 5$ 及 $nq > 5$。使用 $N(np, npq)$。
泊松分佈：$\lambda > 15$。使用 $N(\lambda, \lambda)$。

關鍵步驟：連續性校正 (Continuity Correction, CC)

由於我們用連續分佈近似離散分佈，必須使用連續性校正。
例子：$P(X \leq 10)$ 變為 $P(Y < 10.5)$。$P(X > 15)$ 變為 $P(Y > 15.5)$。

3c：關於群體平均值 ($\mu$) 的假設檢定

此檢定用於調查關於群體平均值的聲稱。如果樣本很大，或者群體服從已知變異數的常態分佈，這總是一個 Z-檢定。

前提條件（為何我們使用常態分佈/Z-分數）：

我們依賴中央極限定理 (CLT) 或常態群體的假設：

樣本平均值 $\bar{X}$ 的分佈是常態分佈（如果 $n$ 很大則是近似常態）。
我們使用分佈 $\bar{X} \sim N\left( \mu, \frac{\sigma^2}{n} \right)$。

檢定統計量 (Z-值)

衡量樣本平均值與假設群體平均值 $\mu_0$ 之間相差多少個標準誤差的標準方法是：

$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$$

其中 $\bar{X}$ 是樣本平均值，$\mu_0$ 是 $H_0$ 下假設的平均值，$\sigma$ 是群體標準差（若 $n$ 很大亦可用樣本估計值 $s$），$n$ 是樣本大小。

Z-檢定逐步示例：

1. 假設：$H_0: \mu = 50$，$H_1: \mu \neq 50$。($\alpha = 5\%$，雙尾)

2. 臨界值：由於 $\alpha = 0.05$（雙尾），臨界 Z-值為 $Z = \pm 1.96$（查常態分佈表，每個尾端區域為 0.025）。

3. 計算 Z-統計量： （假設樣本平均值 $\bar{X} = 52$，$\sigma=10$，$n=100$）

$$Z = \frac{52 - 50}{10 / \sqrt{100}} = \frac{2}{1} = 2.00$$

4. 決定：計算出的 $Z=2.00$ 超出了接受區域（介於 -1.96 和 1.96 之間）。它位於臨界區域內。拒絕 $H_0$。

5. 解釋：在 5% 的顯著性水平下，有足夠證據顯示群體平均值不是 50。

第四部分：決策中的錯誤

因為我們依賴樣本，決策總有出錯的可能。你必須理解並計算以下兩種錯誤。

4.1 第一型錯誤 (Type I Error, $\alpha$)

定義：當 $H_0$ 實際為真時卻拒絕了它。
嚴重性：有時稱為「偽陽性」(false positive)。
概率：犯下第一型錯誤的概率等於顯著性水平 $\alpha$。
例子：結論是平均身高「不」是 170 cm，但實際上它就是 170 cm。

4.2 第二型錯誤 (Type II Error, $\beta$)

定義：當 $H_0$ 實際為假（即 $H_1$ 為真）時卻接受了（或未能拒絕）它。
嚴重性：有時稱為「偽陰性」(false negative)。
概率 ($\beta$)：這較難計算，需要假設 $H_1$ 下參數的一個特定值。
例子：結論是平均身高「是」170 cm，但實際上它是 172 cm。

如何計算第二型錯誤的概率 ($\beta$)

計算 $\beta$ 涉及兩個步驟：

步驟 A：根據 $H_0$ 和 $\alpha$ 找出接受區域（臨界值）。

找出在 $H_0$ 定義的分佈下，將接受區域與拒絕區域分開的邊界值（臨界值 $k$）。

步驟 B：在假設為新參數（來自 $H_1$）的情況下，計算檢定統計量落入接受區域的概率。

第二型錯誤的概率 $\beta$ 為 $P(\text{接受區域 } | \text{ 真實參數})$。

如果剛開始覺得很難，別擔心！這是本章中最複雜的計算。先練習 $H_1$ 指定特定數值（例如 $H_1: \mu = 51$ 而不是單純 $\mu > 50$）的題目，通常是計算 $\beta$ 的最佳起點。

第一型與第二型錯誤總結

	$H_0$ 為真	$H_0$ 為假 ($H_1$ 為真)
接受 $H_0$	正確決策	第二型錯誤 ($\beta$)
拒絕 $H_0$	第一型錯誤 ($\alpha$)	正確決策

核心觀點：這兩者之間存在固有的取捨。如果你降低第一型錯誤的概率（例如降低 $\alpha$），接受區域就會變大，這會使你犯下第二型錯誤 ($\beta$) 的可能性隨之增加。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

	\(H_0\) 為真	\(H_0\) 為假 (\(H_1\) 為真)
接受 \(H_0\)	正確決策	第二型錯誤 (\(\beta\))
拒絕 \(H_0\)	第一型錯誤 (\(\alpha\))	正確決策