Hypothesis tests

單元 S2：統計學 2 - 假設檢定 (Hypothesis Tests)

你好，未來的統計學家！本章將把你在概率分佈學到的所有知識融會貫通。假設檢定 (Hypothesis testing) 或許是統計學中最實用且最令人興奮的部分，因為它讓我們能夠運用數據，針對現實世界中的說法進行正式的驗證或否定。
如果起初覺得有點困難，別擔心；我們會將整個過程拆解為簡單的步驟。學完這一章，你將能夠自信地檢驗科學家、政治家，甚至是鄰居店主所提出的主張！

1. 核心概念：什麼是假設檢定？

假設檢定是一種正式的程序，旨在根據從樣本中收集到的證據，決定是否拒絕一項統計主張（即虛無假設）。

比喻：法庭審訊

你可以將假設檢定想像成一場刑事審訊：

預設立場是被告無罪（這是現狀）。
檢控方（主張者）需要證據來證明被告有罪。
如果證據足夠充分（超越合理懷疑，即統計上的顯著性），我們便會拒絕該預設立場。

必須掌握的關鍵術語

不精通這些詞彙，你將無法進行檢定：

虛無假設 (Null Hypothesis, $H_0$)： 這是現狀、目前普遍接受的信念，或我們開始時作出的假設。它永遠包含等號 ($p = 0.5$，$\lambda = 10$)。
對立假設 (Alternative Hypothesis, $H_1$)： 這是被檢驗的主張，暗示參數已經改變。它絕對不會包含等號 ($p < 0.5$，$\lambda > 10$，或 $p \ne 0.5$)。
總體參數 (Population Parameter)： 正在被檢驗的真實數值（例如真實概率 $p$ 或真實平均速率 $\lambda$）。
檢定統計量 (Test Statistic)： 你從樣本中實際測量出來的數據（例如成功次數，$X$）。
顯著性水平 (Significance Level, $\alpha$)： 當 $H_0$ 為真時，卻錯誤拒絕它的臨界概率。常見的水平為 5% (0.05) 或 1% (0.01)。
拒絕域 (Critical Region)： 導致我們拒絕 $H_0$ 的檢定統計量數值範圍。如果我們觀察到的檢定統計量落在此區域內，該結果便「太不尋常」，不足以支持 $H_0$。
接受域 (Acceptance Region)： 我們不拒絕 $H_0$ 的數值範圍。

快速回顧： $H_0$ 是無聊的（等於）；$H_1$ 是令人興奮的（小於、大於或不等於）。

2. 單尾檢定與雙尾檢定

檢定的類型完全取決於所問的問題以及你如何書寫 $H_1$。

單尾檢定 (One-Tailed Test, 方向性)

當對立假設只指定一個方向的變化（例如：增加或減少）時使用。

例子：一家工廠聲稱其產品缺陷率為 $p = 0.1$。經理懷疑該比率已經增加。
$$H_0: p = 0.1$$ $$H_1: p > 0.1$$

雙尾檢定 (Two-Tailed Test, 非方向性)

當對立假設只指出參數已經改變（即可能變高，也可能變低）時使用。

例子：一家公司聲稱 50% 的人偏好其產品 ($p = 0.5$)。研究人員懷疑這個比例不再是 50%。
$$H_0: p = 0.5$$ $$H_1: p \ne 0.5$$

雙尾檢定的關鍵步驟：平分顯著性水平

如果你在顯著性水平 $\alpha$ 下進行雙尾檢定，你必須將該風險平均分配到兩個尾部。

如果 $\alpha = 5\%$，則 2.5% 分配到下拒絕域，2.5% 分配到上拒絕域。

記憶小撇步：

$H_1$ 的符號裡有幾個尾巴？

$>$ 或 $<$ 看起來像一條尾巴。 $\rightarrow$ 單尾檢定。
$\ne$ 有兩個向外指的端點。 $\rightarrow$ 雙尾檢定（需平分 $\alpha$）。

3. 標準的 5 步驟假設檢定程序（使用拒絕域）

無論使用哪種分佈，請完美遵循這些步驟。正確的結構通常能幫你拿到方法分！

定義假設與模型：
清楚說明 $H_0$ 和 $H_1$ 的總體參數（例如 $p$ 或 $\lambda$）。
同時定義分佈模型及其參數（例如 $X \sim B(n, p)$ 或 $X \sim Po(\lambda)$）。
確定拒絕域 (CR)：
使用顯著性水平 ($\alpha$)，找出檢定統計量 $X$ 的邊界值。
這涉及使用你的統計表（二項分佈或泊松分佈）來找到概率臨界點。
列出檢定統計量：
寫出從樣本數據中觀察到的實際值，稱之為 $x$。
比較與決策：
檢查檢定統計量 $x$ 是否落在拒絕域內。
- 如果 $x \in CR$，結果具有顯著性。拒絕 $H_0$。
- 如果 $x \notin CR$，結果不具顯著性。不拒絕 $H_0$。
寫出情境結論：
將你的統計決策翻譯回與原始問題相關的簡單語言。（例如：「有足夠的證據顯示次品比例已經增加。」）

4. 使用二項分佈進行假設檢定

這是 S2 中最常見的假設檢定形式，用於當你檢定一個比例或概率 $p$，且擁有固定試驗次數 $n$ 時。

例子示範：故障的燈泡

一家公司聲稱其 20% 的燈泡是故障的 ($p = 0.2$)。檢查員測試了 $n=15$ 個燈泡的隨機樣本，發現有 6 個是故障的。懷疑故障率更高，請以 5% 的顯著性水平檢定此說法。

步驟 1：假設與模型

我們假設故障燈泡數量 $X$ 服從二項分佈。
$$X \sim B(15, 0.2)$$ $$H_0: p = 0.2$$ $$H_1: p > 0.2 \quad \text{(單尾檢定)}$$

步驟 2：確定拒絕域

我們尋找 $P(X \ge x) \leq 0.05$ 的上尾。由於統計表只提供 $P(X \le x)$，我們使用補集法則：$P(X \ge x) = 1 - P(X \le x-1)$。

試 $x=5$: $P(X \ge 5) = 1 - P(X \le 4) = 1 - 0.8358 = 0.1642$ (太高，不在 CR 內)
試 $x=6$: $P(X \ge 6) = 1 - P(X \le 5) = 1 - 0.9389 = 0.0611$ (太高，不在 CR 內)
試 $x=7$: $P(X \ge 7) = 1 - P(X \le 6) = 1 - 0.9819 = 0.0181$ ($\leq 0.05$! 這在 CR 內)

拒絕域為 $X \ge 7$。

步驟 3：檢定統計量

觀察到的故障燈泡數量為 $x = 6$。

步驟 4：比較與決策

$6$ 是否在拒絕域 ($X \ge 7$) 內？否。
決策：不拒絕 $H_0$。

步驟 5：情境結論

在 5% 的顯著性水平下，沒有足夠的證據推斷故障燈泡的比例已高於 20%。

替代方法：使用 P 值 (P-Value)

與其先找到拒絕域邊界，你可以計算在假設 $H_0$ 為真的情況下，得到觀察結果（或更極端結果）的概率（即 P 值）。

對於上述例子，P 值為 $P(X \ge 6) = 0.0611$。
由於 P 值 (0.0611) $> \alpha$ (0.05)，我們不拒絕 $H_0$。（結果相同，只是方法不同）。

5. 使用泊松分佈進行假設檢定

當你在固定時間或空間區間內檢定發生率 ($\lambda$) 時，會使用泊松分佈。其步驟與二項分佈檢定完全相同。

關鍵考量：速率 $\lambda$

如果樣本期間/範圍與陳述的速率不一致，你必須為檢定模型調整 $\lambda$。

例子：一家客服中心聲稱他們每小時收到 8 個電話 ($\lambda=8$)。他們監測了半小時，共收到 7 個電話。

模型必須針對半小時進行調整：
$$X \sim Po(4) \quad \text{(因為 } 8 \times 0.5 = 4)$$

S2 關鍵總結： 無論使用二項分佈還是泊松分佈，整體的檢定結構都保持不變。唯一改變的是概率的計算（使用表格或公式）。

6. 使用正態近似進行假設檢定

當 $n$ 很大（針對二項分佈）或 $\lambda$ 很大（針對泊松分佈）時，使用表格精確計算概率變得不可能或太複雜。我們必須使用正態近似 (Normal Approximation)。

S2 中何時使用正態近似：

二項分佈的正態近似： 如果以下條件成立，$X \sim B(n, p)$ 可近似為 $Y \sim N(\mu, \sigma^2)$：
- $n$ 很大（通常 $n > 50$）。
- $np > 5$ 且 $n(1-p) > 5$。
參數：$\mu = np$ 且 $\sigma^2 = np(1-p)$。
泊松分佈的正態近似： 如果以下條件成立，$X \sim Po(\lambda)$ 可近似為 $Y \sim N(\mu, \sigma^2)$：
- $\lambda$ 很大（通常 $\lambda > 10$ 或 $\lambda > 15$）。
參數：$\mu = \lambda$ 且 $\sigma^2 = \lambda$。

關鍵步驟：連續性校正 (Continuity Correction)

由於我們從離散分佈 ($X$) 切換到連續分佈 ($Y$)，我們必須使用連續性校正 (CC)。這是這些檢定中最容易出錯的地方！

離散概率 (X)	連續近似 (Y)
$P(X \le 10)$	$P(Y < 10.5)$
$P(X < 10)$ 或 $P(X \le 9)$	$P(Y < 9.5)$
$P(X \ge 10)$	$P(Y > 9.5)$
$P(X = 10)$	$P(9.5 < Y < 10.5)$

經驗法則： 加入一半的間隔以確保你捕捉到原本的整數。如果你包含 10，則校正在 10.5 處開始/結束。如果你是在 10 之前停止，則在 9.5 處停止。

使用正態近似（Z 檢定）的程序

遵循 5 步驟計劃，但步驟 4 有變更：

定義 $H_0, H_1$，以及正態模型 $Y \sim N(np, np(1-p))$ (或 $N(\lambda, \lambda)$)。
對你的觀察檢定統計量 $X$ 應用連續性校正。
使用公式將校正後的數值 $Y$ 標準化 (Standardise)： $$Z = \frac{Y - \mu}{\sigma}$$
比較 Z：
將計算出的 Z 值與從標準正態分佈表中針對你的顯著性水平 $\alpha$ 查出的臨界 Z 值進行比較。
- 如果 $|Z_{calculated}| > Z_{critical}$，拒絕 $H_0$。
寫出情境結論。

你知道嗎？「P 值」這個術語來自「概率值」(probability value)，其使用是由統計學家羅納德·費雪 (Ronald Fisher) 在 1920 年代普及的！

7. 理解誤差（Alpha 和 Beta）

在任何假設檢定中，總是存在做出錯誤決定的風險。

第一型錯誤 ($\alpha$)

當你拒絕 $H_0$，但事實上 $H_0$ 是正確的時候，會發生第一型錯誤。

在法庭的比喻中：判無罪的人有罪。
第一型錯誤的概率完全等於顯著性水平 $\alpha$。如果 $\alpha=5\%$，就有 5% 的機會犯下此錯誤。

第二型錯誤 ($\beta$)

當你不拒絕 $H_0$，但事實上 $H_0$ 是錯誤的（且 $H_1$ 為真）時，會發生第二型錯誤。

在法庭的比喻中：讓有罪的人逍遙法外。
$\beta$（第二型錯誤概率）的計算較為複雜，因為它取決於總體參數的實際（未知）值，但你必須理解其概念。

常見陷阱

如果你嘗試減少第一型錯誤的風險（例如通過降低 $\alpha$，從 5% 降至 1%），你會縮小拒絕域，使拒絕 $H_0$ 變得更困難。這會自動增加第二型錯誤 ($\beta$) 的概率。你必須在這些風險之間取得平衡！

本章關鍵要點總結

永遠寫出 $H_0$（等於）和 $H_1$（不等於）。
小心單尾與雙尾檢定；記住雙尾時要平分 $\alpha$。
拒絕域定義了拒絕邊界；P 值則直接將觀察概率與 $\alpha$ 進行比較。
使用正態近似時，連續性校正是必須的。
第一型錯誤的概率等於顯著性水平 $\alpha$。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

離散概率 (X)	連續近似 (Y)
\(P(X \le 10)\)	\(P(Y < 10.5)\)
\(P(X < 10)\) 或 \(P(X \le 9)\)	\(P(Y < 9.5)\)
\(P(X \ge 10)\)	\(P(Y > 9.5)\)
\(P(X = 10)\)	\(P(9.5 < Y < 10.5)\)