單元 S2:統計學 2 - 假設檢定 (Hypothesis Tests)
你好,未來的統計學家!本章將把你在概率分佈學到的所有知識融會貫通。假設檢定 (Hypothesis testing) 或許是統計學中最實用且最令人興奮的部分,因為它讓我們能夠運用數據,針對現實世界中的說法進行正式的驗證或否定。
如果起初覺得有點困難,別擔心;我們會將整個過程拆解為簡單的步驟。學完這一章,你將能夠自信地檢驗科學家、政治家,甚至是鄰居店主所提出的主張!
1. 核心概念:什麼是假設檢定?
假設檢定是一種正式的程序,旨在根據從樣本中收集到的證據,決定是否拒絕一項統計主張(即虛無假設)。
比喻:法庭審訊
你可以將假設檢定想像成一場刑事審訊:
- 預設立場是被告無罪(這是現狀)。
- 檢控方(主張者)需要證據來證明被告有罪。
- 如果證據足夠充分(超越合理懷疑,即統計上的顯著性),我們便會拒絕該預設立場。
必須掌握的關鍵術語
不精通這些詞彙,你將無法進行檢定:
- 虛無假設 (Null Hypothesis, \(H_0\)): 這是現狀、目前普遍接受的信念,或我們開始時作出的假設。它永遠包含等號 (\(p = 0.5\),\(\lambda = 10\))。
- 對立假設 (Alternative Hypothesis, \(H_1\)): 這是被檢驗的主張,暗示參數已經改變。它絕對不會包含等號 (\(p < 0.5\),\(\lambda > 10\),或 \(p \ne 0.5\))。
- 總體參數 (Population Parameter): 正在被檢驗的真實數值(例如真實概率 \(p\) 或真實平均速率 \(\lambda\))。
- 檢定統計量 (Test Statistic): 你從樣本中實際測量出來的數據(例如成功次數,\(X\))。
- 顯著性水平 (Significance Level, \(\alpha\)): 當 \(H_0\) 為真時,卻錯誤拒絕它的臨界概率。常見的水平為 5% (0.05) 或 1% (0.01)。
- 拒絕域 (Critical Region): 導致我們拒絕 \(H_0\) 的檢定統計量數值範圍。如果我們觀察到的檢定統計量落在此區域內,該結果便「太不尋常」,不足以支持 \(H_0\)。
- 接受域 (Acceptance Region): 我們不拒絕 \(H_0\) 的數值範圍。
快速回顧: \(H_0\) 是無聊的(等於);\(H_1\) 是令人興奮的(小於、大於或不等於)。
2. 單尾檢定與雙尾檢定
檢定的類型完全取決於所問的問題以及你如何書寫 \(H_1\)。
單尾檢定 (One-Tailed Test, 方向性)
當對立假設只指定一個方向的變化(例如:增加或減少)時使用。
例子:一家工廠聲稱其產品缺陷率為 \(p = 0.1\)。經理懷疑該比率已經增加。
$$H_0: p = 0.1$$
$$H_1: p > 0.1$$
雙尾檢定 (Two-Tailed Test, 非方向性)
當對立假設只指出參數已經改變(即可能變高,也可能變低)時使用。
例子:一家公司聲稱 50% 的人偏好其產品 (\(p = 0.5\))。研究人員懷疑這個比例不再是 50%。
$$H_0: p = 0.5$$
$$H_1: p \ne 0.5$$
雙尾檢定的關鍵步驟:平分顯著性水平
如果你在顯著性水平 \(\alpha\) 下進行雙尾檢定,你必須將該風險平均分配到兩個尾部。
如果 \(\alpha = 5\%\),則 2.5% 分配到下拒絕域,2.5% 分配到上拒絕域。
\(H_1\) 的符號裡有幾個尾巴?
- \(>\) 或 \(<\) 看起來像一條尾巴。 \(\rightarrow\) 單尾檢定。
- \(\ne\) 有兩個向外指的端點。 \(\rightarrow\) 雙尾檢定(需平分 \(\alpha\))。
3. 標準的 5 步驟假設檢定程序(使用拒絕域)
無論使用哪種分佈,請完美遵循這些步驟。正確的結構通常能幫你拿到方法分!
-
定義假設與模型:
清楚說明 \(H_0\) 和 \(H_1\) 的總體參數(例如 \(p\) 或 \(\lambda\))。
同時定義分佈模型及其參數(例如 \(X \sim B(n, p)\) 或 \(X \sim Po(\lambda)\))。 -
確定拒絕域 (CR):
使用顯著性水平 (\(\alpha\)),找出檢定統計量 \(X\) 的邊界值。
這涉及使用你的統計表(二項分佈或泊松分佈)來找到概率臨界點。 -
列出檢定統計量:
寫出從樣本數據中觀察到的實際值,稱之為 \(x\)。
-
比較與決策:
檢查檢定統計量 \(x\) 是否落在拒絕域內。
- 如果 \(x \in CR\),結果具有顯著性。拒絕 \(H_0\)。
- 如果 \(x \notin CR\),結果不具顯著性。不拒絕 \(H_0\)。
-
寫出情境結論:
將你的統計決策翻譯回與原始問題相關的簡單語言。(例如:「有足夠的證據顯示次品比例已經增加。」)
4. 使用二項分佈進行假設檢定
這是 S2 中最常見的假設檢定形式,用於當你檢定一個比例或概率 \(p\),且擁有固定試驗次數 \(n\) 時。
例子示範:故障的燈泡
一家公司聲稱其 20% 的燈泡是故障的 (\(p = 0.2\))。檢查員測試了 \(n=15\) 個燈泡的隨機樣本,發現有 6 個是故障的。懷疑故障率更高,請以 5% 的顯著性水平檢定此說法。
步驟 1:假設與模型
我們假設故障燈泡數量 \(X\) 服從二項分佈。
$$X \sim B(15, 0.2)$$
$$H_0: p = 0.2$$
$$H_1: p > 0.2 \quad \text{(單尾檢定)}$$
步驟 2:確定拒絕域
我們尋找 \(P(X \ge x) \leq 0.05\) 的上尾。由於統計表只提供 \(P(X \le x)\),我們使用補集法則:\(P(X \ge x) = 1 - P(X \le x-1)\)。
- 試 \(x=5\): \(P(X \ge 5) = 1 - P(X \le 4) = 1 - 0.8358 = 0.1642\) (太高,不在 CR 內)
- 試 \(x=6\): \(P(X \ge 6) = 1 - P(X \le 5) = 1 - 0.9389 = 0.0611\) (太高,不在 CR 內)
- 試 \(x=7\): \(P(X \ge 7) = 1 - P(X \le 6) = 1 - 0.9819 = 0.0181\) (\(\leq 0.05\)! 這在 CR 內)
拒絕域為 \(X \ge 7\)。
步驟 3:檢定統計量
觀察到的故障燈泡數量為 \(x = 6\)。
步驟 4:比較與決策
\(6\) 是否在拒絕域 (\(X \ge 7\)) 內?否。
決策:不拒絕 \(H_0\)。
步驟 5:情境結論
在 5% 的顯著性水平下,沒有足夠的證據推斷故障燈泡的比例已高於 20%。
與其先找到拒絕域邊界,你可以計算在假設 \(H_0\) 為真的情況下,得到觀察結果(或更極端結果)的概率(即 P 值)。
對於上述例子,P 值為 \(P(X \ge 6) = 0.0611\)。
由於 P 值 (0.0611) \(> \alpha\) (0.05),我們不拒絕 \(H_0\)。(結果相同,只是方法不同)。
5. 使用泊松分佈進行假設檢定
當你在固定時間或空間區間內檢定發生率 (\(\lambda\)) 時,會使用泊松分佈。其步驟與二項分佈檢定完全相同。
關鍵考量:速率 \(\lambda\)
如果樣本期間/範圍與陳述的速率不一致,你必須為檢定模型調整 \(\lambda\)。
例子:一家客服中心聲稱他們每小時收到 8 個電話 (\(\lambda=8\))。他們監測了半小時,共收到 7 個電話。
模型必須針對半小時進行調整:
$$X \sim Po(4) \quad \text{(因為 } 8 \times 0.5 = 4)$$
S2 關鍵總結: 無論使用二項分佈還是泊松分佈,整體的檢定結構都保持不變。唯一改變的是概率的計算(使用表格或公式)。
6. 使用正態近似進行假設檢定
當 \(n\) 很大(針對二項分佈)或 \(\lambda\) 很大(針對泊松分佈)時,使用表格精確計算概率變得不可能或太複雜。我們必須使用正態近似 (Normal Approximation)。
S2 中何時使用正態近似:
-
二項分佈的正態近似: 如果以下條件成立,\(X \sim B(n, p)\) 可近似為 \(Y \sim N(\mu, \sigma^2)\):
- \(n\) 很大(通常 \(n > 50\))。
- \(np > 5\) 且 \(n(1-p) > 5\)。
參數:\(\mu = np\) 且 \(\sigma^2 = np(1-p)\)。
-
泊松分佈的正態近似: 如果以下條件成立,\(X \sim Po(\lambda)\) 可近似為 \(Y \sim N(\mu, \sigma^2)\):
- \(\lambda\) 很大(通常 \(\lambda > 10\) 或 \(\lambda > 15\))。
參數:\(\mu = \lambda\) 且 \(\sigma^2 = \lambda\)。
關鍵步驟:連續性校正 (Continuity Correction)
由於我們從離散分佈 (\(X\)) 切換到連續分佈 (\(Y\)),我們必須使用連續性校正 (CC)。這是這些檢定中最容易出錯的地方!
| 離散概率 (X) | 連續近似 (Y) |
|---|---|
| \(P(X \le 10)\) | \(P(Y < 10.5)\) |
| \(P(X < 10)\) 或 \(P(X \le 9)\) | \(P(Y < 9.5)\) |
| \(P(X \ge 10)\) | \(P(Y > 9.5)\) |
| \(P(X = 10)\) | \(P(9.5 < Y < 10.5)\) |
經驗法則: 加入一半的間隔以確保你捕捉到原本的整數。如果你包含 10,則校正在 10.5 處開始/結束。如果你是在 10 之前停止,則在 9.5 處停止。
使用正態近似(Z 檢定)的程序
遵循 5 步驟計劃,但步驟 4 有變更:
- 定義 \(H_0, H_1\),以及正態模型 \(Y \sim N(np, np(1-p))\) (或 \(N(\lambda, \lambda)\))。
- 對你的觀察檢定統計量 \(X\) 應用連續性校正。
- 使用公式將校正後的數值 \(Y\) 標準化 (Standardise): $$Z = \frac{Y - \mu}{\sigma}$$
-
比較 Z:
將計算出的 Z 值與從標準正態分佈表中針對你的顯著性水平 \(\alpha\) 查出的臨界 Z 值進行比較。
- 如果 \(|Z_{calculated}| > Z_{critical}\),拒絕 \(H_0\)。
- 寫出情境結論。
你知道嗎?「P 值」這個術語來自「概率值」(probability value),其使用是由統計學家羅納德·費雪 (Ronald Fisher) 在 1920 年代普及的!
7. 理解誤差(Alpha 和 Beta)
在任何假設檢定中,總是存在做出錯誤決定的風險。
第一型錯誤 (\(\alpha\))
當你拒絕 \(H_0\),但事實上 \(H_0\) 是正確的時候,會發生第一型錯誤。
在法庭的比喻中:判無罪的人有罪。
第一型錯誤的概率完全等於顯著性水平 \(\alpha\)。如果 \(\alpha=5\%\),就有 5% 的機會犯下此錯誤。
第二型錯誤 (\(\beta\))
當你不拒絕 \(H_0\),但事實上 \(H_0\) 是錯誤的(且 \(H_1\) 為真)時,會發生第二型錯誤。
在法庭的比喻中:讓有罪的人逍遙法外。
\(\beta\)(第二型錯誤概率)的計算較為複雜,因為它取決於總體參數的實際(未知)值,但你必須理解其概念。
常見陷阱
如果你嘗試減少第一型錯誤的風險(例如通過降低 \(\alpha\),從 5% 降至 1%),你會縮小拒絕域,使拒絕 \(H_0\) 變得更困難。這會自動增加第二型錯誤 (\(\beta\)) 的概率。你必須在這些風險之間取得平衡!
- 永遠寫出 \(H_0\)(等於)和 \(H_1\)(不等於)。
- 小心單尾與雙尾檢定;記住雙尾時要平分 \(\alpha\)。
- 拒絕域定義了拒絕邊界;P 值則直接將觀察概率與 \(\alpha\) 進行比較。
- 使用正態近似時,連續性校正是必須的。
- 第一型錯誤的概率等於顯著性水平 \(\alpha\)。