歡迎來到假設檢定:統計偵探的工作!
各位未來的統計學家,你們好!「假設檢定」聽起來可能有點嚇人,但它其實是統計學中最實用且令人興奮的課題之一。簡單來說,你將學習如何利用數學來驗證關於這個世界的各種假設。
本章是 Unit S2:統計學 2 (Statistics 2) 的基石。我們將重點探討參數檢定,特別是與二項分佈 (Binomial Distribution) 相關的機率 \(p\),這也是你在本單元中最常遇到的假設檢定類型。
讓我們深入探討,學習如何利用紮實的統計證據來證明(或推翻!)一個主張!
引言重點摘要
假設檢定讓我們能夠利用樣本數據,對整體的參數(例如平均值或機率)做出決策。
1. 基礎:什麼是假設檢定?
想像有人宣稱一枚硬幣是公平的,也就是說出現正面的機率為 \(p = 0.5\)。你懷疑他在說謊,認為這枚硬幣被動過手腳。假設檢定 (Hypothesis Test) 就是一種正式的程序,用來檢查是否有足夠的證據來拒絕最初的主張。
任何檢定都包含兩個主要的陳述:
- 虛無假設 (\(H_0\)): 這是現狀或既有的觀念。它總是主張參數(例如機率 \(p\))具有某個特定的值。
- 對立假設 (\(H_1\)): 這是你試圖尋找證據來支持的主張。它挑戰虛無假設,暗示參數小於、大於或僅僅是不同於 \(H_0\) 中的數值。
設定 \(H_0\) 的規則
虛無假設 (\(H_0\)) 必須永遠包含等號 (\(= \))。
例子: 如果我們要檢定「騎單車上學的學生比例為 20%」這一主張,那麼:
\(H_0: p = 0.2\)
如果我們懷疑比例其實更高:
\(H_1: p > 0.2\)
快速複習:兩個假設
\(H_0\) (現狀): 總是使用 \(= \)。這是你在被證明有誤之前假設為真的內容。
\(H_1\) (挑戰者): 使用 \(< \)、\(> \) 或 \(\ne \)。這是你正要進行檢定的內容。
2. 顯著水準 (\(\alpha\)):我們需要多高的把握?
在拒絕 \(H_0\) 之前,我們需要一個標準來衡量證據必須有多強。這個標準稱為顯著水準 (Significance Level),以希臘字母 \(\alpha\) (alpha) 表示。
顯著水準是一種風險的衡量。它定義了錯誤地拒絕一個正確的 \(H_0\) 的最大機率。
- 常見的顯著水準有 10% (0.1)、5% (0.05) 或 1% (0.01)。
類比: 可以把顯著水準想像成法庭上「排除合理懷疑」的標準。如果 \(\alpha = 0.05\),我們要求反對 \(H_0\) 的證據必須非常極端,以至於在 \(H_0\) 為真的情況下,這種現象發生的機率只有 5%(或更低)。
3. 單尾檢定與雙尾檢定
對立假設 (\(H_1\)) 的類型決定了你的檢定是單尾還是雙尾。這對於之後設定「棄卻域」(Critical Region) 至關重要。
3.1 單尾檢定 (One-Tailed Tests)
這些檢定只尋找單一方向的變化。
- 如果 \(H_1\) 使用 \(> \):我們正在檢定是否有增加(右尾檢定)。
- 如果 \(H_1\) 使用 \(< \):我們正在檢定是否有減少(左尾檢定)。
例子: 一家製造商聲稱某零件壽命為 1000 小時。消費者團體懷疑它實際壽命少於 1000 小時。
\(H_0: \mu = 1000\)
\(H_1: \mu < 1000\) (單尾,左尾檢定)
3.2 雙尾檢定 (Two-Tailed Tests)
這些檢定尋找任何方向(增加或減少)的變化。
- 如果 \(H_1\) 使用 \(\ne \):表示參數僅僅是與原先聲稱的數值不同。
例子: 某硬幣聲稱是公平的 (\(p = 0.5\))。你只想檢定它是否不公平(無論是因為哪種原因被動了手腳)。
\(H_0: p = 0.5\)
\(H_1: p \ne 0.5\) (雙尾檢定)
雙尾檢定的重要提示
如果顯著水準為 \(\alpha\),你必須將這份風險平均分配到兩個尾部。
如果 \(\alpha = 5\%\) (0.05) 且為雙尾檢定:
應用於右尾的顯著水準為 \(0.05 / 2 = 0.025\) (2.5%)。
應用於左尾的顯著水準為 \(0.05 / 2 = 0.025\) (2.5%)。
4. 使用二項分佈進行假設檢定 (S2 核心)
在 S2 單元中,你經常會處理結果為「成功次數」(固定次數的試驗中)的情境,這遵循二項分佈。
我們假設成功次數 \(X\) 遵循分佈 \(X \sim B(n, p)\)。
- \(n\) 是固定的樣本大小(試驗次數)。
- \(p\) 是在 \(H_0\) 下假設的成功機率。
5 步假設檢定程序
進行每次檢定時,請遵循以下步驟:
步驟 1:定義假設與顯著水準
寫出 \(H_0\)、\(H_1\) 以及顯著水準 \(\alpha\)。定義檢定統計量 \(X\) 的分佈。
例子: 檢定 \(p\) 是否從 0.4 增加,樣本大小為 20,\(\alpha = 5\%\)。
\(H_0: p = 0.4\)
\(H_1: p > 0.4\)
\(X \sim B(20, 0.4)\)
步驟 2:確定檢定統計量
這是從你的樣本中實際觀察到的數值。
例子: 如果觀察到 13 次成功,則檢定統計量為 \(x = 13\)。
步驟 3:尋找棄卻域 (CR) 或計算 P 值
此步驟決定你觀察到的結果是否「足夠極端」以至於可以拒絕 \(H_0\)。你必須使用統計表中的累積機率或計算機。
步驟 4:比較並做出決策
你的觀察值是否在棄卻域內?或者 P 值是否小於 \(\alpha\)?
步驟 5:在背景脈絡下陳述結論
將統計決策連回最初的現實世界問題。
5. 棄卻域與 P 值(決策工具)
棄卻域 (Critical Region, CR) 是指導致拒絕 \(H_0\) 的檢定統計量數值範圍。
5.1 方法一:尋找棄卻域
由於 \(X\) 是離散的(你只能有整數次的成功),我們尋找盡可能接近顯著水準 \(\alpha\) 但不超過它的區域。
例子演示(單尾檢定)
假設 \(X \sim B(10, 0.8)\) 且 \(H_1: p < 0.8\)。我們使用 \(\alpha = 5\%\) (0.05)。
1. 我們在尋找較小的 \(X\) 值。棄卻域 \(C\) 從 \(X=0\) 開始,直到某個值 \(c\)。我們希望找到 \(c\) 使得:
\(P(X \le c) \le 0.05\)
2. 使用 \(n=10, p=0.8\) 的二項分佈表:
- \(P(X \le 5) = 0.0328\) (小於 0.05 - 合適!)
- \(P(X \le 6) = 0.1209\) (大於 0.05 - 太大了!)
3. 因此,棄卻域為 \(X \le 5\)。
如果你的觀察結果 \(x\) 為 5 或更小,你就拒絕 \(H_0\)。如果 \(x\) 為 6 或更大,則不拒絕 \(H_0\)。
5.2 實際顯著水準
由於 \(X\) 是離散的,我們往往無法完全精確達到 \(\alpha\)。實際顯著水準 (Actual Significance Level) 是你實際找到的棄卻域所對應的機率。
在上面的例子中,實際顯著水準為 \(P(X \le 5) = 0.0328\) 或 3.28%。
5.3 方法二:計算 P 值
P 值 (P-value) 是在假設 \(H_0\) 為真的情況下,觀察到與你實際檢定統計量一樣極端(或更極端)的結果的機率。
P 值的經驗法則:
- 如果 P 值 \(\le \alpha\):拒絕 \(H_0\)(在 \(H_0\) 假設下,該結果非常不可能發生)。
- 如果 P 值 \(> \alpha\):不拒絕 \(H_0\)。
例子:
使用前例:\(X \sim B(10, 0.8)\),\(H_1: p < 0.8\),\(\alpha = 0.05\)。假設我們觀察到 \(x = 6\)。
1. 由於 \(H_1\) 是 \(p < 0.8\),極端區域為左尾。
2. 計算觀察到 6 或更極端(更小)結果的機率:
P 值 \( = P(X \le 6)\)
P 值 \( = 0.1209\) (查表所得)
3. 比較:\(0.1209 > 0.05\)。
4. 結論:由於 P 值大於 \(\alpha\),我們不拒絕 \(H_0\)。
重點摘要(決策規則)
無論你使用棄卻域還是 P 值法,結果都必須相同!選擇你覺得最順手的方法,但也要兩者都熟悉。
6. 做出結論(步驟 5)
此步驟需要清晰、非數學的語言。
如果你拒絕 \(H_0\):
在 \(\alpha\) 的顯著水準下,有足夠的證據顯示 [在背景脈絡中陳述 \(H_1\) 的主張]。
如果你不拒絕 \(H_0\):
在 \(\alpha\) 的顯著水準下,沒有足夠的證據拒絕虛無假設。我們得出結論:沒有顯著證據顯示 [在背景脈絡中陳述 \(H_1\) 的主張]。
避免一個常見錯誤!
永遠不要說「接受 \(H_0\)」。當我們無法拒絕 \(H_0\) 時,這僅僅意味著我們沒有「足夠的」證據來證明 \(H_1\)。我們並沒有證明 \(H_0\) 為真,我們只是未能證明它是假的!
想像法庭的比喻: 陪審團可能會判定某人「罪證不足」(不拒絕 \(H_0\)),但他們不一定證明了那個人是「無罪的」(接受 \(H_0\))。
7. 假設檢定中的錯誤
由於我們使用機率與樣本,總是有可能做出錯誤的決策。錯誤分為兩種類型:
7.1 第一型錯誤 (Type I Error)
當你拒絕 \(H_0\),但事實上 \(H_0\) 是正確的,就會發生這種情況。
(你發現硬幣有偏向,但它其實是公平的。)
-
第一型錯誤的機率恰好等於顯著水準 (\(\alpha\))。
\(P(\text{第一型錯誤}) = P(\text{拒絕 } H_0 \mid H_0 \text{ 為真}) = \alpha\)
7.2 第二型錯誤 (Type II Error)
當你不拒絕 \(H_0\),但事實上 \(H_0\) 是錯誤的(即 \(H_1\) 為真)時,就會發生這種情況。
(你發現硬幣是公平的,但它其實有偏向。)
- 第二型錯誤的機率以 \(\beta\) (beta) 表示。
- 找出 \(\beta\) 比較複雜,因為 \(H_1\) 是一個值的範圍(例如 \(p > 0.5\))。要計算 \(\beta\),你必須被給予 \(H_1\) 下的一個特定值來進行測試。
計算第二型錯誤的機率 (\(\beta\))
\(\beta = P(\text{不拒絕 } H_0 \mid H_1 \text{ 在特定值 } p_1 \text{ 下為真})\)
流程:
- 首先,確定原始檢定的接受域 (Acceptance Region, AR)(即你「不拒絕 \(H_0\)」的區域)。
- 使用 \(H_1\) 下給定的特定值 \(p_1\) 來建立一個新的分佈:\(X \sim B(n, p_1)\)。
- 使用這個新的分佈計算落入接受域的機率。該機率即為 \(\beta\)。
你知道嗎?
這兩種錯誤之間存在反比關係。如果你降低第一型錯誤的風險 (\(\alpha\)),你就會自動增加第二型錯誤的風險 (\(\beta\)),反之亦然!將檢定標準設得太嚴格(例如 \(\alpha = 1\%\))會使得更難拒絕 \(H_0\),這意味著你更有可能錯過真實存在的效應。
重點摘要(錯誤)
第一型錯誤: 在 \(H_0\) 為真時拒絕它。機率為 \(\alpha\)。(偽陽性)
第二型錯誤: 在 \(H_0\) 為假時不拒絕它。機率為 \(\beta\)。(偽陰性)
本章總結檢核清單
如果你能充滿自信地完成以下事項,你就準備好應對考試題目了:
- 正確地陳述虛無假設 (\(H_0\)) 與對立假設 (\(H_1\))。
- 識別檢定是單尾還是雙尾。
- 正確地將雙尾檢定的顯著水準 (\(\alpha\)) 進行分配。
- 使用累積機率找出二項分佈檢定的棄卻域。
- 計算 P 值 並利用它做出決策。
- 定義並計算第一型錯誤 (\(\alpha\)) 的機率。
- 在給定對立假設的特定參數值下,計算第二型錯誤 (\(\beta\)) 的機率。
做得好!假設檢定通常被認為很有挑戰性,但只要有系統地遵循這些步驟,你一定能掌握它!繼續練習那些棄卻域的邊界計算吧!