A Level Maths (9709) P3:概率與統計 2
第 6.5 章:假設檢定綜合學習筆記
你好,未來的統計學家!假設檢定聽起來可能很深奧,但它其實是統計學中最實用且充滿成就感的課題之一。簡單來說,這是一種正規的方法,用來判斷我們對群體參數(如平均值或概率)的某種信念(假設),是否能得到樣本數據的支持。
你可以把它想像成一場陪審團審判:我們從一個假設出發,利用證據來決定是否應該推翻這個假設。準備好開始了嗎?我們來拆解一下!
第一部分:假設檢定的術語
在解題之前,你需要熟悉這些基本詞彙。以下是核心術語:
1. 假設(聲稱)
每次檢定都涉及兩個對立的陳述:
-
虛無假設 (Null Hypothesis, \(H_0\)):這是預設情況或現狀的假設。它一定包含等號 (\(=\))。
例子:學生的平均身高是 170 cm (\(\mu = 170\))。 -
對立假設 (Alternative Hypothesis, \(H_1\)):這是我們懷疑或試圖尋找證據支持的觀點。它永遠不包含等號,旨在質疑 \(H_0\)。
例子:平均身高「不」是 170 cm (\(\mu \neq 170\))。
2. 單尾檢定與雙尾檢定
這告訴我們懷疑中變化的方向,完全由 \(H_1\) 定義:
-
雙尾檢定 (Two-Tailed Test):當我們只關心參數是否發生了變化(無論是增加還是減少)時使用。
\(H_1\) 使用 \(\neq\)。 -
單尾檢定 (One-Tailed Test):當我們懷疑參數向特定方向改變(例如:增加或減少)時使用。
\(H_1\) 使用 \(<\) 或 \(>\)。
比喻:雙尾檢定問的是「這枚硬幣公平嗎?」;單尾檢定問的是「這枚硬幣是否傾向於正面?」
3. 顯著性水平與區域
-
顯著性水平 (Significance Level, \(\alpha\)):這是當 \(H_0\) 實際為真時,我們卻拒絕它的概率。它代表我們容許犯錯的最大風險(通常為 5% 或 1%)。
若 \(\alpha = 0.05\),代表我們願意接受 5% 的風險去拒絕一個正確的 \(H_0\)。 - 檢定統計量 (Test Statistic):從樣本數據中計算出的數值,用於決定是否拒絕 \(H_0\)。
- 臨界區域 (Critical Region 或 Rejection Region):導致拒絕 \(H_0\) 的檢定統計量數值範圍。這些是「極端」數值。
- 接受區域 (Acceptance Region):導致結論為「沒有足夠證據拒絕 \(H_0\)」的數值範圍。
小貼士:它們之間的關係 分佈曲線下的總概率面積為 1。臨界區域的總面積等於 \(\alpha\)。對於 \(\alpha=0.05\) 的雙尾檢定,臨界區域被平分到兩個尾端,每個尾端的面積為 \(0.025\)。
第二部分:進行假設檢定的五個步驟
無論你使用的是二項分佈、泊松分佈還是常態分佈,請按部就班地執行以下步驟:
步驟 1:列出假設 (\(H_0\) 和 \(H_1\))
定義群體參數(如概率 \(p\) 或平均值 \(\mu\)),並寫出 \(H_0\) 和 \(H_1\)。確保 \(H_0\) 包含等號。
步驟 2:定義顯著性水平與檢定類型
寫出 \(\alpha\)(例如 5%),並根據 \(H_1\) 判斷是單尾還是雙尾檢定。
步驟 3:計算檢定統計量(或找出臨界區域)
這是開始計算的地方。方法取決於你使用的分佈類型(見下文 3a 和 3b)。
步驟 4:作出決定(比較)
將步驟 3 的結果與臨界值或顯著性水平進行比較:
- 使用臨界區域法:如果計算出的檢定統計量落入臨界區域,則拒絕 \(H_0\)。
- 使用 \(p\)-值(直接概率)法:如果觀察到樣本數據(或更極端結果)的概率小於 \(\alpha\),則拒絕 \(H_0\)。
步驟 5:結合題目背景解釋結論
這一步非常重要!請務必將最終決定結合題目背景陳述。不要只寫「拒絕 \(H_0\)」。
例子:「在 5% 的顯著性水平下,有足夠證據顯示平均身高有所增加。」
第三部分:針對特定分佈的檢定
3a:二項分佈與泊松分佈的假設檢定(單次觀測)
當檢定關於二項分佈 \(B(n, p)\) 的群體概率 (\(p\)) 或泊松分佈 \(Po(\lambda)\) 的平均比率 (\(\lambda\)) 的聲稱時,對於小樣本,我們通常使用直接概率法。
程序示例(二項分佈): 某公司聲稱其產品 10% 是次品 (\(p=0.1\))。在 20 個產品的樣本中發現 5 個次品。在 \(\alpha = 5\%\) 的水平下,檢定次品比例是否增加 (\(H_1: p > 0.1\)) 的聲稱。
1. 假設:\(H_0: p = 0.1\),\(H_1: p > 0.1\)。(單尾,上尾)
2. 在 \(H_0\) 下的分佈:\(X \sim B(20, 0.1)\)。觀測結果:\(x=5\)。
3. 計算 \(p\)-值:在假設 \(H_0\) 為真的情況下(即使用 \(p=0.1\)),計算觀察到 5 個或以上次品的概率。
\(p\text{-value} = P(X \geq 5 \text{ | } p=0.1)\)
\(P(X \geq 5) = 1 - P(X \leq 4)\)
(查表或使用計算機,假設 \(P(X \leq 4) = 0.9568\))
\(p\text{-value} = 1 - 0.9568 = 0.0432\)
4. 決定:由於 \(0.0432 < 0.05\),\(p\)-值小於 \(\alpha\)。拒絕 \(H_0\)。
5. 解釋:有證據顯示次品比例有所增加。
關於離散數據臨界區域的重要提示:
由於二項分佈與泊松分佈是離散的,臨界區域必須由第一個使累積概率小於或等於 \(\alpha\) 的數值 \(k\) 來定義。
- 若 \(H_1: p > p_0\),找出最小的 \(k\) 使得 \(P(X \geq k) \leq \alpha\)。
- 若 \(H_1: p < p_0\),找出最大的 \(k\) 使得 \(P(X \leq k) \leq \alpha\)。
3b:二項分佈與泊松分佈的常態近似
當 \(n\) 很大(二項分佈)或 \(\lambda\) 很大(泊松分佈)時,我們使用常態近似,將問題轉化為 Z-檢定。
近似條件:
- 二項分佈:\(n > 50\),且 \(np > 5\) 及 \(nq > 5\)。使用 \(N(np, npq)\)。
- 泊松分佈:\(\lambda > 15\)。使用 \(N(\lambda, \lambda)\)。
關鍵步驟:連續性校正 (Continuity Correction, CC)
由於我們用連續分佈近似離散分佈,必須使用連續性校正。
例子:\(P(X \leq 10)\) 變為 \(P(Y < 10.5)\)。\(P(X > 15)\) 變為 \(P(Y > 15.5)\)。
3c:關於群體平均值 (\(\mu\)) 的假設檢定
此檢定用於調查關於群體平均值的聲稱。如果樣本很大,或者群體服從已知變異數的常態分佈,這總是一個 Z-檢定。
前提條件(為何我們使用常態分佈/Z-分數):
我們依賴中央極限定理 (CLT) 或常態群體的假設:
- 樣本平均值 \(\bar{X}\) 的分佈是常態分佈(如果 \(n\) 很大則是近似常態)。
- 我們使用分佈 \(\bar{X} \sim N\left( \mu, \frac{\sigma^2}{n} \right)\)。
檢定統計量 (Z-值)
衡量樣本平均值與假設群體平均值 \(\mu_0\) 之間相差多少個標準誤差的標準方法是:
$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$$
其中 \(\bar{X}\) 是樣本平均值,\(\mu_0\) 是 \(H_0\) 下假設的平均值,\(\sigma\) 是群體標準差(若 \(n\) 很大亦可用樣本估計值 \(s\)),\(n\) 是樣本大小。
Z-檢定逐步示例:
1. 假設:\(H_0: \mu = 50\),\(H_1: \mu \neq 50\)。(\(\alpha = 5\%\),雙尾)
2. 臨界值:由於 \(\alpha = 0.05\)(雙尾),臨界 Z-值為 \(Z = \pm 1.96\)(查常態分佈表,每個尾端區域為 0.025)。
3. 計算 Z-統計量: (假設樣本平均值 \(\bar{X} = 52\),\(\sigma=10\),\(n=100\))
$$Z = \frac{52 - 50}{10 / \sqrt{100}} = \frac{2}{1} = 2.00$$
4. 決定:計算出的 \(Z=2.00\) 超出了接受區域(介於 -1.96 和 1.96 之間)。它位於臨界區域內。拒絕 \(H_0\)。
5. 解釋:在 5% 的顯著性水平下,有足夠證據顯示群體平均值不是 50。
第四部分:決策中的錯誤
因為我們依賴樣本,決策總有出錯的可能。你必須理解並計算以下兩種錯誤。
4.1 第一型錯誤 (Type I Error, \(\alpha\))
- 定義:當 \(H_0\) 實際為真時卻拒絕了它。
- 嚴重性:有時稱為「偽陽性」(false positive)。
- 概率:犯下第一型錯誤的概率等於顯著性水平 \(\alpha\)。
- 例子:結論是平均身高「不」是 170 cm,但實際上它就是 170 cm。
4.2 第二型錯誤 (Type II Error, \(\beta\))
- 定義:當 \(H_0\) 實際為假(即 \(H_1\) 為真)時卻接受了(或未能拒絕)它。
- 嚴重性:有時稱為「偽陰性」(false negative)。
- 概率 (\(\beta\)):這較難計算,需要假設 \(H_1\) 下參數的一個特定值。
- 例子:結論是平均身高「是」170 cm,但實際上它是 172 cm。
如何計算第二型錯誤的概率 (\(\beta\))
計算 \(\beta\) 涉及兩個步驟:
步驟 A:根據 \(H_0\) 和 \(\alpha\) 找出接受區域(臨界值)。
找出在 \(H_0\) 定義的分佈下,將接受區域與拒絕區域分開的邊界值(臨界值 \(k\))。
步驟 B:在假設為新參數(來自 \(H_1\))的情況下,計算檢定統計量落入接受區域的概率。
第二型錯誤的概率 \(\beta\) 為 \(P(\text{接受區域 } | \text{ 真實參數})\)。
如果剛開始覺得很難,別擔心!這是本章中最複雜的計算。先練習 \(H_1\) 指定特定數值(例如 \(H_1: \mu = 51\) 而不是單純 \(\mu > 50\))的題目,通常是計算 \(\beta\) 的最佳起點。
第一型與第二型錯誤總結
| \(H_0\) 為真 | \(H_0\) 為假 (\(H_1\) 為真) | |
| 接受 \(H_0\) | 正確決策 | 第二型錯誤 (\(\beta\)) |
| 拒絕 \(H_0\) | 第一型錯誤 (\(\alpha\)) | 正確決策 |
核心觀點:這兩者之間存在固有的取捨。如果你降低第一型錯誤的概率(例如降低 \(\alpha\)),接受區域就會變大,這會使你犯下第二型錯誤 (\(\beta\)) 的可能性隨之增加。