單元 S2:統計學 2 - 假設檢定 (Hypothesis Tests)

你好,未來的統計學家!本章將把你在概率分佈學到的所有知識融會貫通。假設檢定 (Hypothesis testing) 或許是統計學中最實用且最令人興奮的部分,因為它讓我們能夠運用數據,針對現實世界中的說法進行正式的驗證或否定。
如果起初覺得有點困難,別擔心;我們會將整個過程拆解為簡單的步驟。學完這一章,你將能夠自信地檢驗科學家、政治家,甚至是鄰居店主所提出的主張!

1. 核心概念:什麼是假設檢定?

假設檢定是一種正式的程序,旨在根據從樣本中收集到的證據,決定是否拒絕一項統計主張(即虛無假設)。

比喻:法庭審訊

你可以將假設檢定想像成一場刑事審訊:

  • 預設立場是被告無罪(這是現狀)。
  • 檢控方(主張者)需要證據來證明被告有罪。
  • 如果證據足夠充分(超越合理懷疑,即統計上的顯著性),我們便會拒絕該預設立場。

必須掌握的關鍵術語

不精通這些詞彙,你將無法進行檢定:

  • 虛無假設 (Null Hypothesis, \(H_0\)): 這是現狀、目前普遍接受的信念,或我們開始時作出的假設。它永遠包含等號 (\(p = 0.5\),\(\lambda = 10\))。
  • 對立假設 (Alternative Hypothesis, \(H_1\)): 這是被檢驗的主張,暗示參數已經改變。它絕對不會包含等號 (\(p < 0.5\),\(\lambda > 10\),或 \(p \ne 0.5\))。
  • 總體參數 (Population Parameter): 正在被檢驗的真實數值(例如真實概率 \(p\) 或真實平均速率 \(\lambda\))。
  • 檢定統計量 (Test Statistic): 你從樣本中實際測量出來的數據(例如成功次數,\(X\))。
  • 顯著性水平 (Significance Level, \(\alpha\)): 當 \(H_0\) 為真時,卻錯誤拒絕它的臨界概率。常見的水平為 5% (0.05) 或 1% (0.01)。
  • 拒絕域 (Critical Region): 導致我們拒絕 \(H_0\) 的檢定統計量數值範圍。如果我們觀察到的檢定統計量落在此區域內,該結果便「太不尋常」,不足以支持 \(H_0\)。
  • 接受域 (Acceptance Region): 我們不拒絕 \(H_0\) 的數值範圍。

快速回顧: \(H_0\) 是無聊的(等於);\(H_1\) 是令人興奮的(小於、大於或不等於)。

2. 單尾檢定與雙尾檢定

檢定的類型完全取決於所問的問題以及你如何書寫 \(H_1\)。

單尾檢定 (One-Tailed Test, 方向性)

當對立假設只指定一個方向的變化(例如:增加或減少)時使用。

例子:一家工廠聲稱其產品缺陷率為 \(p = 0.1\)。經理懷疑該比率已經增加
$$H_0: p = 0.1$$ $$H_1: p > 0.1$$

雙尾檢定 (Two-Tailed Test, 非方向性)

當對立假設只指出參數已經改變(即可能變高,也可能變低)時使用。

例子:一家公司聲稱 50% 的人偏好其產品 (\(p = 0.5\))。研究人員懷疑這個比例不再是 50%
$$H_0: p = 0.5$$ $$H_1: p \ne 0.5$$

雙尾檢定的關鍵步驟:平分顯著性水平

如果你在顯著性水平 \(\alpha\) 下進行雙尾檢定,你必須將該風險平均分配到兩個尾部。

如果 \(\alpha = 5\%\),則 2.5% 分配到下拒絕域,2.5% 分配到上拒絕域。

記憶小撇步:

\(H_1\) 的符號裡有幾個尾巴?

  • \(>\) 或 \(<\) 看起來像一條尾巴。 \(\rightarrow\) 單尾檢定。
  • \(\ne\) 有兩個向外指的端點。 \(\rightarrow\) 雙尾檢定(需平分 \(\alpha\))。

3. 標準的 5 步驟假設檢定程序(使用拒絕域)

無論使用哪種分佈,請完美遵循這些步驟。正確的結構通常能幫你拿到方法分!

  1. 定義假設與模型:

    清楚說明 \(H_0\) 和 \(H_1\) 的總體參數(例如 \(p\) 或 \(\lambda\))。
    同時定義分佈模型及其參數(例如 \(X \sim B(n, p)\) 或 \(X \sim Po(\lambda)\))。

  2. 確定拒絕域 (CR):

    使用顯著性水平 (\(\alpha\)),找出檢定統計量 \(X\) 的邊界值。
    這涉及使用你的統計表(二項分佈或泊松分佈)來找到概率臨界點。

  3. 列出檢定統計量:

    寫出從樣本數據中觀察到的實際值,稱之為 \(x\)。

  4. 比較與決策:

    檢查檢定統計量 \(x\) 是否落在拒絕域內。

    • 如果 \(x \in CR\),結果具有顯著性。拒絕 \(H_0\)
    • 如果 \(x \notin CR\),結果不具顯著性。不拒絕 \(H_0\)

  5. 寫出情境結論:

    將你的統計決策翻譯回與原始問題相關的簡單語言。(例如:「有足夠的證據顯示次品比例已經增加。」)

4. 使用二項分佈進行假設檢定

這是 S2 中最常見的假設檢定形式,用於當你檢定一個比例或概率 \(p\),且擁有固定試驗次數 \(n\) 時。

例子示範:故障的燈泡

一家公司聲稱其 20% 的燈泡是故障的 (\(p = 0.2\))。檢查員測試了 \(n=15\) 個燈泡的隨機樣本,發現有 6 個是故障的。懷疑故障率更高,請以 5% 的顯著性水平檢定此說法。

步驟 1:假設與模型

我們假設故障燈泡數量 \(X\) 服從二項分佈。
$$X \sim B(15, 0.2)$$ $$H_0: p = 0.2$$ $$H_1: p > 0.2 \quad \text{(單尾檢定)}$$

步驟 2:確定拒絕域

我們尋找 \(P(X \ge x) \leq 0.05\) 的上尾。由於統計表只提供 \(P(X \le x)\),我們使用補集法則:\(P(X \ge x) = 1 - P(X \le x-1)\)。

  • 試 \(x=5\): \(P(X \ge 5) = 1 - P(X \le 4) = 1 - 0.8358 = 0.1642\) (太高,不在 CR 內)
  • 試 \(x=6\): \(P(X \ge 6) = 1 - P(X \le 5) = 1 - 0.9389 = 0.0611\) (太高,不在 CR 內)
  • 試 \(x=7\): \(P(X \ge 7) = 1 - P(X \le 6) = 1 - 0.9819 = 0.0181\) (\(\leq 0.05\)! 這在 CR 內)

拒絕域為 \(X \ge 7\)。

步驟 3:檢定統計量

觀察到的故障燈泡數量為 \(x = 6\)。

步驟 4:比較與決策

\(6\) 是否在拒絕域 (\(X \ge 7\)) 內?否。
決策:不拒絕 \(H_0\)

步驟 5:情境結論

在 5% 的顯著性水平下,沒有足夠的證據推斷故障燈泡的比例已高於 20%。

替代方法:使用 P 值 (P-Value)

與其先找到拒絕域邊界,你可以計算在假設 \(H_0\) 為真的情況下,得到觀察結果(或更極端結果)的概率(即 P 值)。

對於上述例子,P 值為 \(P(X \ge 6) = 0.0611\)。
由於 P 值 (0.0611) \(> \alpha\) (0.05),我們不拒絕 \(H_0\)。(結果相同,只是方法不同)。

5. 使用泊松分佈進行假設檢定

當你在固定時間或空間區間內檢定發生率 (\(\lambda\)) 時,會使用泊松分佈。其步驟與二項分佈檢定完全相同。

關鍵考量:速率 \(\lambda\)

如果樣本期間/範圍與陳述的速率不一致,你必須為檢定模型調整 \(\lambda\)。

例子:一家客服中心聲稱他們每小時收到 8 個電話 (\(\lambda=8\))。他們監測了半小時,共收到 7 個電話。

模型必須針對半小時進行調整:
$$X \sim Po(4) \quad \text{(因為 } 8 \times 0.5 = 4)$$

S2 關鍵總結: 無論使用二項分佈還是泊松分佈,整體的檢定結構都保持不變。唯一改變的是概率的計算(使用表格或公式)。

6. 使用正態近似進行假設檢定

當 \(n\) 很大(針對二項分佈)或 \(\lambda\) 很大(針對泊松分佈)時,使用表格精確計算概率變得不可能或太複雜。我們必須使用正態近似 (Normal Approximation)。

S2 中何時使用正態近似:

  1. 二項分佈的正態近似: 如果以下條件成立,\(X \sim B(n, p)\) 可近似為 \(Y \sim N(\mu, \sigma^2)\):
    • \(n\) 很大(通常 \(n > 50\))。
    • \(np > 5\) 且 \(n(1-p) > 5\)。

    參數:\(\mu = np\) 且 \(\sigma^2 = np(1-p)\)。

  2. 泊松分佈的正態近似: 如果以下條件成立,\(X \sim Po(\lambda)\) 可近似為 \(Y \sim N(\mu, \sigma^2)\):
    • \(\lambda\) 很大(通常 \(\lambda > 10\) 或 \(\lambda > 15\))。

    參數:\(\mu = \lambda\) 且 \(\sigma^2 = \lambda\)。

關鍵步驟:連續性校正 (Continuity Correction)

由於我們從離散分佈 (\(X\)) 切換到連續分佈 (\(Y\)),我們必須使用連續性校正 (CC)。這是這些檢定中最容易出錯的地方!

離散概率 (X) 連續近似 (Y)
\(P(X \le 10)\) \(P(Y < 10.5)\)
\(P(X < 10)\) 或 \(P(X \le 9)\) \(P(Y < 9.5)\)
\(P(X \ge 10)\) \(P(Y > 9.5)\)
\(P(X = 10)\) \(P(9.5 < Y < 10.5)\)

經驗法則: 加入一半的間隔以確保你捕捉到原本的整數。如果你包含 10,則校正在 10.5 處開始/結束。如果你是在 10 之前停止,則在 9.5 處停止。

使用正態近似(Z 檢定)的程序

遵循 5 步驟計劃,但步驟 4 有變更:

  1. 定義 \(H_0, H_1\),以及正態模型 \(Y \sim N(np, np(1-p))\) (或 \(N(\lambda, \lambda)\))。
  2. 對你的觀察檢定統計量 \(X\) 應用連續性校正
  3. 使用公式將校正後的數值 \(Y\) 標準化 (Standardise): $$Z = \frac{Y - \mu}{\sigma}$$
  4. 比較 Z:

    將計算出的 Z 值與從標準正態分佈表中針對你的顯著性水平 \(\alpha\) 查出的臨界 Z 值進行比較。

    • 如果 \(|Z_{calculated}| > Z_{critical}\),拒絕 \(H_0\)

  5. 寫出情境結論。

你知道嗎?「P 值」這個術語來自「概率值」(probability value),其使用是由統計學家羅納德·費雪 (Ronald Fisher) 在 1920 年代普及的!

7. 理解誤差(Alpha 和 Beta)

在任何假設檢定中,總是存在做出錯誤決定的風險。

第一型錯誤 (\(\alpha\))

當你拒絕 \(H_0\),但事實上 \(H_0\) 是正確的時候,會發生第一型錯誤

在法庭的比喻中:判無罪的人有罪。
第一型錯誤的概率完全等於顯著性水平 \(\alpha\)。如果 \(\alpha=5\%\),就有 5% 的機會犯下此錯誤。

第二型錯誤 (\(\beta\))

當你不拒絕 \(H_0\),但事實上 \(H_0\) 是錯誤的(且 \(H_1\) 為真)時,會發生第二型錯誤

在法庭的比喻中:讓有罪的人逍遙法外。
\(\beta\)(第二型錯誤概率)的計算較為複雜,因為它取決於總體參數的實際(未知)值,但你必須理解其概念。

常見陷阱

如果你嘗試減少第一型錯誤的風險(例如通過降低 \(\alpha\),從 5% 降至 1%),你會縮小拒絕域,使拒絕 \(H_0\) 變得更困難。這會自動增加第二型錯誤 (\(\beta\)) 的概率。你必須在這些風險之間取得平衡!

本章關鍵要點總結
  • 永遠寫出 \(H_0\)(等於)和 \(H_1\)(不等於)。
  • 小心單尾與雙尾檢定;記住雙尾時要平分 \(\alpha\)。
  • 拒絕域定義了拒絕邊界;P 值則直接將觀察概率與 \(\alpha\) 進行比較。
  • 使用正態近似時,連續性校正是必須的。
  • 第一型錯誤的概率等於顯著性水平 \(\alpha\)。