歡迎來到假設檢定 (Hypothesis Testing)!

你好!這絕對是統計學中最實用且令人興奮的主題之一。假設檢定本質上是一種基於樣本數據來做出明智決策的統計方法。這就像擔任偵探或法官,決定是否有足夠的證據來推翻一個長期存在的信念或主張。

在本章中,我們將學習如何正式構建統計論證、評估證據,並判斷一項主張是否具有統計顯著性。如果剛開始覺得有些複雜,請別擔心——我們會將其拆解成簡單且易於掌握的步驟!


1. 核心概念:統計審判

你可以將假設檢定想像成法院的審判過程。

  • 虛無假設 (Null Hypothesis, \(H_0\)):假設被告無罪(現狀)。
  • 對立假設 (Alternative Hypothesis, \(H_1\)):指控內容(我們懷疑是真實的宣稱)。
  • 樣本數據 (Sample Data):所呈現的證據。
  • 顯著性水平 (Significance Level):定罪所需的證據強度。

假設原則

在統計學中,我們總是假設虛無假設 (\(H_0\)) 為真,就像假設一個人「未經證明有罪前即為無罪」。隨後,我們利用樣本數據觀察是否提供了足夠的矛盾證據來拒絕 \(H_0\)。

重點總結

我們永遠不會「證明」\(H_1\) 為真;我們只能決定證據是否足夠強大,從而拒絕 \(H_0\) 並轉而支持 \(H_1\)。

2. 設立假設 (\(H_0\) 與 \(H_1\))

2.1. 虛無假設 (\(H_0\))

虛無假設是起點,它聲稱沒有變化沒有影響,或者參數等於某個特定值。

  • \(H_0\) 總是包含等號 (\(=\))
  • 範例(比例 \(p\)):\(H_0: p = 0.5\)
  • 範例(平均值 \(\mu\) 或 \(\lambda\)):\(H_0: \mu = 10\)

2.2. 對立假設 (\(H_1\))

對立假設反映了參數已發生改變的主張或懷疑。這決定了檢定是單尾還是雙尾。

  • 單尾檢定 (One-Tailed Test): 如果預期變化發生在特定方向(較大或較小)。
    範例: 一家製造商宣稱新工藝減少了缺陷。
    \(H_1: p < 0.5\)(小於舊比例)
  • 雙尾檢定 (Two-Tailed Test): 如果僅預期參數有所不同,但未指定方向。
    範例: 我們懷疑平均分數已不再是 10。
    \(H_1: \mu \neq 10\)(不等於 10)

⛔ 常見錯誤警示!

絕對不要在 \(H_0\) 中使用小於 (\(<\))、大於 (\(>\)) 或不等於 (\(\neq\)) 的符號。\(H_0\) 必須始終指定一個單一的參數值,例如 \(H_0: \mu = 5\)。

3. 決策制定:關鍵組成部分

3.1. 顯著性水平 (\(\alpha\))

顯著性水平 (\(\alpha\))(通常為 5% (0.05) 或 1% (0.01))是拒絕 \(H_0\) 的門檻。

  • 它代表犯下第一型錯誤 (Type I Error)(即拒絕事實上為真的 \(H_0\))的最大機率。
  • 較小的 \(\alpha\)(例如 1%)意味著需要更強的證據才能拒絕 \(H_0\)。

3.2. 臨界值與臨界區域

臨界區域 (Critical Region)(或稱拒絕區域)是指導致拒絕 \(H_0\) 的檢定統計量數值範圍。此區域的邊界稱為臨界值 (Critical Value)

  • 如果計算出的檢定統計量 (test statistic) 落入臨界區域,則拒絕 \(H_0\)。
  • 如果是雙尾檢定,顯著性水平 \(\alpha\) 必須平分到兩端。例如,5% 的顯著性水平會在右尾有 2.5% 的拒絕區域,左尾也有 2.5% 的拒絕區域。
  • 剩下的數值範圍稱為接受區域 (Acceptance Region)

3.3. p 值法 (p-value Method)

p是另一種做決策的方法,在現代計算機協助下,通常更為簡便。

  • p 值是在假設 \(H_0\) 為真的情況下,觀測到與樣本數據一樣極端,甚或更極端結果的機率。
  • 決策準則:p 值 < \(\alpha\)(顯著性水平),我們便拒絕 \(H_0\)

比喻:如果純屬偶然看到此證據的機率(p 值)低於我們可承受的風險(顯著性水平),那麼證據便足以支持拒絕假設 (H₀)。

4. 假設檢定中的錯誤(第一型與第二型)

由於我們依賴樣本數據,因此總是有得出錯誤結論的風險。

4.1. 第一型錯誤 (Type I Error)

當我們拒絕 \(H_0\),但事實上 \(H_0\) 為真時,即發生第一型錯誤

  • 法院比喻: 將無辜的人判定為有罪。
  • 犯下第一型錯誤的風險(機率)等於顯著性水平,\(\alpha\)

4.2. 第二型錯誤 (Type II Error)

當我們接受 \(H_0\)(或未能拒絕 \(H_0\)),但事實上 \(H_0\) 為假時,即發生第二型錯誤

  • 法院比喻: 讓有罪的人被判無罪。
  • 犯下第二型錯誤的風險通常記為 \(\beta\)。
你知道嗎?

在樣本大小保持不變的前提下,若你降低犯下第一型錯誤的機率(例如將 \(\alpha\) 從 5% 降至 1%),通常會增加犯下第二型錯誤 (\(\beta\)) 的機率。除非收集更多數據,否則通常無法同時降低這兩種風險!

5. 課程大綱涵蓋的具體檢定

所有檢定的步驟均相同:1. 提出假設,2. 設定顯著性水平,3. 計算檢定統計量/p 值,4. 比較並得出結論。改變的是我們用於計算的機率分佈。

5.1. 母體比例檢定(二項分佈)

若你在檢定比例 \(p\)(例如支持某候選人的比例)且樣本數 \(n\) 為小型有限樣本時,必須使用二項分佈 (Binomial distribution)

  • \(H_0\) 下假設的分佈:\(X \sim B(n, p_0)\)。
  • 我們使用精確二項機率(累積機率表或公式)來尋找 p 值。

二項分佈/卜瓦松分佈檢定步驟(使用 p 值):

  1. 設定 \(H_0\)(例如 \(p = 0.2\))與 \(H_1\)(例如 \(p > 0.2\))。
  2. 從樣本中找出觀測到的次數 \(x\)。
  3. 計算 p 值:使用假設分佈 \(B(n, p_0)\),計算 \(P(X \ge x)\)(若 \(H_1\) 為 \(>\))或 \(P(X \le x)\)(若 \(H_1\) 為 \(<\))。
  4. 若為雙尾檢定 (\(H_1: p \neq p_0\)):找出觀測結果或更極端結果的機率,然後將此機率乘以 2 得到雙尾 p 值。
  5. 比較 p 值與 \(\alpha\)。

5.2. 卜瓦松分佈的平均值檢定

若數據由計數組成(例如每小時收到的郵件數量),且我們要檢定率參數 \(\lambda\),則使用卜瓦松分佈 (Poisson distribution)

  • \(H_0\) 下假設的分佈:\(X \sim Po(\lambda_0)\)。
  • 我們使用精確卜瓦松機率(累積機率表或公式,包括 \(e^{-\lambda}\) 的計算)來尋找 p 值。

注意: 若你是針對特定時間段內的平均率 \(\lambda\) 進行檢定,請記住,若樣本是在時間 \(t\)(或長度 \(L\))內收集的,則你在卜瓦松分佈中使用的參數必須為 \(\lambda_0 \times t\)(或 \(\lambda_0 \times L\))。

5.3. 使用 Z 統計量的平均值 (\(\mu\)) 檢定

當檢定平均值 \(\mu\) 時,我們通常在以下三種關鍵情況下使用常態分佈 (Normal distribution)(即 Z 統計量):

情況 A:已知變異數 (\(\sigma^2\)) 的常態分佈

若母體為常態分佈 \(X \sim N(\mu, \sigma^2\),且已知 \(\sigma^2\),則樣本平均值 \(\bar{X}\) 的分佈為:
\(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\)
檢定統計量為 Z 統計量
\(Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\)

情況 B:大樣本檢定(常態近似)

根據中央極限定理 (CLT),若樣本大小 \(n\) 足夠大(通常 \(n > 30\)),則無論母體分佈為何,平均值 \(\bar{X}\) 的抽樣分佈均可近似為常態分佈。

  • 若已知母體變異數 \(\sigma^2\),請在 Z 公式中使用它。
  • 若 \(\sigma^2\) 未知,對於大樣本,我們可以用樣本變異數 \(S^2\)(或樣本標準差 \(S\))替代 \(\sigma^2\),並依然使用 Z 檢定。
  • 檢定統計量(大樣本):\(Z = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\)

5.4. 使用 t 統計量的平均值 (\(\mu\)) 檢定

當檢定的母體平均值符合以下條件時,會使用此進階檢定:

  • 假設母體為常態分佈
  • 樣本大小 \(n\) 很小(例如 \(n < 30\))。
  • 母體變異數 \(\sigma^2\) 未知,必須使用樣本變異數 \(S^2\) 來估計。

當上述條件成立時,平均值的抽樣分佈遵循 t 分佈 (t-distribution),而非標準常態分佈。

  • 檢定統計量:\(T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\)
  • t 分佈取決於自由度 (degrees of freedom),通常為 \(n-1\)。你需要查閱(公式冊中提供的)t 分佈表,而不是常態分佈表。

快速回顧:假設檢定步驟

  1. 假設: 寫出 \(H_0\)(包含 \(=\))與 \(H_1\)(包含 \(<\)、\(>\) 或 \(\neq\))。
  2. 水平: 定義顯著性水平 \(\alpha\)。
  3. 分佈: 識別適當的分佈(二項分佈、卜瓦松分佈或常態/t 分佈)。
  4. 檢定: 計算檢定統計量(或計算 p)。
  5. 決策: 比較 p 值與 \(\alpha\),或比較檢定統計量與臨界值。
  6. 結論: 根據問題的情境寫出清晰的結論語句(例如:「在 5% 的顯著性水平下,有足夠的證據拒絕平均值為 10 的主張。」)

恭喜你成功掌握了統計決策的基礎!持續練習這些步驟,你很快就能成為假設檢定的專家。