簡介:\(t\)-分佈的威力

歡迎來到 Further Statistics 2 中最實用的一個章節!在你的數學旅程中,你可能已經使用過常態分佈 (\(z\)-分佈) 來進行平均值的假設檢定。但有一個前提:要使用 \(z\)-檢定,你必須知道母體變異數 (\(\sigma^2\))

在現實世界中,我們幾乎不可能知道整個母體的真實變異數。相反地,我們必須利用樣本來估計它。這就是\(t\)-分佈(也稱為學生 \(t\)-分佈)大顯身手的時候了!即使在資訊有限的情況下,它也能讓我們做出準確的預測。你可以把 \(t\)-分佈想像成常態分佈的「謹慎版」——它考慮了因未知 \(\sigma^2\) 而產生的額外不確定性。

1. 單一平均值 (\(\mu\)) 的檢定

當我們想檢定一個樣本是否來自具有特定平均值 \(\mu\) 的母體,但不知道母體變異數 \(\sigma^2\) 時,我們就會使用單一樣本 \(t\)-檢定

設定

我們使用由樣本計算出的母體變異數不偏估計量 (\(s^2\))。由於我們使用的是估計值,我們的機率曲線「形狀」會根據數據量的多寡而改變。這是透過自由度 (\(v\)) 來衡量的。

快速回顧: 對於單一樣本,若樣本大小為 \(n\),自由度為:
\(v = n - 1\)

檢定統計量

為了觀察樣本平均值 \(\bar{x}\) 與假設平均值 \(\mu\) 之間的距離,我們計算 \(t\)-統計量:

\(t = \frac{\bar{x} - \mu}{s / \sqrt{n}}\)

其中 \(s\) 是樣本標準差。然後將此數值與使用 \(n-1\) 自由度的 \(t\)-分佈表中的臨界值進行比較。

記憶小撇步: 「自由即減一」。要找到單一樣本的自由度,只需從樣本大小減去 1 即可!

你知道嗎? \(t\)-分佈是由在健力士(Guinness)釀酒廠工作的 William Sealy Gosset 所發展出來的!他以「學生 (Student)」為筆名發表論文,因為他的雇主不希望競爭對手知道他們正在運用統計學來提升啤酒品質。

平均值的信賴區間

除了進行假設檢定外,我們還可以估計真實母體平均值所在的範圍。信賴區間的公式為:

\(\bar{x} \pm t_{v}(\% \text{ 水平}) \times \frac{s}{\sqrt{n}}\)

範例:如果麥片盒重量的 95% 信賴區間為 \([495g, 505g]\),這意味著我們有 95% 的信心認為,所有生產的麥片盒的真實平均重量都在此範圍內。

重點總結: 當母體變異數未知且底層母體呈現常態分佈時,請使用 \(t\)-分佈。

2. 配對 \(t\)-檢定 (Paired \(t\)-test)

有時候,數據會以配對形式出現。這通常發生在「前後對照」的情境或「配對樣本」(例如測試同一個人的左腳與右腳)中。

運作方式

不要被兩列數據迷惑了!在配對 \(t\)-檢定中,我們不關心原始分數,只關心配對之間的差值 (\(d\))

步驟說明:
1. 計算每一對的差值 \(d = x_1 - x_2\)。
2. 將這些差值視為單一樣本數據。
3. 檢定這些差值的平均值為零的假設 (\(H_0: \mu_d = 0\))。
4. 使用與單一平均值檢定相同的公式:\(t = \frac{\bar{d} - 0}{s_d / \sqrt{n}}\),其中 \(n\) 為配對數量

常見錯誤: 學生常在這裡將自由度誤用為 \(2n - 1\)。請記住,因為我們已經將兩組數據轉換為一組差值,自由度僅為 \((\text{配對數量}) - 1\)。

重點總結: 配對檢定透過比較同一個體前後的差異,減少了「背景雜訊」,使檢定對變化更為敏感。

3. 比較兩個獨立平均值

如果你想比較兩個完全不同的組別呢?例如:「A 校學生的分數是否高於 B 校學生?」這就是獨立樣本 \(t\)-檢定

條件:相等變異數

在 Edexcel 課程大綱的這部分(第 7.3 節),我們假設兩個母體具有相等但未知的變異數。由於我們假設變異數相同,我們會將樣本數據「合併 (pooled)」在一起,以獲得對該共同變異數更好的估計。

合併變異數估計 (\(s^2\))

這是兩個樣本變異數的加權平均:

\(s^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2}\)

類比: 想像兩位廚師在煮湯。如果廚師 A 煮了一大鍋,而廚師 B 只煮了一小碗,當你把湯混合時,大鍋的味道影響力應該更大。合併變異數賦予較大樣本更多的「權重」。

檢定統計量

若要檢定平均值是否不同 (\(H_0: \mu_1 = \mu_2\)):

\(t = \frac{(\bar{x}_1 - \bar{x}_2) - (\mu_1 - \mu_2)}{s \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\)

此檢定的自由度為:
\(v = n_1 + n_2 - 2\)

快速回顧:為什麼是 \(n_1 + n_2 - 2\)?
當我們計算平均值時,每個樣本都會「損失」一個自由度。因為我們有兩個樣本,所以損失了兩個!

重點總結: 僅在題目說明(或可以假設)兩個獨立組別的變異數相等時,才使用合併 \(t\)-檢定。

成功檢查清單

如果這些公式起初看起來很嚇人,別擔心。大部分的工作只是辨識題目所講述的「故事」類型。問自己:

1. 我知道母體變異數 \(\sigma^2\) 嗎?
- 是 \(\rightarrow\) 使用 \(z\)-檢定 (常態分佈)。
- 否 \(\rightarrow\) 使用 \(t\)-檢定。

2. 題目中有一個組別還是兩個?
- 一組 \(\rightarrow\) 單一樣本 \(t\)-檢定 (\(df = n-1\))。
- 兩組(配對/前後對照) \(\rightarrow\) 對差值進行配對 \(t\)-檢定 (\(df = \text{配對數} - 1\))。
- 兩組(獨立) \(\rightarrow\) 合併 \(t\)-檢定 (\(df = n_1 + n_2 - 2\))。

3. 我的假設是什麼?
- 對於任何 \(t\)-檢定,母體必須為常態分佈。對於獨立樣本檢定,我們還假設變異數相等

最後小撇步: 使用計算機時,務必檢查它要求輸入的是「樣本標準差 (\(s_x\))」還是「母體標準差 (\(\sigma_x\))」。進行 \(t\)-檢定時,我們永遠使用分母為 \(n-1\) 的版本!