歡迎來到無母數檢定 (Non-parametric Tests) 的世界!

你好,未來的統計學家!在經歷了 \(t\)-檢定和常態分佈推論這些嚴格的假設之後,這一章節可能會讓你感覺像吹進了一股清新的空氣。我們要深入探討的是**無母數檢定**(Non-parametric tests,有時也被稱為「自由分佈檢定」)。

我們會學到什麼? 當我們無法假設原始數據遵循完美的常態分佈時,我們將學習如何針對母體特徵(例如中位數)進行假設檢定。

為什麼這很重要? 在現實世界中,數據往往「不按牌理出牌」!無母數檢定為我們提供了強大的工具,用來分析偏態或非常態分佈的數據,從而確保我們得出的結論具備穩健性 (robust)。

1. 理解無母數檢定

什麼是「無母數」檢定?

在之前的統計單元中,你所使用的檢定(如 \(t\)-檢定)屬於**母數檢定 (Parametric tests)**。這些檢定對樣本所屬的母體有特定的假設,其中最主要的一項通常是母體必須呈**常態分佈**。

關鍵差異:母數檢定 vs. 無母數檢定
  • 母數檢定 (例如 \(t\)-檢定):

    假設數據來自特定的分佈(通常是常態分佈)。
    針對母體參數(例如母體平均數 \(\mu\))進行假設檢定。
    在假設成立的情況下,它們通常具有更高的檢定力 (power)。

  • 無母數檢定 (例如符號檢定 Sign Test、威爾科克森檢定 Wilcoxon):

    對母體分佈**不做任何假設**(或僅做非常概括的假設,如對稱性)。
    針對中位數或分佈進行假設檢定。
    適用於樣本數較小,或數據嚴重偏態/非正態的情況。

類比: 想像一下為活動挑選服裝。母數檢定就像剪裁合身的西裝——如果身材非常完美(符合常態分佈),它們看起來很棒;但如果身形不符,效果就會很糟糕。無母數檢定則像有彈性的休閒服——無論數據是什麼形狀,它們都能很好地適應,這使它們在分佈未知或非正態時特別有用。

重點小結: 當你**無法假設數據呈常態分佈**時,請使用無母數檢定。它們通常關注**中位數**而非平均數。

2. 符號檢定 (The Sign Test)

符號檢定是最簡單的無母數檢定。它只觀察數據相對於假設值或成對觀測值差異的**方向**(正號或負號),完全忽略差異的大小。

2.1 單一樣本符號檢定(檢定母體中位數)

我們使用此檢定來檢查母體**中位數 \(M\)** 是否等於假設值 \(M_0\)。

假設通常為:\(H_0: M = M_0\) 對應 \(H_1: M \neq M_0\)(或是單尾檢定的等效形式)。

操作步驟:
  1. 求出差異: 計算每個數據點 \(x_i\) 與假設中位數 \(M_0\) 的差值:\(d_i = x_i - M_0\)。
  2. 標記符號: 為每個差值分配一個符號(+ 或 -)。
  3. 處理零值: 與 \(M_0\) 完全相等的觀測值(即差值為 0)將被**忽略**。樣本數 \(n\) 也會隨之減少。
  4. 計算檢定統計量: 檢定統計量通常是**出現頻率較低**的那一類符號的數量(正號數量或負號數量,取兩者中較小者)。令該數值為 \(k\)。
  5. 找出 P 值: 在 \(H_0\) 成立下,正號數量服從**二項分佈** \(B(n, 0.5)\)。我們計算觀測到 \(k\) 或更少個符號的機率(單尾檢定),或 \(2 \times P(\text{觀測到 } k \text{ 或更少})\)(雙尾檢定)。

例子: 如果我們預期中位數學習時間為 10 小時 (\(M_0 = 10\)),結果發現 12 名學生學習時間較長(正號),3 名較短(負號),則檢定統計量 \(k = 3\)。接著我們在 \(B(15, 0.5)\) 中查出獲得 3 個或更少負號的機率。

記憶小撇步: 符號檢定就像擲硬幣!如果虛無假設成立,數據點高於或低於 \(M_0\) 的機率各半,因此 \(p=0.5\)。

2.2 成對樣本符號檢定

用於**配對數據**(例如比較干預措施前後的成績)。我們檢定的假設是兩個母體(前後)**相同**(這意味著中位數差異為零)。

操作流程與單一樣本檢定相同,差異在於:

  1. 差異 \(d_i\) 是在成對觀測值之間計算的(例如 \(d_i = \text{成績}_A - \text{成績}_B\))。
  2. 接著計算正差與負差的數量(忽略零值),並依據 \(p=0.5\) 進行二項分佈檢定。

關鍵小結: 符號檢定簡單易用,依賴於 \(B(n, 0.5)\)。它很有效,但卻忽略了關於差異*大小*的寶貴資訊。

3. 威爾科克森檢定 (Wilcoxon Tests - 等級檢定)

威爾科克森檢定比符號檢定更有力,因為它們納入了差異的**大小 (magnitude)**,而不僅僅是符號。它們是透過分配「等級」(ranks) 來實現的。

課程大綱重要備註: 威爾科克森檢定僅在假設母體分佈為**對稱**時才有效。如果已知數據是非對稱的(例如高度偏態),則應使用符號檢定。

3.1 威爾科克森符號等級檢定 (Wilcoxon Signed-Rank Test)

此檢定是單一樣本或成對樣本 \(t\)-檢定的無母數版本,用於檢定母體中位數 \(M\) 的假設。

操作步驟(成對樣本/檢定 \(M_0\)):
  1. 計算差異: 求出差值 \(d_i\)(即 \(x_i - M_0\) 或 \(A_i - B_i\))。
  2. 忽略零值: 捨棄所有為零的差值,並相應減少 \(n\)。
  3. 對絕對值排序: 將剩餘差值的**絕對值** \(|d_i|\) 進行排序。(注意: 課程大綱說明試題不會涉及相同的排名 (tied ranks),這簡化了步驟。)
  4. 分配符號: 將原始差值 \(d_i\) 的符號分配給每個排名。
  5. 計算排名總和:
    • \(P\):對應**正差值**的排名之和。
    • \(Q\):對應**負差值**的排名之和。
    (檢查:\(P + Q = \sum_{i=1}^{n} i = \frac{n(n+1)}{2}\),其中 \(n\) 是非零差值的數量。)
  6. 確定檢定統計量 (\(T\)):

    檢定統計量 \(T\) 為 \(P\) 和 \(Q\) 中的**較小者**。

    \[ T = \min(P, Q) \]

  7. 查詢臨界值: 使用威爾科克森符號等級檢定的臨界值表 (MF19)。若計算出的 \(T\) **小於或等於**臨界值,則拒絕 \(H_0\)。

為什麼選較小的總和? 如果 \(H_0\) 成立,正排名總和與負排名總和應大致相等。如果其中一個非常小(代表另一個非常大),則顯示數據偏離了虛無假設的中位數。

學習建議: 不用費心背誦臨界值。考試時會提供表格 (MF19)。只需記住,在此檢定中,**\(T\) 越小,反對 \(H_0\) 的證據越強**。

3.2 威爾科克森等級和檢定 (Wilcoxon Rank-Sum Test / Mann-Whitney U Test)

此檢定用於比較**兩個獨立母體**,檢查它們是否**相同**(即它們的分佈是否一致)。這是雙樣本 \(t\)-檢定的無母數替代方案。

設 \(m\) 為較小樣本的大小,\(n\) 為較大樣本的大小,且 \(m \le n\)。

操作步驟:
  1. 合併與排序: 將兩個樣本的所有數據點合併為一組。將所有 \(m+n\) 個觀測值從小到大(等級 1 到 \(m+n\))進行排序。
  2. 計算 \(R_m\): 求出僅屬於**較小樣本**(大小為 \(m\))的等級之和。此總和稱為 \(R_m\)。
  3. 確定檢定統計量 (\(W\)): 我們需要計算一個比較值。
    • \(R_m\)(較小樣本的排名總和)
    • \(m(n+m+1) - R_m\)(比較總和)
    檢定統計量 \(W\) 為這兩個值中的**較小者**。
    \[ W = \min\left( R_m, \ m(n+m+1) - R_m \right) \]
  4. 查詢臨界值: 使用威爾科克森等級和檢定的臨界值表 (MF19),代入相關的 \(m\) 和 \(n\) 值。若計算出的 \(W\) **小於或等於**臨界值,則拒絕 \(H_0\)(母體相同之假設)。

你知道嗎? 威爾科克森等級和檢定在數學上等同於曼-惠特尼 U 檢定 (Mann-Whitney U Test),儘管它們在統計量的計算公式上略有不同。

關鍵小結: 威爾科克森檢定依賴於對數據的排名。符號等級檢定(單樣本/配對)將排名與中位數/零差異進行比較,而等級和檢定(兩個獨立樣本)則比較兩個群組之間的排名總和。

4. 大樣本的常態近似 (Normal Approximations)

就像二項分佈和卜瓦松分佈一樣,當樣本數變得很大時,使用表格計算臨界值或機率會變得非常繁瑣(且表格通常只到特定限值,例如 \(n=20\))。

當 \(n\)(或 \(m\) 和 \(n\))很大時,我們可以使用**常態分佈**來近似檢定統計量的分佈。這是基於中央極限定理 (Central Limit Theorem)。

4.1 威爾科克森符號等級檢定 \(T\) 的常態近似

當樣本數 \(n\)(非零差值的數量)**較大**時使用。

檢定統計量 \(P\)(或 \(Q\))近似服從常態分佈,其參數如下:

期望值 (Mean): \(E(P) = \mu_P = \frac{1}{4}n(n+1)\)
變異數 (Variance): \(Var(P) = \sigma^2_P = \frac{1}{24}n(n+1)(2n+1)\)

由於 \(T\) 是 \(P\) 和 \(Q\) 的較小者,我們計算差異總和小於或等於觀測值 \(T\) 的機率。

4.2 威爾科克森等級和檢定 \(R_m\) 的常態近似

當兩個樣本 \(m\) 和 \(n\) 都**較大**時使用。我們通常研究較小樣本的排名總和 \(R_m\) 的分佈。

檢定統計量 \(R_m\) 近似服從常態分佈,其參數如下:

期望值: \(E(R_m) = \mu_{R_m} = \frac{1}{2}m(m+n+1)\)
變異數: \(Var(R_m) = \sigma^2_{R_m} = \frac{1}{12}mn(m+n+1)\)

在這兩種情況下,一旦獲得平均數與變異數,我們就能計算標準化後的檢定統計量 \(Z\):

\[ Z = \frac{T - \mu_T}{\sigma_T} \quad \text{或} \quad Z = \frac{R_m - \mu_{R_m}}{\sigma_{R_m}} \]

(注意:在使用常態近似時,你可能需要進行連續性修正 (continuity correction),不過這通常視題目具體情況而定,影響有時較小。)

常見錯誤警示!

學生經常會搞混該使用哪種威爾科克森檢定:

  • 符號等級檢定 (\(T\)): 用於**單一樣本**或**配對數據**。它使用「差值」。
  • 等級和檢定 (\(W\)): 用於**兩個獨立樣本**。它使用「合併後的排名」。

關鍵小結: 對於大樣本,無母數檢定可以使用常態分佈來近似,並使用從排名導出的特定平均數與變異數公式。