Non-parametric tests - Mathematics - Further (9231) - Cambridge International A Level

歡迎來到無母數檢定 (Non-parametric Tests) 的世界！

你好，未來的統計學家！在經歷了 \(t\)-檢定和常態分佈推論這些嚴格的假設之後，這一章節可能會讓你感覺像吹進了一股清新的空氣。我們要深入探討的是**無母數檢定**（Non-parametric tests，有時也被稱為「自由分佈檢定」）。

我們會學到什麼？ 當我們無法假設原始數據遵循完美的常態分佈時，我們將學習如何針對母體特徵（例如中位數）進行假設檢定。

為什麼這很重要？ 在現實世界中，數據往往「不按牌理出牌」！無母數檢定為我們提供了強大的工具，用來分析偏態或非常態分佈的數據，從而確保我們得出的結論具備穩健性 (robust)。

1. 理解無母數檢定

什麼是「無母數」檢定？

在之前的統計單元中，你所使用的檢定（如 \(t\)-檢定）屬於**母數檢定 (Parametric tests)**。這些檢定對樣本所屬的母體有特定的假設，其中最主要的一項通常是母體必須呈**常態分佈**。

關鍵差異：母數檢定 vs. 無母數檢定

母數檢定 (例如 \(t\)-檢定)：
假設數據來自特定的分佈（通常是常態分佈）。
針對母體參數（例如母體平均數 \(\mu\)）進行假設檢定。
在假設成立的情況下，它們通常具有更高的檢定力 (power)。
無母數檢定 (例如符號檢定 Sign Test、威爾科克森檢定 Wilcoxon)：
對母體分佈**不做任何假設**（或僅做非常概括的假設，如對稱性）。
針對中位數或分佈進行假設檢定。
適用於樣本數較小，或數據嚴重偏態/非正態的情況。

類比： 想像一下為活動挑選服裝。母數檢定就像剪裁合身的西裝——如果身材非常完美（符合常態分佈），它們看起來很棒；但如果身形不符，效果就會很糟糕。無母數檢定則像有彈性的休閒服——無論數據是什麼形狀，它們都能很好地適應，這使它們在分佈未知或非正態時特別有用。

重點小結： 當你**無法假設數據呈常態分佈**時，請使用無母數檢定。它們通常關注**中位數**而非平均數。

2. 符號檢定 (The Sign Test)

符號檢定是最簡單的無母數檢定。它只觀察數據相對於假設值或成對觀測值差異的**方向**（正號或負號），完全忽略差異的大小。

2.1 單一樣本符號檢定（檢定母體中位數）

我們使用此檢定來檢查母體**中位數 \(M\)** 是否等於假設值 \(M_0\)。

假設通常為：\(H_0: M = M_0\) 對應 \(H_1: M \neq M_0\)（或是單尾檢定的等效形式）。

操作步驟：

求出差異： 計算每個數據點 \(x_i\) 與假設中位數 \(M_0\) 的差值：\(d_i = x_i - M_0\)。
標記符號： 為每個差值分配一個符號（+ 或 -）。
處理零值： 與 \(M_0\) 完全相等的觀測值（即差值為 0）將被**忽略**。樣本數 \(n\) 也會隨之減少。
計算檢定統計量： 檢定統計量通常是**出現頻率較低**的那一類符號的數量（正號數量或負號數量，取兩者中較小者）。令該數值為 \(k\)。
找出 P 值： 在 \(H_0\) 成立下，正號數量服從**二項分佈** \(B(n, 0.5)\)。我們計算觀測到 \(k\) 或更少個符號的機率（單尾檢定），或 \(2 \times P(\text{觀測到 } k \text{ 或更少})\)（雙尾檢定）。

例子： 如果我們預期中位數學習時間為 10 小時 (\(M_0 = 10\))，結果發現 12 名學生學習時間較長（正號），3 名較短（負號），則檢定統計量 \(k = 3\)。接著我們在 \(B(15, 0.5)\) 中查出獲得 3 個或更少負號的機率。

記憶小撇步： 符號檢定就像擲硬幣！如果虛無假設成立，數據點高於或低於 \(M_0\) 的機率各半，因此 \(p=0.5\)。

2.2 成對樣本符號檢定

用於**配對數據**（例如比較干預措施前後的成績）。我們檢定的假設是兩個母體（前後）**相同**（這意味著中位數差異為零）。

操作流程與單一樣本檢定相同，差異在於：

差異 \(d_i\) 是在成對觀測值之間計算的（例如 \(d_i = \text{成績}_A - \text{成績}_B\)）。
接著計算正差與負差的數量（忽略零值），並依據 \(p=0.5\) 進行二項分佈檢定。

關鍵小結： 符號檢定簡單易用，依賴於 \(B(n, 0.5)\)。它很有效，但卻忽略了關於差異*大小*的寶貴資訊。

3. 威爾科克森檢定 (Wilcoxon Tests - 等級檢定)

威爾科克森檢定比符號檢定更有力，因為它們納入了差異的**大小 (magnitude)**，而不僅僅是符號。它們是透過分配「等級」(ranks) 來實現的。

課程大綱重要備註： 威爾科克森檢定僅在假設母體分佈為**對稱**時才有效。如果已知數據是非對稱的（例如高度偏態），則應使用符號檢定。

3.1 威爾科克森符號等級檢定 (Wilcoxon Signed-Rank Test)

此檢定是單一樣本或成對樣本 \(t\)-檢定的無母數版本，用於檢定母體中位數 \(M\) 的假設。

操作步驟（成對樣本/檢定 \(M_0\)）：

計算差異： 求出差值 \(d_i\)（即 \(x_i - M_0\) 或 \(A_i - B_i\)）。
忽略零值： 捨棄所有為零的差值，並相應減少 \(n\)。
對絕對值排序： 將剩餘差值的**絕對值** \(|d_i|\) 進行排序。（注意： 課程大綱說明試題不會涉及相同的排名 (tied ranks)，這簡化了步驟。）
分配符號： 將原始差值 \(d_i\) 的符號分配給每個排名。
計算排名總和：
- \(P\)：對應**正差值**的排名之和。
- \(Q\)：對應**負差值**的排名之和。
（檢查：\(P + Q = \sum_{i=1}^{n} i = \frac{n(n+1)}{2}\)，其中 \(n\) 是非零差值的數量。）
確定檢定統計量 (\(T\))：
檢定統計量 \(T\) 為 \(P\) 和 \(Q\) 中的**較小者**。

\[ T = \min(P, Q) \]
查詢臨界值： 使用威爾科克森符號等級檢定的臨界值表 (MF19)。若計算出的 \(T\) **小於或等於**臨界值，則拒絕 \(H_0\)。

為什麼選較小的總和？ 如果 \(H_0\) 成立，正排名總和與負排名總和應大致相等。如果其中一個非常小（代表另一個非常大），則顯示數據偏離了虛無假設的中位數。

學習建議： 不用費心背誦臨界值。考試時會提供表格 (MF19)。只需記住，在此檢定中，**\(T\) 越小，反對 \(H_0\) 的證據越強**。

3.2 威爾科克森等級和檢定 (Wilcoxon Rank-Sum Test / Mann-Whitney U Test)

此檢定用於比較**兩個獨立母體**，檢查它們是否**相同**（即它們的分佈是否一致）。這是雙樣本 \(t\)-檢定的無母數替代方案。

設 \(m\) 為較小樣本的大小，\(n\) 為較大樣本的大小，且 \(m \le n\)。

操作步驟：

合併與排序： 將兩個樣本的所有數據點合併為一組。將所有 \(m+n\) 個觀測值從小到大（等級 1 到 \(m+n\)）進行排序。
計算 \(R_m\)： 求出僅屬於**較小樣本**（大小為 \(m\)）的等級之和。此總和稱為 \(R_m\)。
確定檢定統計量 (\(W\))： 我們需要計算一個比較值。
- \(R_m\)（較小樣本的排名總和）
- \(m(n+m+1) - R_m\)（比較總和）
檢定統計量 \(W\) 為這兩個值中的**較小者**。
\[ W = \min\left( R_m, \ m(n+m+1) - R_m \right) \]
查詢臨界值： 使用威爾科克森等級和檢定的臨界值表 (MF19)，代入相關的 \(m\) 和 \(n\) 值。若計算出的 \(W\) **小於或等於**臨界值，則拒絕 \(H_0\)（母體相同之假設）。

你知道嗎？ 威爾科克森等級和檢定在數學上等同於曼-惠特尼 U 檢定 (Mann-Whitney U Test)，儘管它們在統計量的計算公式上略有不同。

關鍵小結： 威爾科克森檢定依賴於對數據的排名。符號等級檢定（單樣本/配對）將排名與中位數/零差異進行比較，而等級和檢定（兩個獨立樣本）則比較兩個群組之間的排名總和。

4. 大樣本的常態近似 (Normal Approximations)

就像二項分佈和卜瓦松分佈一樣，當樣本數變得很大時，使用表格計算臨界值或機率會變得非常繁瑣（且表格通常只到特定限值，例如 \(n=20\)）。

當 \(n\)（或 \(m\) 和 \(n\)）很大時，我們可以使用**常態分佈**來近似檢定統計量的分佈。這是基於中央極限定理 (Central Limit Theorem)。

4.1 威爾科克森符號等級檢定 \(T\) 的常態近似

當樣本數 \(n\)（非零差值的數量）**較大**時使用。

檢定統計量 \(P\)（或 \(Q\)）近似服從常態分佈，其參數如下：

期望值 (Mean)： \(E(P) = \mu_P = \frac{1}{4}n(n+1)\)
變異數 (Variance)： \(Var(P) = \sigma^2_P = \frac{1}{24}n(n+1)(2n+1)\)

由於 \(T\) 是 \(P\) 和 \(Q\) 的較小者，我們計算差異總和小於或等於觀測值 \(T\) 的機率。

4.2 威爾科克森等級和檢定 \(R_m\) 的常態近似

當兩個樣本 \(m\) 和 \(n\) 都**較大**時使用。我們通常研究較小樣本的排名總和 \(R_m\) 的分佈。

檢定統計量 \(R_m\) 近似服從常態分佈，其參數如下：

期望值： \(E(R_m) = \mu_{R_m} = \frac{1}{2}m(m+n+1)\)
變異數： \(Var(R_m) = \sigma^2_{R_m} = \frac{1}{12}mn(m+n+1)\)

在這兩種情況下，一旦獲得平均數與變異數，我們就能計算標準化後的檢定統計量 \(Z\)：

\[ Z = \frac{T - \mu_T}{\sigma_T} \quad \text{或} \quad Z = \frac{R_m - \mu_{R_m}}{\sigma_{R_m}} \]

（注意：在使用常態近似時，你可能需要進行連續性修正 (continuity correction)，不過這通常視題目具體情況而定，影響有時較小。）

常見錯誤警示！

學生經常會搞混該使用哪種威爾科克森檢定：

符號等級檢定 (\(T\))： 用於**單一樣本**或**配對數據**。它使用「差值」。
等級和檢定 (\(W\))： 用於**兩個獨立樣本**。它使用「合併後的排名」。

關鍵小結： 對於大樣本，無母數檢定可以使用常態分佈來近似，並使用從排名導出的特定平均數與變異數公式。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

歡迎來到無母數檢定 (Non-parametric Tests) 的世界！

1. 理解無母數檢定

什麼是「無母數」檢定？

關鍵差異：母數檢定 vs. 無母數檢定

2. 符號檢定 (The Sign Test)

2.1 單一樣本符號檢定（檢定母體中位數）

操作步驟：

2.2 成對樣本符號檢定

3. 威爾科克森檢定 (Wilcoxon Tests - 等級檢定)

3.1 威爾科克森符號等級檢定 (Wilcoxon Signed-Rank Test)

操作步驟（成對樣本/檢定 \(M_0\)）：

3.2 威爾科克森等級和檢定 (Wilcoxon Rank-Sum Test / Mann-Whitney U Test)

操作步驟：

4. 大樣本的常態近似 (Normal Approximations)

4.1 威爾科克森符號等級檢定 \(T\) 的常態近似

4.2 威爾科克森等級和檢定 \(R_m\) 的常態近似

常見錯誤警示！

立即實踐所學