Non-parametric tests - Mathematics - Further (9231) - Cambridge International AS Level

歡迎來到無母數檢定（Non-Parametric Tests）的世界！

在你之前的統計學課程中，大概花了不少時間討論常態分佈（Normal Distribution）。但如果你的數據看起來不像一個整齊、對稱的鐘形曲線，該怎麼辦呢？又或者，如果你的樣本量非常小，以至於你根本不知道它背後的分佈長什麼樣子，又該如何處理？

這就是無母數檢定大顯身手的時候了！這些方法通常被稱為「無分佈」檢定，可以說是統計學中的「瑞士刀」。無論你的數據是常態分佈、偏態分佈，還是形狀奇怪，它們都能派上用場。在本章中，我們將學習如何針對母體的中位數（median）而非平均值來進行假設檢定。

1. 大概念：參數檢定 vs. 無母數檢定

參數檢定（Parametric tests）（如 z 檢定或 t 檢定）假設你的數據遵循特定的模式（即「參數」），通常是常態分佈。
無母數檢定（Non-parametric tests）則沒有這些假設。它們靈活得多！

類比： 想像你在買一套訂製西裝。參數檢定就像這套西裝，是為特定體型製作的——如果你不符合那個身形，穿起來就很糟。而無母數檢定就像是一件「均碼（one-size-fits-all）」的斗篷。它可能不如訂製西裝精確，但每個人都能穿！

重點總結：

當我們無法假設母體是常態分佈，或者處理的是次序數據（ordinal data，即可以排序但無法精確測量的數據）時，我們就會使用無母數檢定。

2. 單樣本符號檢定（The Single-Sample Sign Test）

符號檢定（Sign Test）是最簡單的無母數檢定。它忽略了數據的實際數值，只看數值是高於 (+) 還是低於 (-) 假設的中位數。

何時使用：

當你想檢定單一母體的中位數（\(m\)）時。

步驟：

1. 設定假設：
\(H_0: m = m_0\)（中位數為某個特定值）
\(H_1: m \neq m_0\)（或 \(>\) 或 \(<\)）

2. 計算符號： 對每個數據點，減去假設的中位數。
- 如果結果為正，標記為 +。
- 如果結果為負，標記為 -。
- 如果結果恰好為零，捨棄該數據並縮減樣本量 \(n\)。

3. 求檢定統計量（\(X\)）： 這是不常見符號出現的次數。例如，如果你有 8 個「+」和 2 個「-」，那麼 \(X = 2\)。

4. 分佈： 在 \(H_0\) 成立下，"+" 號的數量遵循二項分佈（Binomial Distribution）：\(X \sim B(n, 0.5)\)。

5. 求 p-value： 使用二項分佈公式或查表，計算得到像你的檢定統計量一樣極端結果的機率。

快速回顧： 為什麼是 0.5？因為如果中位數真的是 \(m_0\)，那麼數值高於它和低於它的機率應該各為 50%！

3. 單樣本 Wilcoxon 符號等級檢定（Single-Sample Wilcoxon Signed-Rank Test）

符號檢定雖然簡單，但有點「浪費」，因為它丟棄了差異的實際大小。Wilcoxon 符號等級檢定更強大，因為它同時考慮了與中位數差異的方向和大小。

重要要求： 此檢定假設母體分佈是對稱的（即使它不是常態分佈）。

操作方法：

1. 計算每個數值與 \(m_0\) 的差值 \(d_i = x_i - m_0\)。
2. 將絕對差值 \(|d_i|\) 從小到大排序（Rank）（1 為最小值）。忽略零值。
3. 將原本的符號（+ 或 -）分配回各自的秩（rank）。
4. 計算：
- \(W_+\) = 正符號的秩之和。
- \(W_-\) = 負符號的秩之和。
5. 你的檢定統計量 \(T\) 是 \(W_+\) 和 \(W_-\) 中的較小值。

如果這看起來很複雜，別擔心！ 記住：你只是在計算每個點距離中位數有多「遠」，然後檢查這些「遠距離」的點是否主要分佈在某一側，還是均勻分佈。

常見錯誤：

如果兩個差值相同（平手），給它們這些秩的平均值。例如，如果第 3 和第 4 個差值相等，它們都獲得秩 3.5。

4. Wilcoxon 等級和檢定（雙樣本 Wilcoxon Rank-Sum Test）

此檢定用於判斷兩個獨立樣本是否來自具有相同中位數的母體。它是雙樣本 t 檢定的無母數版本。

步驟：

1. 將兩個樣本合併成一個大小為 \(n = n_1 + n_2\) 的大列表。
2. 將所有數值從 1 到 \(n\) 進行排序。
3. 求出第一個樣本的秩之和，記為 \(R_1\)。
4. 使用 Wilcoxon 等級和檢定表，根據 \(n_1\) 和 \(n_2\) 找到臨界值。

你知道嗎？ 這個檢定有時被稱為 Mann-Whitney U 檢定。雖然 \(U\) 的計算方式略有不同，但背後的排序邏輯是完全一樣的！

5. 大樣本近似（Large Sample Approximations）

當樣本量 \(n\) 變大時（通常 \(n > 20\)），這些檢定統計量的分佈會變得非常接近常態分佈。這讓我們的生活輕鬆不少，因為我們可以使用 \(z\)-score 了！

針對 Wilcoxon 符號等級檢定（單樣本）：

平均值 \(E(W) = \frac{n(n+1)}{4}\)
變異數 \(Var(W) = \frac{n(n+1)(2n+1)}{24}\)

針對 Wilcoxon 等級和檢定（雙樣本）：

平均值 \(E(R_1) = \frac{n_1(n_1 + n_2 + 1)}{2}\)
變異數 \(Var(R_1) = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12}\)

大樣本步驟：
1. 使用上述公式計算平均值和變異數。
2. 計算 \(z\)-score：\(z = \frac{R_1 - E(R_1)}{\sqrt{Var(R_1)}}\)。
3. 與標準常態分佈的臨界值進行比較（例如，雙尾 5% 檢定為 1.96）。

專業提示： 當從離散的秩和轉換為連續的常態分佈時，別忘了使用 0.5 的連續性修正（continuity correction）！（例如：\(|R_1 - E(R_1)| - 0.5\)）。

本章摘要與重點

1. 符號檢定： 只使用數據與中位數相比的方向（+/-）。使用二項分佈 \(B(n, 0.5)\)。
2. Wilcoxon 符號等級檢定（單樣本）： 使用差值的秩。要求分佈是對稱的。
3. Wilcoxon 等級和檢定（雙樣本）： 通過對合併數據排序來比較兩個獨立組別。
4. 大樣本： 當 \(n\) 很大時，我們使用常態近似，並搭配特定的平均值和變異數公式。
5. 為什麼要排序？ 排序消除了極端值（outliers）的影響，使檢定比 t 檢定更「穩健（robust）」。

最後的鼓勵： 無母數檢定看起來步驟繁瑣，但只要掌握了排序（ranking）的藝術，你就克服了一半的挑戰！繼續練習那些等級和的計算，你一定會做得很好。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。