歡迎來到回歸與相關分析的世界!
在你的統計學 1 (S1) 學習中,你已經學過如何利用積差相關係數 (PMCC) 來判斷兩個變量之間是否存在線性關係。現在,在 S3 單元中,我們要更進一步!我們將學習如何處理並非完美線性的數據,更重要的是,如何證明一個相關關係是「真實存在」的,而非僅僅由隨機誤差造成。別擔心統計學聽起來很深奧——我們會把它拆解成簡單、易於掌握的步驟。
1. 斯皮爾曼等級相關係數 \( (r_s) \)
有時候,我們想知道兩件事物之間是否有關聯,但它們在圖表上並不呈直線分佈。又或者,這些數據是基於排名 (Ranks) 的(例如才藝表演中參賽者獲得第 1、第 2 和第 3 名)。這就是斯皮爾曼等級相關係數 (Spearman's Rank Correlation Coefficient) 大顯身手的時候了。
為什麼要用斯皮爾曼而不是 PMCC?
- 非線性關係: 如果數據趨勢一致(同時上升或同時下降)但並非呈直線,使用斯皮爾曼係數會更準確。
- 等級數據: 當你手頭上只有項目的先後順序,而沒有確切的數值時。
- 極端值 (Outliers): 斯皮爾曼係數受一兩個「奇怪」數據點的影響較小,因為它只關注順序,而不是具體的數值。
如何逐步計算 \( r_s \)
即使計算機可以幫你完成部分運算,你仍然需要理解其中的過程。以下是該公式:
\( r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)} \)
逐步指南:
- 將第一組數據 (\(x\)) 排名,由小到大(1 為最小)。
- 將第二組數據 (\(y\)) 排名,由小到大。
- 找出每一對數據在排名上的差值 (\(d\))。
- 將每個差值平方 (\(d^2\))。
- 將所有這些平方差值求和,得出 \( \sum d^2 \)。
- 代入公式計算,其中 \(n\) 是數據對的總數。
快速複習:結果代表什麼?
就像 PMCC 一樣,答案永遠介於 +1 和 -1 之間。
+1: 完美的正等級相關(排名完全一致)。
0: 完全沒有等級相關。
-1: 完美的負等級相關(排名完全相反)。
等等,如果出現「並列 (Ties)」怎麼辦?
如果兩個人同時獲得「第 2 名」,這就是並列。在考試中,你通常不會被要求計算帶有並列情況的斯皮爾曼係數,但你應該知道處理方式:我們會給予他們這些名次的平均值。例如,如果有兩項並列第 2 和第 3 名,那麼它們都會得到 2.5 名。
重點總結: 斯皮爾曼相關係數的核心在於數據的順序,而非實際數值。它非常適合用於比賽評分,或是判斷一個變量是否隨另一個變量增加,即便它們之間的關係並非直線。
2. 零相關性檢定
想像一下,你計算出的相關係數是 0.5。這個數值是否「足夠強」以證明兩者相關,還是你只是運氣好剛好抽樣到了這個結果?在 S3 中,我們使用假設檢定 (Hypothesis Testing) 來找出答案。
設定假設
當檢定是否存在相關性時,我們的「預設」假設是整個總體中沒有任何關係。
- 虛無假設 (\( H_0 \)): \( \rho = 0 \)(沒有相關性)。
- 對立假設 (\( H_1 \)):
- \( \rho > 0 \)(懷疑存在正相關——單尾檢定)。
- \( \rho < 0 \)(懷疑存在負相關——單尾檢定)。
- \( \rho \neq 0 \)(僅懷疑存在某種相關性——雙尾檢定)。
注意:我們使用希臘字母 \( \rho \) (rho) 來表示 PMCC 的總體相關係數,使用 \( \rho_s \) 表示斯皮爾曼的總體相關係數。
使用統計查表
你不需要從頭計算「p-value」。在考試中,你會得到一張臨界值 (Critical Values) 表。這就像是你測試的「及格分數」。
- 查看你的樣本大小 (\(n\))。
- 查看你的顯著水準 (Significance Level)(通常為 5% 或 1%)。
- 在表中找出臨界值。
決策規則:
如果你計算出來的數值(忽略任何負號)大於表格中的臨界值,你就有了足夠的證據!這時你拒絕 \( H_0 \),並得出結論:兩者之間確實存在相關性。
記憶小技巧: 將臨界值想像成一道跨欄。如果你的相關係數「夠強」,足以跳過這道欄,你就成功證明了兩者之間的關係!
加油: 如果起初覺得困難也不要灰心!最棘手的部分通常只是從表格中選對欄位。在查表之前,請務必再三確認你的測試是單尾還是雙尾。
重點總結: 假設檢定能告訴我們樣本相關性是否強到足以代表整個總體。請善用提供的表格,並記得在結論中聯繫題目原本的背景!
3. 總結與常見錯誤
常見陷阱
- 查錯表: PMCC 和斯皮爾曼有不同的表格,確保你使用的表格與你的計算方法匹配!
- 忘記將 \(d\) 平方: 在計算斯皮爾曼時,必須將差值平方 (\(d^2\))。如果不這樣做,總和通常會變成零!
- 混淆雙尾檢定: 對於 5% 顯著水準的雙尾檢定,有些表格需要查看 0.025 的欄位(將 5% 分配到兩端)——請務必仔細檢查特定表格的標題!
- 誤解 \( \rho = 0 \): 記住,對於 PMCC 而言,\( \rho = 0 \) 僅表示沒有線性相關,但兩者之間可能仍存在非線性關係。
你知道嗎?
發明等級相關係數的查爾斯·斯皮爾曼 (Charles Spearman) 其實是一位心理學家。他利用這些統計方法發展了關於人類智力的理論!快速複習欄
公式: \( r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)} \)
\(H_0\): 總是假設相關係數為零 (\( \rho = 0 \))。
決策: 計算值 > 表格臨界值 = 顯著結果!
你現在已經掌握了 S3 回歸與相關分析章節的核心內容。做得好!繼續練習查表,因為一旦掌握了技巧,這就是考試中的「必得分數」。