歡迎來到相關係數的世界!

你有沒有想過,你花在「進階數學」練習上的時間和你考試拿到的分數之間,是否存在真正的關聯?又或者,個子較高的人腳掌真的比較大嗎?在本章中,我們將學習如何用數字來衡量這些關係。我們稱之為相關性 (Correlation)

你可以把相關性想像成一位「關係偵探」。它能幫助我們判斷兩件事物是否同時變動,更重要的是,能判斷這種連結有多強。如果一開始看到公式覺得有點可怕,別擔心,我們會帶你一步步拆解!

1. 積差相關係數 (Product Moment Correlation Coefficient, PMCC)

積差相關係數 (Product Moment Correlation Coefficient),通常樣本用 \(r\) 表示,母體用 \(\rho\) (希臘字母 'rho') 表示,是用來衡量兩個變數之間線性 (linear) 關係強度的指標。

這些數字代表什麼?

\(r\) 的值永遠在 -1 到 1 之間。

  • \(r = 1\): 完全正相關(呈現一條向上的直線)。
  • \(r = -1\): 完全負相關(呈現一條向下的直線)。
  • \(r = 0\): 完全沒有線性相關。

什麼時候該用 PMCC?

當你認為數據呈現直線 (straight-line) 的趨勢時,就使用 PMCC。如果數據看起來像是一條曲線,PMCC 可能就不是最佳選擇了!

數據轉換 (Coding) 的影響

這裡有一個考試超級實用的「作弊碼」:線性轉換 (Linear coding) 不會改變 PMCC 的值。
如果你將所有的 \(x\) 或 \(y\) 數值進行加、減、乘或除一個常數,\(r\) 的值會保持不變。這就是所謂的「不變量 (invariant)」。

例子:如果身高(公分)與體重(公斤)之間的相關係數是 0.8,那麼身高(公尺)與體重(公斤)之間的相關係數依然會是 0.8。

重點速覽:

PMCC (\(r\)) 衡量的是線性強度。它不受數據轉換影響。它的值永遠介於 -1 和 1 之間。


2. 斯皮爾曼等級相關係數 (Spearman's Rank Correlation Coefficient)

有時候,數據並非完美的直線,或者數據本身只是「排名」(例如你列出最喜歡的電影 1 到 10 名)。這時候,斯皮爾曼等級相關係數 (\(r_s\)) 就派上用場了。

為什麼要用 Spearman 而不是 PMCC?

  • 當關係是單調 (monotonic) 的(數值一直上升或一直下降,但不一定是直線)。
  • 當數據已經是等級 (ranks) 形式時。
  • 當數據中存在會干擾 PMCC 的離群值 (outliers) 時。

如何計算 \(r_s\)

你通常會拿到一張數據表,請按照以下步驟操作:

  1. 將第一個變數 (\(x\)) 從小到大進行排名 (Rank)
  2. 將第二個變數 (\(y\)) 從小到大進行排名 (Rank)
  3. 找出每一對排名之間的差值 (difference, \(d\))
  4. 將這些差值平方 (\(d^2\))
  5. 將它們加總得到 \(\sum d^2\)
  6. 套用公式:\(r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)}\)

處理重複排名 (Ties)

如果有兩個數值相同也不用擔心!如果兩個項目並列第 2 名和第 3 名,就給它們共同的平均排名,即 \(2.5\)。(計算方式為 \(\frac{2+3}{2}\))。

你知道嗎? 你的計算機通常可以在「6: Statistics」模式中幫你計算 \(r\) 和 \(r_s\)!只要將你的排名當作數據輸入,就能直接找到 \(r\) 的值。

核心結論:

當處理排名曲線關係時,請使用 Spearman 相關係數。公式其實很簡單,計算差值時細心一點就可以了!


3. 相關性的假設檢定 (Hypothesis Testing for Correlation)

樣本顯示有相關性,並不代表整個母體也有。我們需要使用假設檢定來確認結果是否具有統計顯著性 (statistically significant)

建立假設

我們通常檢定相關係數是否為(代表沒有關係)。

  • 虛無假設 (Null Hypothesis, \(H_0\)): \(\rho = 0\) (或 \(\rho_s = 0\)) — 在母體中沒有相關性。
  • 對立假設 (Alternative Hypothesis, \(H_1\)): \(\rho \neq 0\) (雙尾檢定) 或 \(\rho > 0\) / \(\rho < 0\) (單尾檢定)。

臨界值 (Critical Value)

你不需要進行複雜的計算。請使用考試提供的統計表 (Statistical Tables)。找出你的樣本數 (\(n\)) 和顯著水準(例如 5%),即可查出臨界值

規則: 如果你算出來的數值大於臨界值,那就代表顯著!這時你要拒絕 \(H_0\),並聲稱有證據顯示存在相關性。

PMCC 檢定的重要前提

要對 PMCC (\(r\)) 進行假設檢定,數據必須來自雙變數常態分佈 (bivariate normal distribution)
這是什麼意思? 想像散佈圖看起來像一朵「雲」,中間最密集,邊緣漸漸稀疏。考試時你不需要證明這一點,但如果題目問到相關假設,你必須提到它!

常見避坑指南:
  • 假設中忘記使用 \(\rho\)\(\rho_s\)(千萬不要用樣本符號 \(r\))。
  • 搞混單尾和雙尾檢定。仔細閱讀題目:是問「是否存在相關性」(雙尾)還是「是否存在相關」(單尾)?

總結檢查清單

在進入下一章之前,請確保你能做到:

  • 判斷該使用 PMCC(線性)還是 Spearman(排名/單調)。
  • 陳述數據轉換 (coding) 對 PMCC 沒有影響。
  • 使用公式或計算機計算 Spearman 等級相關係數
  • 正確處理重複排名 (tied ranks)(取平均)。
  • 利用臨界值表進行假設檢定
  • 記得 PMCC 檢定需要雙變數常態分佈的前提。

你一定做得到!相關性其實就是觀察這個世界是如何一起聯動的。多練習幾題排名相關的題目,你很快就會變成專家!