歡迎來到相關係數的世界!
你有沒有想過,你花在「進階數學」練習上的時間和你考試拿到的分數之間,是否存在真正的關聯?又或者,個子較高的人腳掌真的比較大嗎?在本章中,我們將學習如何用數字來衡量這些關係。我們稱之為相關性 (Correlation)。
你可以把相關性想像成一位「關係偵探」。它能幫助我們判斷兩件事物是否同時變動,更重要的是,能判斷這種連結有多強。如果一開始看到公式覺得有點可怕,別擔心,我們會帶你一步步拆解!
1. 積差相關係數 (Product Moment Correlation Coefficient, PMCC)
積差相關係數 (Product Moment Correlation Coefficient),通常樣本用 \(r\) 表示,母體用 \(\rho\) (希臘字母 'rho') 表示,是用來衡量兩個變數之間線性 (linear) 關係強度的指標。
這些數字代表什麼?
\(r\) 的值永遠在 -1 到 1 之間。
- \(r = 1\): 完全正相關(呈現一條向上的直線)。
- \(r = -1\): 完全負相關(呈現一條向下的直線)。
- \(r = 0\): 完全沒有線性相關。
什麼時候該用 PMCC?
當你認為數據呈現直線 (straight-line) 的趨勢時,就使用 PMCC。如果數據看起來像是一條曲線,PMCC 可能就不是最佳選擇了!
數據轉換 (Coding) 的影響
這裡有一個考試超級實用的「作弊碼」:線性轉換 (Linear coding) 不會改變 PMCC 的值。
如果你將所有的 \(x\) 或 \(y\) 數值進行加、減、乘或除一個常數,\(r\) 的值會保持不變。這就是所謂的「不變量 (invariant)」。
例子:如果身高(公分)與體重(公斤)之間的相關係數是 0.8,那麼身高(公尺)與體重(公斤)之間的相關係數依然會是 0.8。
重點速覽:
PMCC (\(r\)) 衡量的是線性強度。它不受數據轉換影響。它的值永遠介於 -1 和 1 之間。
2. 斯皮爾曼等級相關係數 (Spearman's Rank Correlation Coefficient)
有時候,數據並非完美的直線,或者數據本身只是「排名」(例如你列出最喜歡的電影 1 到 10 名)。這時候,斯皮爾曼等級相關係數 (\(r_s\)) 就派上用場了。
為什麼要用 Spearman 而不是 PMCC?
- 當關係是單調 (monotonic) 的(數值一直上升或一直下降,但不一定是直線)。
- 當數據已經是等級 (ranks) 形式時。
- 當數據中存在會干擾 PMCC 的離群值 (outliers) 時。
如何計算 \(r_s\)
你通常會拿到一張數據表,請按照以下步驟操作:
- 將第一個變數 (\(x\)) 從小到大進行排名 (Rank)。
- 將第二個變數 (\(y\)) 從小到大進行排名 (Rank)。
- 找出每一對排名之間的差值 (difference, \(d\))。
- 將這些差值平方 (\(d^2\))。
- 將它們加總得到 \(\sum d^2\)。
- 套用公式:\(r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)}\)
處理重複排名 (Ties)
如果有兩個數值相同也不用擔心!如果兩個項目並列第 2 名和第 3 名,就給它們共同的平均排名,即 \(2.5\)。(計算方式為 \(\frac{2+3}{2}\))。
你知道嗎? 你的計算機通常可以在「6: Statistics」模式中幫你計算 \(r\) 和 \(r_s\)!只要將你的排名當作數據輸入,就能直接找到 \(r\) 的值。
核心結論:
當處理排名或曲線關係時,請使用 Spearman 相關係數。公式其實很簡單,計算差值時細心一點就可以了!
3. 相關性的假設檢定 (Hypothesis Testing for Correlation)
樣本顯示有相關性,並不代表整個母體也有。我們需要使用假設檢定來確認結果是否具有統計顯著性 (statistically significant)。
建立假設
我們通常檢定相關係數是否為零(代表沒有關係)。
- 虛無假設 (Null Hypothesis, \(H_0\)): \(\rho = 0\) (或 \(\rho_s = 0\)) — 在母體中沒有相關性。
- 對立假設 (Alternative Hypothesis, \(H_1\)): \(\rho \neq 0\) (雙尾檢定) 或 \(\rho > 0\) / \(\rho < 0\) (單尾檢定)。
臨界值 (Critical Value)
你不需要進行複雜的計算。請使用考試提供的統計表 (Statistical Tables)。找出你的樣本數 (\(n\)) 和顯著水準(例如 5%),即可查出臨界值。
規則: 如果你算出來的數值大於臨界值,那就代表顯著!這時你要拒絕 \(H_0\),並聲稱有證據顯示存在相關性。
PMCC 檢定的重要前提
要對 PMCC (\(r\)) 進行假設檢定,數據必須來自雙變數常態分佈 (bivariate normal distribution)。
這是什麼意思? 想像散佈圖看起來像一朵「雲」,中間最密集,邊緣漸漸稀疏。考試時你不需要證明這一點,但如果題目問到相關假設,你必須提到它!
常見避坑指南:
- 假設中忘記使用 \(\rho\) 或 \(\rho_s\)(千萬不要用樣本符號 \(r\))。
- 搞混單尾和雙尾檢定。仔細閱讀題目:是問「是否存在相關性」(雙尾)還是「是否存在正相關」(單尾)?
總結檢查清單
在進入下一章之前,請確保你能做到:
- 判斷該使用 PMCC(線性)還是 Spearman(排名/單調)。
- 陳述數據轉換 (coding) 對 PMCC 沒有影響。
- 使用公式或計算機計算 Spearman 等級相關係數。
- 正確處理重複排名 (tied ranks)(取平均)。
- 利用臨界值表進行假設檢定。
- 記得 PMCC 檢定需要雙變數常態分佈的前提。
你一定做得到!相關性其實就是觀察這個世界是如何一起聯動的。多練習幾題排名相關的題目,你很快就會變成專家!