簡介:衡量變數間的關係

歡迎來到統計學的世界!在本章中,我們將探討相關性 (Correlation)。簡單來說,相關性是用來衡量兩件事物之間關係強弱的方法。例如:你花在溫習的時間與考試成績之間是否有關聯?或者一個人的身高與鞋碼之間是否存在聯繫?

在進階統計學 2 (Further Statistics 2) 中,我們不僅僅是觀察散點圖 (scatter graph),還會使用數學工具為這些關係賦予數值,從而協助我們判斷數據模式是「真實存在」的,還是僅僅出於巧合。別擔心公式看起來很多,我們會一步步為你拆解!


1. 積差相關係數 (PMCC)

積差相關係數 (Product Moment Correlation Coefficient)(通常簡稱為 \(r\))用於衡量兩個變數之間線性 (linear) 關係的強度和方向。

\(r\) 的數值代表什麼?

  • \(r = 1\):完美的正線性相關(一條完美指向右上方的直線)。
  • \(r = -1\):完美的負線性相關(一條完美指向右下方的直線)。
  • \(r = 0\):完全沒有線性相關。

從概括統計量計算 \(r\)

在考試中,題目通常會提供「概括統計量」(summary statistics),例如 \( \sum x, \sum y, \sum x^2, \sum y^2, \) 和 \( \sum xy \)。你需要利用這些數據計算出以下基礎組件:

\( S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} \)

\( S_{yy} = \sum y^2 - \frac{(\sum y)^2}{n} \)

\( S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} \)

最終的 PMCC 計算公式為:

\( r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} \)

使用條件

只有當你認為兩者關係是線性(直線)時,才應該使用 PMCC。如果散點圖看起來呈曲線狀,\(r\) 所算出的數值可能會產生誤導,使相關性看起來過低!

數據編碼 (Coding) 的奧妙

你知道嗎? PMCC 不受數據編碼影響。如果你將每個 \(x\) 值加上 10,或將每個 \(y\) 值乘以 5,\(r\) 的值將保持完全不變。它只關心數據的模式,而不關心數值的比例或縮放。

重點總結

PMCC (\(r\)) 專用於直線關係。其數值範圍從 -1 到 1,且不會因加上或乘以常數而改變。


2. 斯皮爾曼等級相關係數 (Spearman’s Rank Correlation Coefficient)

有時候,數據並非呈完美的直線,又或是「定性」數據(例如將 10 部電影排名)。這時就需要用到斯皮爾曼等級相關係數 (Spearman’s Rank Correlation Coefficient) (\(r_s\))。

何時使用斯皮爾曼係數?

  • 當關係是單調的 (monotonic)(沿單一方向移動,但不一定是直線)。
  • 當數據已經是等級 (ranks) 形式時。
  • 當存在會影響 PMCC 準確性的離群值 (outliers) 時。

計算 \(r_s\) 的步驟

1. 將兩組變數的數據分別排序 (Rank)(通常最小值記為 1,第二小記為 2,依此類推)。

2. 計算每一對數據的等級差值 (difference) (\(d\))。

3. 將這些差值平方 (square) (\(d^2\))。

4. 加總這些平方差值 (\(\sum d^2\))。

5. 代入公式:

\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)

註:\(n\) 是數據對的數量。

處理「同分」 (Ties)

如果兩個項目數值相同,則屬於「同分」。處理方法是給予它們本應佔據等級的平均值。例如,如果兩個人並列第 2 和第 3 名,則兩人的等級都設為 2.5

重點總結

斯皮爾曼係數 (\(r_s\)) 用於等級數據或非線性模式。如果你看到一條不斷上升的「蛇形」曲線,即使 PMCC 很低,斯皮爾曼係數依然會很高。


3. 相關性的假設檢定 (Hypothesis Testing)

當你算出相關係數(\(r\) 或 \(r_s\))後,你需要檢查它是否具有「統計顯著性」。我們是在基於小樣本數據,檢定在總體 (population) 中是否存在相關性。

假設設定

  • 針對 PMCC: 使用希臘字母 \(\rho\) (rho)。
    \(H_0: \rho = 0\)(總體中無相關性)
    \(H_1: \rho \neq 0\)(存在相關性 - 雙尾檢定)或 \(\rho > 0\) / \(\rho < 0\)(單尾檢定)。

  • 針對斯皮爾曼: 使用 \(\rho_s\)
    \(H_0: \rho_s = 0\)
    \(H_1: \rho_s \neq 0\)(或 \(>\) 或 \(<\))。

臨界值 (Critical Value)

完成檢定的步驟:

1. 在考試提供的統計表中查閱臨界值。你需要知道樣本大小 (\(n\)) 和顯著性水平(例如 5%)。

2. 比較: 如果你的計算結果的絕對值大於臨界值(忽略負號),則結果是顯著的。你會拒絕 \(H_0\)。

PMCC 檢定的重要條件

要對 PMCC 進行假設檢定,數據必須來自雙變量正態分佈 (bivariate normal distribution)。簡單來說,如果你在 3D 空間中繪製這些數據,它們看起來應該像一個鐘形的土丘。你不需要在考試中證明這一點,但若題目問及,你必須說明這是必要條件!

速覽:決策規則

若 \(|r| > \text{臨界值}\) \(\rightarrow\) 拒絕 \(H_0\),即有證據表明存在相關性。


4. 比較 PMCC 與斯皮爾曼係數

同學經常問:「我該選哪一個?」以下是一個簡單的對比,幫助你決定。

  • 類比: 想像一排排隊的學生。
    - PMCC 在意的是他們之間具體相隔多少厘米(實際距離)。
    - 斯皮爾曼係數 只在意誰排在誰前面(先後順序)。
  • 「直線」測試: 若呈直線關係則用 PMCC;若呈曲線關係則用斯皮爾曼。
  • 「敏感度」測試: PMCC 對離群值非常敏感。斯皮爾曼係數則更「穩健」(robust),因為排名會將極端數值「壓縮」回原本的順位。
重點總結

記得先看散點圖!如果是直線且數據呈常態分佈,PMCC 是你的首選;如果是曲線或分佈雜亂,斯皮爾曼係數會更安全。


常見錯誤提示

  • 忘記排名: 計算斯皮爾曼係數時,不要直接使用原始數值!必須先將其轉化為 1, 2, 3... 的等級。
  • 混淆 \(\rho\) 與 \(r\): 使用 \(r\) 表示你的樣本計算結果,而在撰寫假設 (\(H_0\) 和 \(H_1\)) 時則使用 \(\rho\)。
  • 忽略符號: -0.8 的相關性與 +0.8 一樣強,負號僅代表方向(下降)。
  • 相關性 \(\neq\) 因果關係: 兩者相關並不代表一方是另一方的成因。(例子:雪糕銷量與鯊魚襲擊次數相關,是因為天氣熱,而不是因為雪糕吸引了鯊魚!)