簡介:衡量變數間的關係
歡迎來到統計學的世界!在本章中,我們將探討相關性 (Correlation)。簡單來說,相關性是用來衡量兩件事物之間關係強弱的方法。例如:你花在溫習的時間與考試成績之間是否有關聯?或者一個人的身高與鞋碼之間是否存在聯繫?
在進階統計學 2 (Further Statistics 2) 中,我們不僅僅是觀察散點圖 (scatter graph),還會使用數學工具為這些關係賦予數值,從而協助我們判斷數據模式是「真實存在」的,還是僅僅出於巧合。別擔心公式看起來很多,我們會一步步為你拆解!
1. 積差相關係數 (PMCC)
積差相關係數 (Product Moment Correlation Coefficient)(通常簡稱為 \(r\))用於衡量兩個變數之間線性 (linear) 關係的強度和方向。
\(r\) 的數值代表什麼?
- \(r = 1\):完美的正線性相關(一條完美指向右上方的直線)。
- \(r = -1\):完美的負線性相關(一條完美指向右下方的直線)。
- \(r = 0\):完全沒有線性相關。
從概括統計量計算 \(r\)
在考試中,題目通常會提供「概括統計量」(summary statistics),例如 \( \sum x, \sum y, \sum x^2, \sum y^2, \) 和 \( \sum xy \)。你需要利用這些數據計算出以下基礎組件:
\( S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} \)
\( S_{yy} = \sum y^2 - \frac{(\sum y)^2}{n} \)
\( S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} \)
最終的 PMCC 計算公式為:
\( r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} \)
使用條件
只有當你認為兩者關係是線性(直線)時,才應該使用 PMCC。如果散點圖看起來呈曲線狀,\(r\) 所算出的數值可能會產生誤導,使相關性看起來過低!
數據編碼 (Coding) 的奧妙
你知道嗎? PMCC 不受數據編碼影響。如果你將每個 \(x\) 值加上 10,或將每個 \(y\) 值乘以 5,\(r\) 的值將保持完全不變。它只關心數據的模式,而不關心數值的比例或縮放。
重點總結
PMCC (\(r\)) 專用於直線關係。其數值範圍從 -1 到 1,且不會因加上或乘以常數而改變。
2. 斯皮爾曼等級相關係數 (Spearman’s Rank Correlation Coefficient)
有時候,數據並非呈完美的直線,又或是「定性」數據(例如將 10 部電影排名)。這時就需要用到斯皮爾曼等級相關係數 (Spearman’s Rank Correlation Coefficient) (\(r_s\))。
何時使用斯皮爾曼係數?
- 當關係是單調的 (monotonic)(沿單一方向移動,但不一定是直線)。
- 當數據已經是等級 (ranks) 形式時。
- 當存在會影響 PMCC 準確性的離群值 (outliers) 時。
計算 \(r_s\) 的步驟
1. 將兩組變數的數據分別排序 (Rank)(通常最小值記為 1,第二小記為 2,依此類推)。
2. 計算每一對數據的等級差值 (difference) (\(d\))。
3. 將這些差值平方 (square) (\(d^2\))。
4. 加總這些平方差值 (\(\sum d^2\))。
5. 代入公式:
\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)
註:\(n\) 是數據對的數量。
處理「同分」 (Ties)
如果兩個項目數值相同,則屬於「同分」。處理方法是給予它們本應佔據等級的平均值。例如,如果兩個人並列第 2 和第 3 名,則兩人的等級都設為 2.5。
重點總結
斯皮爾曼係數 (\(r_s\)) 用於等級數據或非線性模式。如果你看到一條不斷上升的「蛇形」曲線,即使 PMCC 很低,斯皮爾曼係數依然會很高。
3. 相關性的假設檢定 (Hypothesis Testing)
當你算出相關係數(\(r\) 或 \(r_s\))後,你需要檢查它是否具有「統計顯著性」。我們是在基於小樣本數據,檢定在總體 (population) 中是否存在相關性。
假設設定
- 針對 PMCC: 使用希臘字母 \(\rho\) (rho)。
\(H_0: \rho = 0\)(總體中無相關性)
\(H_1: \rho \neq 0\)(存在相關性 - 雙尾檢定)或 \(\rho > 0\) / \(\rho < 0\)(單尾檢定)。 - 針對斯皮爾曼: 使用 \(\rho_s\)。
\(H_0: \rho_s = 0\)
\(H_1: \rho_s \neq 0\)(或 \(>\) 或 \(<\))。
臨界值 (Critical Value)
完成檢定的步驟:
1. 在考試提供的統計表中查閱臨界值。你需要知道樣本大小 (\(n\)) 和顯著性水平(例如 5%)。
2. 比較: 如果你的計算結果的絕對值大於臨界值(忽略負號),則結果是顯著的。你會拒絕 \(H_0\)。
PMCC 檢定的重要條件
要對 PMCC 進行假設檢定,數據必須來自雙變量正態分佈 (bivariate normal distribution)。簡單來說,如果你在 3D 空間中繪製這些數據,它們看起來應該像一個鐘形的土丘。你不需要在考試中證明這一點,但若題目問及,你必須說明這是必要條件!
速覽:決策規則
若 \(|r| > \text{臨界值}\) \(\rightarrow\) 拒絕 \(H_0\),即有證據表明存在相關性。
4. 比較 PMCC 與斯皮爾曼係數
同學經常問:「我該選哪一個?」以下是一個簡單的對比,幫助你決定。
- 類比: 想像一排排隊的學生。
- PMCC 在意的是他們之間具體相隔多少厘米(實際距離)。
- 斯皮爾曼係數 只在意誰排在誰前面(先後順序)。 - 「直線」測試: 若呈直線關係則用 PMCC;若呈曲線關係則用斯皮爾曼。
- 「敏感度」測試: PMCC 對離群值非常敏感。斯皮爾曼係數則更「穩健」(robust),因為排名會將極端數值「壓縮」回原本的順位。
重點總結
記得先看散點圖!如果是直線且數據呈常態分佈,PMCC 是你的首選;如果是曲線或分佈雜亂,斯皮爾曼係數會更安全。
常見錯誤提示
- 忘記排名: 計算斯皮爾曼係數時,不要直接使用原始數值!必須先將其轉化為 1, 2, 3... 的等級。
- 混淆 \(\rho\) 與 \(r\): 使用 \(r\) 表示你的樣本計算結果,而在撰寫假設 (\(H_0\) 和 \(H_1\)) 時則使用 \(\rho\)。
- 忽略符號: -0.8 的相關性與 +0.8 一樣強,負號僅代表方向(下降)。
- 相關性 \(\neq\) 因果關係: 兩者相關並不代表一方是另一方的成因。(例子:雪糕銷量與鯊魚襲擊次數相關,是因為天氣熱,而不是因為雪糕吸引了鯊魚!)