簡介:建立聯繫
歡迎來到相關性 (Correlation) 的學習領域!在統計學中,我們經常想知道兩者之間是否存在關聯。例如:花更多時間溫習是否會帶來更高的分數?人的身高是否與鞋碼有關?相關性為我們提供了一種利用數字來衡量這些關係強度與方向的方法。
在本章中,你將學習如何計算這些數值,測試關係是「真實存在」還是純屬巧合,並判斷哪種方法最適合不同類型的數據。如果起初看到某些公式覺得很複雜,不用擔心——我們會帶你一步步拆解!
1. 皮爾遜積差相關係數 (PMCC)
PMCC(以字母 \(r\) 表示)是用於衡量兩個變數之間線性關係的指標。你可以把它想像成一個「直線測量器」:它告訴我們散佈圖 (scatter diagram) 上的點在多大程度上聚集在一條直線周圍。
\(r\) 的關鍵特徵:
- \(r\) 的值始終介於 -1 與 +1 之間。
- \(r = +1\):完全正線性相關(完美的向上的直線)。
- \(r = -1\):完全負線性相關(完美的向下的直線)。
- \(r = 0\):完全沒有線性相關。
你知道嗎? PMCC 只測量直線模式。如果你的數據點形成一個完美的「U」型,即使兩者之間顯然存在關係,PMCC 的值也可能為 0!
線性編碼 (Linear Coding) 的奧妙
PMCC 的一個非常有用的特性是它不受線性編碼的影響。這意味著如果你對所有的 \(x\) 或 \(y\) 數值進行加、減、乘或除一個常數,\(r\) 的值會保持不變。
例如:如果你以厘米為單位測量身高,然後全部轉換為米,相關係數 \(r\) 是完全不會改變的!
計算 \(r\)
在考試中,你需要使用計算機的統計功能從原始數據中求出 \(r\)。
小貼士:務必仔細檢查你的數據輸入!輸入錯一個數字都可能使最終的 \(r\) 值出現重大偏差。
重點總結:PMCC 測量數據點距離直線有多近。它是一個介於 -1 到 1 之間的數值,不會因數據的平移或縮放而改變。
2. 使用 PMCC 進行假設檢定
僅僅因為我們在小樣本中發現了相關性,並不代表整個群體中也存在這種相關性。我們使用假設檢定 (Hypothesis testing) 來檢查結果是否具有統計顯著性。
假設前提:雙變數常態分佈 (Bivariate Normal Distribution)
為了使 PMCC 的假設檢定有效,我們假設數據來自雙變數常態分佈。這是一個高級的說法,意指兩個變數都遵循常態分佈,且當在 3D 圖表中繪製時,它們的聯合分佈看起來像一個「鐘形山丘」。
假設設定:
- 虛無假設 (Null Hypothesis, \(H_0\)): \(\rho = 0\)(在群體中沒有相關性)。
- 對立假設 (Alternative Hypothesis, \(H_1\)):
- \(\rho \neq 0\)(雙尾檢定:存在某種相關性)。
- \(\rho > 0\)(單尾檢定:存在正相關性)。
- \(\rho < 0\)(單尾檢定:存在負相關性)。
注意:我們使用希臘字母 \(\rho\) (rho) 來代表群體 (population) 的相關性,而 \(r\) 則是代表我們的樣本 (sample)。
如何檢定:
- 明確說明 \(H_0\) 和 \(H_1\)。
- 確定顯著性水平 (significance level)(例如 5%)和樣本大小 (\(n\))。
- 從提供的統計表中找到臨界值 (critical value)。
- 將計算出的 \(r\) 與臨界值進行比較:
- 如果 \(|r| > \text{臨界值}\),則拒絕 \(H_0\)。有證據表明存在相關性!
- 否則,不拒絕 \(H_0\)。
重點總結:我們將樣本 \(r\) 與臨界值進行比較,以查看群體 \(\rho\) 是否很有可能不為零。請務必在答題中提及「雙變數常態分佈」作為你的基本假設!
3. 斯皮爾曼等級相關係數 (Spearman’s Rank Correlation Coefficient)
有時候,數據並非線性,或者數據是以「等級」給出的(如第 1 名、第 2 名、第 3 名)。這時就是斯皮爾曼等級相關係數 (\(r_s\)) 大顯身手的時候了。
何時使用斯皮爾曼:
- 當關係是單調的 (monotone) 時(數據一直上升或一直下降,但不一定是直線)。
- 當數據已經是等級 (ranks) 或屬於定性數據 (qualitative) 時(例如:才藝表演評分)。
- 當數據中存在離群值 (outliers),可能會將 PMCC 的結果「拉偏」時。
計算方法(適用於最多 10 對數據):
公式為:\(r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)}\)
步驟說明:
- 對兩個變數的數據進行排名 (Rank)(最小值排 1,次小值排 2,以此類推)。
- 計算每對數據排名之間的差值 (\(d\))。
- 將每個差值平方 (\(d^2\))。
- 將這些平方值求和 (\(\sum d^2\))。
- 將總和與數據對數 (\(n\)) 代入公式即可。
避免常見錯誤:確保你對兩組數據進行排名的方向一致(例如:都從最小到最大)。此外,對於本課程大綱,你不需要處理「並列排名」(tied ranks)(即兩個項目數值相同的情況)。
重點總結:斯皮爾曼使用排名而不是原始數值。它非常適合非線性但一致的關係,且屬於無母數統計 (non-parametric) 檢定(它對群體分佈沒有任何假設)。
4. 使用斯皮爾曼進行假設檢定
與 PMCC 類似,我們可以使用斯皮爾曼係數來檢定群體中是否存在關聯 (association)。由於它不需要對群體進行任何假設(如常態性),因此被稱為無母數檢定。
假設設定:
- \(H_0\): 兩變數在群體中沒有關聯。
- \(H_1\): 存在關聯(或特定的正/負關聯)。
你需要使用特定的斯皮爾曼臨界值表來進行檢定。過程是一樣的:如果你的 \(|r_s|\) 大於臨界值,你就拒絕虛無假設。
快速複習:
- PMCC: 檢定線性相關。需要常態分佈假設。
- 斯皮爾曼: 檢定關聯性。適用於非線性或已排名的數據。不需要分佈假設。
5. 選擇正確的係數
考試中常有一題要求你解釋為什麼選擇某種係數。請參考以下指南:
- 選擇 PMCC 的情況: 散佈圖看起來是線性的,並且你可以假設它服從雙變數常態分佈。
- 選擇斯皮爾曼的情況: 數據是已排名的,關係是非線性的(有弧度但趨勢一致),或者存在會干擾 PMCC 的離群值。
比喻:想像一下測量彈簧的拉伸程度,直線尺(PMCC)是完美的。但如果你在測量一個人對辣醬的喜好程度(1 到 10 分),那麼「排名」系統(斯皮爾曼)就合理得多!
重點總結:一定要先看散佈圖。如果是直線,PMCC 是你的最佳選擇。如果是曲線或涉及「順序」,請使用斯皮爾曼。
總結清單
在完成本章之前,請確保你能做到:
- 使用計算機計算 PMCC。
- 解釋為什麼線性編碼不會改變 PMCC。
- 對 PMCC 進行假設檢定(記住「雙變數常態分佈」的假設!)。
- 對數據進行排名並計算 斯皮爾曼等級相關係數。
- 對 斯皮爾曼進行假設檢定。
- 根據散佈圖或背景資訊在 PMCC 和斯皮爾曼之間做出選擇。
如果剛開始覺得有些棘手也不要擔心——只要多練習操作計算機和查閱統計表,這些分數將成為你最拿手的得分項目!