歡迎來到相關係數的世界!

你有沒有想過,你花在手機上的時間與考試成績之間是否有真正的聯繫?又或者,個子較高的人腳掌真的比較大嗎?在本章中,我們將探討相關係數 (Correlation)——這是一種衡量兩件事物之間關聯程度的數學方法。

我們將研究如何計算這些關聯性、如何測試它們是「真實存在」的還是純屬巧合,以及根據數據類型選擇合適的方法。如果起初覺得有點複雜,請不用擔心;我們會一步一步為你拆解!


1. 皮爾遜積差相關係數 (Pearson’s Product-Moment Correlation Coefficient, PMCC)

PMCC(以字母 \(r\) 表示)是一個用來衡量雙變量數據 (bivariate data)(即同時有兩個變量的數據,例如身高與體重)與直線之間貼合程度的數值。

關於 \(r\) 的關鍵事實:

1. \(r\) 的值始終介於 \(-1\)\(+1\) 之間。
2. \(r = +1\):完全正線性相關(數據點精確排列在向上的直線上)。
3. \(r = -1\):完全負線性相關(數據點精確排列在向下的直線上)。
4. \(r = 0\):完全沒有線性相關。

線性編碼 (Linear Coding)

PMCC 最酷的地方之一是它不受線性編碼影響。這意味著即使你改變數據的單位(例如將身高從厘米轉換為英寸,即乘以 2.54),\(r\) 的值依然保持不變。它衡量的是變量之間的關係,而非數據的標度。

「雞蛋」假設

為了使 PMCC 成為總體 (population) 的有效度量,我們通常假設數據服從雙變量正態分佈 (bivariate normal distribution)。想像一下,你的散點圖看起來像一團模糊的、傾斜的雞蛋形狀雲——這就是我們所追求的理想分佈!

小貼士:務必使用計算機的統計功能來計算 \(r\)。在考試中,你不需要手動輸入大量數字,但你必須熟悉如何操作計算機的「統計 (Statistics)」或「計算 (Calculate)」選單。

重點總結:PMCC (\(r\)) 衡量的是線性關係的強度。如果數據點形成曲線而非直線,\(r\) 可能無法完全反映數據的特徵。


2. 利用 PMCC 進行假設檢定

僅僅在一個小樣本中發現相關性,並不代表整個總體也存在同樣的相關性。我們使用假設檢定 (Hypothesis Test) 來判斷我們的結果是否具有「統計顯著性」。

步驟:

1. 列出假設:我們使用希臘字母 \(\rho\)(讀作 'rho')來代表總體相關係數。
- \(H_0: \rho = 0\)(總體中不存在相關性)。
- \(H_1: \rho > 0\)\(\rho < 0\)\(\rho \neq 0\)(存在正相關、負相關或一般的相關性)。

2. 找出臨界值 (Critical Value):根據你的樣本大小 (\(n\)) 和顯著性水平(例如 5%),在考試提供的統計表中查閱臨界值。

3. 比較並得出結論:如果計算出的 \(r\) 距離零比臨界值更遠,則拒絕 \(H_0\)。

常見錯誤:撰寫結論時,千萬不要說你已經「證明 (proven)」了相關性。相反,請說「在 5% 的顯著性水平下,有足夠的證據顯示存在相關性……」。

重點總結:假設檢定用於檢查樣本中觀察到的相關性是否強大到足以推斷其存在於更廣大的總體中。


3. 斯皮爾曼等級相關係數 (Spearman’s Rank Correlation Coefficient)

有時,數據並非精確的測量值,而是關於等級 (ranks)(第一名、第二名等)。或者,數據關係呈現曲線而非直線。這正是斯皮爾曼等級相關係數 (\(r_s\)) 發揮作用的時候。

如何計算 \(r_s\):

1. 將兩組數據分別由 1 到 \(n\) 進行排序 (rank)。
2. 找出每對數據在等級上的差異 (\(d\))。
3. 將這些差異平方 (\(d^2\))。
4. 使用公式:\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)

你知道嗎?斯皮爾曼等級相關係數是一種非參數 (non-parametric) 檢定。這是一個花俏的說法,意指它不依賴總體的「形狀」(分佈)。它不需要我們前面提到的「雞蛋形」雲分佈!

注意:在 OCR H235 考試中,你最多只需為 10 對數據進行計算,並且不需要擔心「同分排名 (tied ranks)」(即兩個項目數值相同的情況)。

重點總結:當你有等級數據,或者想衡量關聯性 (association)(即一個變量增加時,另一個變量是否也增加?)即便它不是呈直線時,請使用斯皮爾曼係數。


4. 選擇正確的係數

在考試中,你可能會被問到為什麼選擇皮爾遜或斯皮爾曼相關係數。這裡有一個簡單的指南幫助你做決定:

若符合以下條件,請使用皮爾遜 (\(r\)):

- 散點圖看起來像是一條直線
- 數據是定量 (quantitative) 的(實際測量值)。
- 可以假設數據符合雙變量正態分佈(即那個雞蛋形的雲)。

若符合以下條件,請使用斯皮爾曼 (\(r_s\)):

- 數據已經是等級 (ranks) 形式。
- 散點圖顯示的是曲線關係 (association) 而非直線。
- 存在極端值 (outliers)(皮爾遜係數非常受極端值影響;而斯皮爾曼因為只看等級,處理起來會更好)。

類比:想像皮爾遜係數就像一把直尺——它專門檢查直線度。而斯皮爾曼係數就像樓梯——它只關心你是向上還是向下走,而不論每一級台階有多陡峭。

快速複習箱:
- 線性相關 (Linear Correlation) = 直線關係(使用 PMCC)。
- 關聯性 (Association) = 一個變量增加,另一個也增加/減少,但可能是曲線(使用斯皮爾曼)。
- 編碼 (Coding) = 對數據進行數值的加減乘除,並不會改變相關係數的值。

最後鼓勵:相關係數是統計學中最實用的部分之一。一旦你掌握了「線性」與「關聯性」之間的區別,你就已經克服了本章最大的障礙!