歡迎來到相關係數與線性回歸!

你有沒有想過,玩遊戲的時間長短與反應速度之間是否真的有關係?或者,戶外氣溫是否能預測冰淇淋店的銷量?這正是本章要探討的內容!我們將尋找兩組不同數據之間的關係(relationships),並學習如何運用這些關係來進行精準的預測。

卷一(Paper 1)中,重點在於使用計算機計算這些數值,更重要的是,詮釋(interpreting)它們在現實世界中的含義。別擔心課本裡的公式看起來很複雜——對於這場考試,你的計算機已經幫你處理掉繁重的計算工作了!


1. 理解相關係數(Correlation)

相關係數(Correlation)用來描述兩個變量之間關係的強度和方向。

皮爾遜積差相關係數(Pearson’s Product Moment Correlation Coefficient, 簡稱 PMCC 或 \(r\))

這是衡量散點圖上的點與直線(straight line)有多接近的指標。

  • \(r\) 的值:永遠落在 -1 到 1 之間。
  • \(r = 1\):完全正線性相關(一條完美的向上直線)。
  • \(r = -1\):完全負線性相關(一條完美的向下直線)。
  • \(r = 0\):完全沒有線性相關。

快速回顧:若 \(r = 0.9\),代表數據點非常接近一條向上的直線。若 \(r = 0.2\),則代表數據點分佈較散,但總體趨勢是向上的。

斯皮爾曼等級相關係數(Spearman’s Rank Correlation Coefficient, \(\rho\))

有時候,數據並非呈現直線,但仍遵循某種趨勢(例如:當一個變量增加時,另一個也增加,但呈現曲線形態)。針對這種情況,我們使用斯皮爾曼等級相關係數。我們不使用原始數據,而是將它們進行排序(rank)(第 1 名、第 2 名、第 3 名……)。

如何進行斯皮爾曼排序:

  1. 為第一個變量排序(例如:最高分為 1,次高分為 2)。
  2. 用同樣的方法為第二個變量排序。
  3. 並列排名(Tied Ranks):如果兩個項目並列第 3 和第 4 名,給予它們平均排名:\( (3+4) \div 2 = 3.5 \)。
  4. 一致性是關鍵:如果你在第一個變量中將最高分排為「1」,那麼在第二個變量中,你也必須將最高分排為「1」!

你知道嗎?斯皮爾曼等級相關係數非常適合用於「主觀性」數據,例如兩位評審在選秀節目中為參賽者評分。即使一位評審給 90/100 分,而另一位給 70/100 分也沒關係;只要他們都將同一個人排在第 1 名,斯皮爾曼係數就會顯示出完美的相關性!

關鍵重點:

皮爾遜係數 (\(r\)) 衡量的是線性(直線)關係。斯皮爾曼係數 (\(\rho\)) 衡量的是排名的吻合度(一般趨勢),且適用範圍更廣。


2. 選擇合適的方法

在考試中,你可能會被問到為什麼選擇特定的方法。判斷標準如下:

請使用皮爾遜係數 (\(r\)),當:

  • 散點圖上的關係看起來是線性的(直線)。
  • 數據來自雙變量常態分佈(bivariate normal distribution)(這是一種比較高級的說法,意指數據在 3D 繪圖時呈「鐘形」,或者兩個變量都呈常態分佈)。

請使用斯皮爾曼係數 (\(\rho\)),當:

  • 數據是非線性的(例如:呈現曲線)。
  • 數據已經是等級(ranks)或屬於定性數據(qualitative)(例如:「美味」、「更美味」、「最美味」)。
  • 存在異常值(outliers)。斯皮爾曼係數受單一極端數據點的影響遠小於皮爾遜係數。
  • 沒有關於數據分佈的假設時。

常見錯誤:學生常忘記皮爾遜係數能測量直線關係。如果數據形成一個完美的「U」形,皮爾遜 \(r\) 可能為 0,儘管兩者之間顯然存在關聯!


3. 線性回歸:最佳擬合線

相關係數告訴我們是否存在關聯,而回歸(Regression)則為我們提供了進行預測的方程式。標準形式為:

\( y = a + bx \)

  • \(y\):應變量(dependent variable)(你試圖預測的目標)。
  • \(x\):自變量(independent/explanatory variable)(你已知的事實)。
  • \(a\):截距(intercept)。當 \(x = 0\) 時的 \(y\) 值。
  • \(b\):斜率(gradient)。代表 \(x\) 每增加 1 個單位,\(y\) 會增加(若 \(b\) 為負值則為減少)多少。

步驟解析:
假設冰淇淋銷量 (\(y\)) 與氣溫 (\(x\)) 的方程式為 \( y = 20 + 5x \):
1. 截距 (20):意指當氣溫為 0°C 時,預期可售出 20 份冰淇淋。
2. 斜率 (5):意指氣溫每升高 1°C,預期銷量會多出 5 份冰淇淋。

別擔心:考試要求你使用計算機求出 \(a\) 和 \(b\)。請確保你熟悉如何輸入雙變量數據(在標準 A-Level 計算機中,通常位於 'STAT' 或 '6' 選單下)。


4. 預測:安全 vs. 風險

一旦你有了 \( y = a + bx \) 的直線方程式,就可以代入 \(x\) 的值來求出 \(y\)。但要小心!

內插法(Interpolation,較安全)

這指的是你預測的數值位於你現有數據的範圍內。如果你測量的氣溫介於 10°C 到 30°C 之間,預測 20°C 時的情況就屬於內插法。這通常相當可靠。

外推法(Extrapolation,危險區)

這指的是你預測的數值位於數據範圍之外。如果你的最高數據點是 30°C,卻預測 50°C 時的冰淇淋銷量,這就是外推法
為什麼有風險? 因為趨勢可能不會延續!在 50°C 時,人們可能選擇待在家中不出門,銷量反而可能下降。請避免依賴外推法。

關鍵重點:

內插法 = 數據範圍內(可靠)。
外推法 = 數據範圍外(不可靠/風險高)。


5. 殘差與異常值

殘差(residual)就是實際發生值與回歸線預測值之間的差額。

\( \text{Residual} = y_i - (a + bx_i) \)

簡而言之:殘差 = 實際值 - 預測值

  • 如果殘差為正數,代表實際數據點在回歸線上方
  • 如果殘差為負數,代表實際數據點在回歸線下方
  • 極大的殘差(正或負)通常暗示該數據點可能是一個異常值

類比:想像你的 GPS 顯示車程需要 30 分鐘(預測),但實際上卻花了 45 分鐘(實際)。你的「殘差」就是 15 分鐘。如果其他路程的誤差都在 1 分鐘內,那麼這 15 分鐘的落差就顯示該次車程為一個異常值!

快速回顧箱:
- 皮爾遜 \(r\):線性,範圍 -1 到 1。
- 斯皮爾曼 \(\rho\):排名,非線性趨勢。
- 方程式 \(y = a + bx\):\(a\) 是起點,\(b\) 是變化量。
- 殘差:實際值減去預測值。


恭喜!你已經掌握了卷一中相關係數與回歸的核心內容。記住:在回答問題時,務必將你的答案結合題目情境進行詮釋(記得加上單位,如「公斤」、「公尺」或「英鎊」),這樣才能拿到最高分!