Correlation and linear regression - Statistics (9ST0) - Pearson Edexcel A Level

歡迎來到相關係數與線性回歸！

你有沒有想過，玩遊戲的時間長短與反應速度之間是否真的有關係？或者，戶外氣溫是否能預測冰淇淋店的銷量？這正是本章要探討的內容！我們將尋找兩組不同數據之間的關係（relationships），並學習如何運用這些關係來進行精準的預測。

在卷一（Paper 1）中，重點在於使用計算機計算這些數值，更重要的是，詮釋（interpreting）它們在現實世界中的含義。別擔心課本裡的公式看起來很複雜——對於這場考試，你的計算機已經幫你處理掉繁重的計算工作了！

1. 理解相關係數（Correlation）

相關係數（Correlation）用來描述兩個變量之間關係的強度和方向。

皮爾遜積差相關係數（Pearson’s Product Moment Correlation Coefficient, 簡稱 PMCC 或 \(r\)）

這是衡量散點圖上的點與直線（straight line）有多接近的指標。

\(r\) 的值：永遠落在 -1 到 1 之間。
\(r = 1\)：完全正線性相關（一條完美的向上直線）。
\(r = -1\)：完全負線性相關（一條完美的向下直線）。
\(r = 0\)：完全沒有線性相關。

快速回顧：若 \(r = 0.9\)，代表數據點非常接近一條向上的直線。若 \(r = 0.2\)，則代表數據點分佈較散，但總體趨勢是向上的。

斯皮爾曼等級相關係數（Spearman’s Rank Correlation Coefficient, \(\rho\)）

有時候，數據並非呈現直線，但仍遵循某種趨勢（例如：當一個變量增加時，另一個也增加，但呈現曲線形態）。針對這種情況，我們使用斯皮爾曼等級相關係數。我們不使用原始數據，而是將它們進行排序（rank）（第 1 名、第 2 名、第 3 名……）。

如何進行斯皮爾曼排序：

為第一個變量排序（例如：最高分為 1，次高分為 2）。
用同樣的方法為第二個變量排序。
並列排名（Tied Ranks）：如果兩個項目並列第 3 和第 4 名，給予它們平均排名：\( (3+4) \div 2 = 3.5 \)。
一致性是關鍵：如果你在第一個變量中將最高分排為「1」，那麼在第二個變量中，你也必須將最高分排為「1」！

你知道嗎？斯皮爾曼等級相關係數非常適合用於「主觀性」數據，例如兩位評審在選秀節目中為參賽者評分。即使一位評審給 90/100 分，而另一位給 70/100 分也沒關係；只要他們都將同一個人排在第 1 名，斯皮爾曼係數就會顯示出完美的相關性！

關鍵重點：

皮爾遜係數 (\(r\)) 衡量的是線性（直線）關係。斯皮爾曼係數 (\(\rho\)) 衡量的是排名的吻合度（一般趨勢），且適用範圍更廣。

2. 選擇合適的方法

在考試中，你可能會被問到為什麼選擇特定的方法。判斷標準如下：

請使用皮爾遜係數 (\(r\))，當：

散點圖上的關係看起來是線性的（直線）。
數據來自雙變量常態分佈（bivariate normal distribution）（這是一種比較高級的說法，意指數據在 3D 繪圖時呈「鐘形」，或者兩個變量都呈常態分佈）。

請使用斯皮爾曼係數 (\(\rho\))，當：

數據是非線性的（例如：呈現曲線）。
數據已經是等級（ranks）或屬於定性數據（qualitative）（例如：「美味」、「更美味」、「最美味」）。
存在異常值（outliers）。斯皮爾曼係數受單一極端數據點的影響遠小於皮爾遜係數。
沒有關於數據分佈的假設時。

常見錯誤：學生常忘記皮爾遜係數只能測量直線關係。如果數據形成一個完美的「U」形，皮爾遜 \(r\) 可能為 0，儘管兩者之間顯然存在關聯！

3. 線性回歸：最佳擬合線

相關係數告訴我們是否存在關聯，而回歸（Regression）則為我們提供了進行預測的方程式。標準形式為：

\( y = a + bx \)

\(y\)：應變量（dependent variable）（你試圖預測的目標）。
\(x\)：自變量（independent/explanatory variable）（你已知的事實）。
\(a\)：截距（intercept）。當 \(x = 0\) 時的 \(y\) 值。
\(b\)：斜率（gradient）。代表 \(x\) 每增加 1 個單位，\(y\) 會增加（若 \(b\) 為負值則為減少）多少。

步驟解析：
假設冰淇淋銷量 (\(y\)) 與氣溫 (\(x\)) 的方程式為 \( y = 20 + 5x \)：
1. 截距 (20)：意指當氣溫為 0°C 時，預期可售出 20 份冰淇淋。
2. 斜率 (5)：意指氣溫每升高 1°C，預期銷量會多出 5 份冰淇淋。

別擔心：考試要求你使用計算機求出 \(a\) 和 \(b\)。請確保你熟悉如何輸入雙變量數據（在標準 A-Level 計算機中，通常位於 'STAT' 或 '6' 選單下）。

4. 預測：安全 vs. 風險

一旦你有了 \( y = a + bx \) 的直線方程式，就可以代入 \(x\) 的值來求出 \(y\)。但要小心！

內插法（Interpolation，較安全）

這指的是你預測的數值位於你現有數據的範圍內。如果你測量的氣溫介於 10°C 到 30°C 之間，預測 20°C 時的情況就屬於內插法。這通常相當可靠。

外推法（Extrapolation，危險區）

這指的是你預測的數值位於數據範圍之外。如果你的最高數據點是 30°C，卻預測 50°C 時的冰淇淋銷量，這就是外推法。
為什麼有風險？ 因為趨勢可能不會延續！在 50°C 時，人們可能選擇待在家中不出門，銷量反而可能下降。請避免依賴外推法。

關鍵重點：

內插法 = 數據範圍內（可靠）。
外推法 = 數據範圍外（不可靠/風險高）。

5. 殘差與異常值

殘差（residual）就是實際發生值與回歸線預測值之間的差額。

\( \text{Residual} = y_i - (a + bx_i) \)

簡而言之：殘差 = 實際值 - 預測值。

如果殘差為正數，代表實際數據點在回歸線上方。
如果殘差為負數，代表實際數據點在回歸線下方。
極大的殘差（正或負）通常暗示該數據點可能是一個異常值。

類比：想像你的 GPS 顯示車程需要 30 分鐘（預測），但實際上卻花了 45 分鐘（實際）。你的「殘差」就是 15 分鐘。如果其他路程的誤差都在 1 分鐘內，那麼這 15 分鐘的落差就顯示該次車程為一個異常值！

快速回顧箱：
- 皮爾遜 \(r\)：線性，範圍 -1 到 1。
- 斯皮爾曼 \(\rho\)：排名，非線性趨勢。
- 方程式 \(y = a + bx\)：\(a\) 是起點，\(b\) 是變化量。
- 殘差：實際值減去預測值。

恭喜！你已經掌握了卷一中相關係數與回歸的核心內容。記住：在回答問題時，務必將你的答案結合題目情境進行詮釋（記得加上單位，如「公斤」、「公尺」或「英鎊」），這樣才能拿到最高分！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

歡迎來到相關係數與線性回歸！

1. 理解相關係數（Correlation）

皮爾遜積差相關係數（Pearson’s Product Moment Correlation Coefficient, 簡稱 PMCC 或 \(r\)）

斯皮爾曼等級相關係數（Spearman’s Rank Correlation Coefficient, \(\rho\)）

關鍵重點：

2. 選擇合適的方法

請使用皮爾遜係數 (\(r\))，當：

請使用斯皮爾曼係數 (\(\rho\))，當：

3. 線性回歸：最佳擬合線

4. 預測：安全 vs. 風險

內插法（Interpolation，較安全）

外推法（Extrapolation，危險區）

關鍵重點：

5. 殘差與異常值

立即實踐所學