歡迎來到回歸分析與相關係數的世界!

各位未來的統計學家大家好!本章屬於單元 S3,內容至關重要,因為它教會我們如何找出並量度兩個變數之間的關係。試想一下,日照時間如何影響植物生長,或是溫習時間如何影響考試分數,這些都是本章探討的課題。

學完這些筆記後,你將能夠:

  • 利用散點圖 (scatter diagram) 直觀地呈現數據之間的關係。
  • 利用積動差相關係數 (Product Moment Correlation Coefficient, PMCC) 計算並解讀這些關係的強弱。
  • 利用最小二乘法 (Least Squares Regression method) 找出「最適合直線 (line of best fit)」,從而進行預測。

如果起初覺得這些概念有點抽象,別擔心,我們會將公式和理論拆解成簡單易懂的步驟。讓我們馬上開始吧!


1. 視覺化關係:散點圖

分析任何雙變量數據(涉及兩個變數的數據)的第一步,就是將它們繪製在散點圖上。

1.1 自變數與應變數

當你繪製兩個變數時,你需要決定哪一個變數會影響另一個:

  • 自變數 (Independent Variable, \(x\)): 這是你所控制,或導致變化的變數。它位於橫軸上。
  • 應變數 (Dependent Variable, \(y\)): 這是隨自變數變化而改變的變數。它位於縱軸上。

例子:如果我們研究氣溫 (x) 如何影響雪糕銷量 (y),氣溫就是自變數。

1.2 線性相關的類型

當我們觀察散點圖時,我們主要看的是關係(相關性)的方向強度

  • 正相關: 當 \(x\) 增加時,\(y\) 通常也會增加。數據點從左至右呈上升趨勢。
  • 負相關: 當 \(x\) 增加時,\(y\) 通常會減少。數據點從左至右呈下降趨勢。
  • 無相關: 數據點隨機散佈,顯示 \(x\) 與 \(y\) 之間沒有明顯的關係。
快速複習:相關性 vs. 因果關係

相關性 (Correlation) 意味著兩個變數共同變化;而因果關係 (Causation) 則意味著一個變數直接導致了另一個變數的改變。僅僅因為兩件事物相關,並不代表其中一個是另一個的原因!

你知道嗎?在夏天,雪糕銷量和犯罪率都會上升。它們雖然相關,但雪糕並不會導致犯罪(潛在原因其實是炎熱的天氣!)。


2. 量度相關性:PMCC (\(r\))

雖然散點圖能讓我們直觀地看到關係,但我們需要精確的數學量度。這就是積動差相關係數 (Product Moment Correlation Coefficient, PMCC) 的任務,以 \(r\) 表示。

2.1 什麼是 PMCC?

PMCC 量度的是兩個變數之間線性關係強度與方向

2.2 解讀 \(r\) 的數值

\(r\) 的值始終介於 -1 到 1 之間:

$$ -1 \le r \le 1 $$
PMCC (\(r\)) 數值 解讀
\(r = 1\) 完全正相關(所有點精確地落在向上的直線上。)
\(r\) 接近 +1(例如 0.8 至 0.99) 強正相關
\(r\) 接近 0.5 中度正相關
\(r \approx 0\) 無線性相關
\(r\) 接近 -0.5 中度負相關
\(r = -1\) 完全負相關

2.3 計算 \(r\)(公式組成部分)

雖然你經常會用計算機找出 \(r\),但理解計算過程的基石至關重要,這些基石就是平方和與積和:

  • \(S_{xx}\)(\(x\) 的平方和): 量度 \(x\) 數據的散佈程度。
  • \(S_{yy}\)(\(y\) 的平方和): 量度 \(y\) 數據的散佈程度。
  • \(S_{xy}\)(積和): 量度 \(x\) 與 \(y\) 如何共同變化。這是決定相關係數正負號的核心部分。

PMCC 的公式為:

$$ r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} $$

別擔心需要頻繁手算 \(S_{xx}, S_{yy}\) 和 \(S_{xy}\)—你的 Edexcel 公式手冊提供了基於總和的定義,且計算機可以處理大部分繁重工作。但你必須能夠使用這三個數值來計算 \(r\)。

PMCC 的重點提示

PMCC (\(r\)) 只量度線性關係。如果數據呈現完美的曲線(非線性關係),\(r\) 可能接近 0,這會誤導你認為兩者沒有關係,而事實上它們之間存在強烈的非線性關係!


3. 找出最適合直線:線性回歸

如果我們確定存在線性關係(即 \(r\) 接近 1 或 -1),我們就可以找出回歸直線。這條直線用於建立模型並進行預測。

3.1 最小二乘法原理

繪製最適合直線時,我們希望這條線能將實際數據點與直線之間的總誤差降至最低。在 S3 中,這條直線稱為最小二乘法回歸直線 (Least Squares Regression Line)。它將點到直線的垂直距離(殘差)的平方和降至最低。

3.2 回歸方程

\(y\) 對 \(x\) 的回歸直線標準方程為:

$$ y = a + bx $$

其中:

  • \(y\) 是應變數(即你打算預測的變數)。
  • \(x\) 是自變數(即你用來進行預測的變數)。
  • \(b\) 是直線的斜率 (gradient)
  • \(a\)\(y\) 軸截距 (y-intercept)

3.3 計算係數 (\(a\) 與 \(b\))

為了找出這條直線,我們需要用到 \(S_{xx}, S_{xy}\) 以及數據的平均值(\(\bar{x}\) 和 \(\bar{y}\))。

步驟 1:計算 \(b\)(斜率)

斜率 \(b\) 告訴我們 \(x\) 每增加一個單位,預期 \(y\) 會改變多少。

$$ b = \frac{S_{xy}}{S_{xx}} $$

記憶小貼士:斜率 \(b\) 取決於 \(x\) 與 \(y\) 的共同變異 (\(S_{xy}\)) 相對於 \(x\) 的散佈程度 (\(S_{xx}\))。

步驟 2:計算 \(a\)(\(y\) 軸截距)

最小二乘法回歸直線始終通過平均點 \((\bar{x}, \bar{y})\)。我們利用這個事實以及已計算出的 \(b\) 來求 \(a\)。

$$ a = \bar{y} - b\bar{x} $$

逐步範例流程:

  1. 計算平均值 \(\bar{x}\) 和 \(\bar{y}\)。(題目通常會給出,或可用計算機輕鬆求得)。
  2. 計算 \(S_{xx}\) 和 \(S_{xy}\)。(通常題目會提供)。
  3. 使用步驟 1 的公式計算 \(b\)。
  4. 使用步驟 2 的公式計算 \(a\)。
  5. 寫出最終方程 \(y = a + bx\)。

3.4 區分 \(y\) 對 \(x\) 與 \(x\) 對 \(y\) 的重要性

在進階數學 (Further Maths) 中一個常見的陷阱是搞錯哪個變數預測哪個變數。\(y\) 對 \(x\) 的回歸直線與 \(x\) 對 \(y\) 的回歸直線是不同的。

  • \(y\) 對 \(x\) 的回歸: \(y = a + bx\)。當 \(x\) 是自變數且我們想預測 \(y\) 時使用。(將垂直誤差降至最低)。
  • \(x\) 對 \(y\) 的回歸: \(x = c + dy\)。當 \(y\) 是自變數且我們想預測 \(x\) 時使用。(將水平誤差降至最低)。

如果題目要求你根據所獲得的分數 (\(y\)) 來預測溫習時間 (\(x\)),你必須使用 \(x\) 對 \(y\) 的直線。

給同學的關鍵提示

請務必先識別應變數!如果你要根據年齡 (AGE) 預測身高 (HEIGHT),那麼身高就是 \(y\),年齡就是 \(x\)。請使用 \(y = a + bx\)。當你用 \(x\) 預測 \(y\) 時,\(b\) 的公式中,分母永遠是 \(S_{xx}\)


4. 使用回歸直線:預測與局限

一旦你有了方程 \(y = a + bx\),你就可以用它來估算數值。

4.1 內插法 (Interpolation, 可靠的預測)

內插法是指根據落在原始數據範圍內的自變數 \(x\),對應變數 \(y\) 進行預測。

例子:如果原始數據使用 5 至 15 歲,預測 10 歲兒童的身高就是內插法。這種方法通常比較可靠。

4.2 外推法 (Extrapolation, 不可靠的預測)

外推法是指根據落在原始數據範圍外的 \(x\) 值,對 \(y\) 進行預測。

例子:使用 5-15 歲的數據來預測 40 歲成年人的身高。

警告! 外推法很危險,因為你假設線性趨勢會無限期地持續下去,而這在現實生活中往往是錯誤的。在觀察範圍之外,關係經常會中斷或改變形式。

4.3 可靠性與適用性

任何預測的可靠性取決於兩點:

  1. 相關係數的強度 (\(|r|\)): \(|r|\) 越接近 1,數據對直線的擬合度就越好,預測就越可靠。
  2. 數據範圍(內插法 vs. 外推法): 內插法通常可靠;外推法通常不可靠。

類比:想像一下預測你在一場 10 公里旅程中的速度。如果你使用前 5 公里的數據(內插法),你的預測很可能是準確的。但如果你用這些數據去預測在全國 300 公里旅程中的速度(外推法),你的預測很可能會出錯,因為路況會改變!

章節總結檢核表
  • 我能從強度和方向解讀 PMCC (\(r\)) 嗎?
  • 我是否知道相關性並不代表因果關係?
  • 給定 \(S_{xx}\) 和 \(S_{xy}\),我能計算係數 \(a\) 和 \(b\) 嗎?
  • 我能分辨 \(y\) 對 \(x\) 的直線和 \(x\) 對 \(y\) 的直線嗎?
  • 我能判斷一個預測是屬於內插法還是外推法嗎?

如果你的回答都是肯定的,那麼你已經準備好挑戰考題了!


祝你溫習順利!你已經成功掌握了統計關係的核心概念。