簡介:歡迎來到預測的世界!

在以往的學習中,你可能試過靠肉眼畫出一條「最佳擬合線」(line of best fit)。這固然有用,但比較像是在猜測。在進階統計學 2 (Further Statistics 2) 中,我們將擺脫憑空猜測,轉而使用最小二乘法線性迴歸 (Least Squares Linear Regression) 來找出數學上最完美的直線。這條直線能讓我們以極高的精確度,根據一個變量來預測另一個變量。

無論你是要根據日照時間預測植物生長,還是根據廣告支出預測銷售增長,本章都將為你提供準確模擬現實世界關係的工具。如果這些公式剛開始看起來有點嚇人,不用擔心——我們會帶你一步步拆解!


1. 最小二乘迴歸線

線性迴歸的目標是求出一條直線的方程式:\(y = a + bx\)。這條線被稱為 \(y\) 對 \(x\) 的迴歸線 (regression line of y on x)

這些字母代表什麼?

  • \(x\): 自變量(解釋變量,independent variable)。
  • \(y\): 應變量(響應變量,dependent variable)。
  • \(b\): 斜率 (gradient)(即 \(x\) 每增加 1 個單位時,\(y\) 的變化量)。
  • \(a\): \(y\) 軸截距 (y-intercept)(即當 \(x = 0\) 時 \(y\) 的值)。

「最小二乘法」的概念

為什麼叫「最小二乘」?想像一下你的數據點散佈在圖表上。你畫出的任何直線都會有一些「誤差」——即實際數據點與直線之間的垂直距離。我們稱這個距離為殘差 (residual)

我們想要的直線,是讓這些殘差平方和 (sum of the squares of these residuals) 達到最小值的直線。我們將殘差平方是因為有些點在線上方(正值),有些在下方(負值);平方後它們都會變成正數,這樣它們就不會互相抵消了!

小貼士: 迴歸線永遠都會通過平均值點 \((\bar{x}, \bar{y})\)。這是檢查你計算出的直線是否合理的絕佳方法!


2. 計算係數 (a 和 b)

要得出 \(y = a + bx\) 的方程式,你需要先計算 \(b\),然後再用它求出 \(a\)。你需要用到你的摘要統計量:\(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\)。

步驟 1:計算斜率 (\(b\))

求 \(b\) 的公式為:
\(b = \frac{S_{xy}}{S_{xx}}\)

步驟 2:計算截距 (\(a\))

一旦有了 \(b\),就利用 \(x\) 和 \(y\) 的平均值:
\(a = \bar{y} - b\bar{x}\)

常見錯誤:

學生經常會弄混 \(S_{xy}\) 和 \(S_{xx}\)。請記住:「x 在分母」。 因為你是根據 \(x\) 來預測 \(y\),所以 \(x\) 的變異量 (\(S_{xx}\)) 就是你的除數。

重點提示: 永遠先求 \(b\) 再求 \(a\)。利用數據的平均值來固定這條直線。


3. 理解殘差

殘差 簡單來說,就是觀測值 (observed value) 與迴歸線預測值 (predicted value) 之間的差值。

公式:
\(Residual = y_{observed} - y_{predicted}\)
或者:\(e_i = y_i - (a + bx_i)\)

為什麼我們關心殘差?

  • 檢查「擬合度」: 如果殘差都很小,說明你的直線是一個很棒的模型。如果殘差很大,說明模型可能不太精確。
  • 尋找異常值 (outliers): 殘差異常大的數據點很可能是異常值。這類點不符合其他數據的趨勢。
  • 優化模型: 如果你發現殘差呈現某種規律(例如呈 U 型),這暗示了直線可能不是最佳選擇——也許曲線擬合效果更好!

類比: 把迴歸線想像成一套訂製西裝。「殘差」就是西裝太緊或太鬆的地方。如果西裝到處都非常合身,那麼殘差就是零!


4. 殘差平方和 (RSS)

殘差平方和 (Residual Sum of Squares, RSS) 給出了一個單一數值,代表直線的總「誤差」。在 Pearson Edexcel 課程中,你獲提供了一個特定公式,讓你無需算出每個殘差也能快速計算出此數值。

公式:

\(RSS = S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)

你知道嗎?
RSS 越小,直線對數據的擬合度就越好。如果 \(RSS = 0\),代表每一個數據點都精確地落在直線之上!

RSS 分步解釋:

1. 求出 \(S_{yy}\)(\(y\) 的總變異量)。
2. 計算 \(\frac{(S_{xy})^2}{S_{xx}}\)(這代表由直線「解釋」的變異量)。
3. 用總變異量減去已解釋的變異量,剩下的就是「未解釋」的變異量,即 RSS

重點提示: RSS 測量的是「未解釋」的變異量。我們要將其最小化,以獲得最佳的線性模型。


5. 模型優化與異常值

線性迴歸不僅僅是把數字代入公式,它還需要你像偵探一樣審視數據。得到直線和殘差後,你應該自問:

這個模型合理嗎?

  • 隨機性: 殘差應該隨機散佈在 x 軸的上方和下方。
  • 異常值: 如果發現某個點的殘差極大,請調查原因。是輸入錯誤?還是該數據點本身非常特殊?剔除異常值可以顯著改變(並往往能提升)迴歸線的準確度。

快速複習盒:
- 迴歸線: \(y = a + bx\)
- 斜率 (\(b\)): \(S_{xy} / S_{xx}\)
- 截距 (\(a\)): \(\bar{y} - b\bar{x}\)
- 殘差: \(實際\ y - 預測\ y\)
- RSS 公式: \(S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)


總結清單

在處理考試題目之前,請確保你能:

  • 寫出最小二乘迴歸線的方程式。
  • 利用摘要統計量計算 \(a\) 和 \(b\)。
  • 在現實情境中解釋 \(a\) 和 \(b\) 的含義。
  • 為給定數據點計算特定的殘差。
  • 計算總 RSS 以評估模型的擬合程度。
  • 根據殘差規律識別異常值或建議模型改進方案。

如果覺得步驟有點多,別擔心!先從掌握 \(b\) 和 \(a\) 的計算開始,剩下的部分自然會水到渠成。你一定能做到的!