Linear regression - Further Mathematics (8FM0) - Pearson Edexcel AS Level

簡介：歡迎來到預測的世界！

在以往的學習中，你可能試過靠肉眼畫出一條「最佳擬合線」（line of best fit）。這固然有用，但比較像是在猜測。在進階統計學 2 (Further Statistics 2) 中，我們將擺脫憑空猜測，轉而使用最小二乘法線性迴歸 (Least Squares Linear Regression) 來找出數學上最完美的直線。這條直線能讓我們以極高的精確度，根據一個變量來預測另一個變量。

無論你是要根據日照時間預測植物生長，還是根據廣告支出預測銷售增長，本章都將為你提供準確模擬現實世界關係的工具。如果這些公式剛開始看起來有點嚇人，不用擔心——我們會帶你一步步拆解！

1. 最小二乘迴歸線

線性迴歸的目標是求出一條直線的方程式：\(y = a + bx\)。這條線被稱為 \(y\) 對 \(x\) 的迴歸線 (regression line of y on x)。

這些字母代表什麼？

\(x\)： 自變量（解釋變量，independent variable）。
\(y\)： 應變量（響應變量，dependent variable）。
\(b\)： 斜率 (gradient)（即 \(x\) 每增加 1 個單位時，\(y\) 的變化量）。
\(a\)： \(y\) 軸截距 (y-intercept)（即當 \(x = 0\) 時 \(y\) 的值）。

「最小二乘法」的概念

為什麼叫「最小二乘」？想像一下你的數據點散佈在圖表上。你畫出的任何直線都會有一些「誤差」——即實際數據點與直線之間的垂直距離。我們稱這個距離為殘差 (residual)。

我們想要的直線，是讓這些殘差平方和 (sum of the squares of these residuals) 達到最小值的直線。我們將殘差平方是因為有些點在線上方（正值），有些在下方（負值）；平方後它們都會變成正數，這樣它們就不會互相抵消了！

小貼士： 迴歸線永遠都會通過平均值點 \((\bar{x}, \bar{y})\)。這是檢查你計算出的直線是否合理的絕佳方法！

2. 計算係數 (a 和 b)

要得出 \(y = a + bx\) 的方程式，你需要先計算 \(b\)，然後再用它求出 \(a\)。你需要用到你的摘要統計量：\(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\)。

步驟 1：計算斜率 (\(b\))

求 \(b\) 的公式為：
\(b = \frac{S_{xy}}{S_{xx}}\)

步驟 2：計算截距 (\(a\))

一旦有了 \(b\)，就利用 \(x\) 和 \(y\) 的平均值：
\(a = \bar{y} - b\bar{x}\)

常見錯誤：

學生經常會弄混 \(S_{xy}\) 和 \(S_{xx}\)。請記住：「x 在分母」。 因為你是根據 \(x\) 來預測 \(y\)，所以 \(x\) 的變異量 (\(S_{xx}\)) 就是你的除數。

重點提示： 永遠先求 \(b\) 再求 \(a\)。利用數據的平均值來固定這條直線。

3. 理解殘差

殘差簡單來說，就是觀測值 (observed value) 與迴歸線預測值 (predicted value) 之間的差值。

公式：
\(Residual = y_{observed} - y_{predicted}\)
或者：\(e_i = y_i - (a + bx_i)\)

為什麼我們關心殘差？

檢查「擬合度」： 如果殘差都很小，說明你的直線是一個很棒的模型。如果殘差很大，說明模型可能不太精確。
尋找異常值 (outliers)： 殘差異常大的數據點很可能是異常值。這類點不符合其他數據的趨勢。
優化模型： 如果你發現殘差呈現某種規律（例如呈 U 型），這暗示了直線可能不是最佳選擇——也許曲線擬合效果更好！

類比： 把迴歸線想像成一套訂製西裝。「殘差」就是西裝太緊或太鬆的地方。如果西裝到處都非常合身，那麼殘差就是零！

4. 殘差平方和 (RSS)

殘差平方和 (Residual Sum of Squares, RSS) 給出了一個單一數值，代表直線的總「誤差」。在 Pearson Edexcel 課程中，你獲提供了一個特定公式，讓你無需算出每個殘差也能快速計算出此數值。

公式：

\(RSS = S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)

你知道嗎？
RSS 越小，直線對數據的擬合度就越好。如果 \(RSS = 0\)，代表每一個數據點都精確地落在直線之上！

RSS 分步解釋：

1. 求出 \(S_{yy}\)（\(y\) 的總變異量）。
2. 計算 \(\frac{(S_{xy})^2}{S_{xx}}\)（這代表由直線「解釋」的變異量）。
3. 用總變異量減去已解釋的變異量，剩下的就是「未解釋」的變異量，即 RSS。

重點提示： RSS 測量的是「未解釋」的變異量。我們要將其最小化，以獲得最佳的線性模型。

5. 模型優化與異常值

線性迴歸不僅僅是把數字代入公式，它還需要你像偵探一樣審視數據。得到直線和殘差後，你應該自問：

這個模型合理嗎？

隨機性： 殘差應該隨機散佈在 x 軸的上方和下方。
異常值： 如果發現某個點的殘差極大，請調查原因。是輸入錯誤？還是該數據點本身非常特殊？剔除異常值可以顯著改變（並往往能提升）迴歸線的準確度。

快速複習盒：
- 迴歸線： \(y = a + bx\)
- 斜率 (\(b\))： \(S_{xy} / S_{xx}\)
- 截距 (\(a\))： \(\bar{y} - b\bar{x}\)
- 殘差： \(實際\ y - 預測\ y\)
- RSS 公式： \(S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)

總結清單

在處理考試題目之前，請確保你能：

寫出最小二乘迴歸線的方程式。
利用摘要統計量計算 \(a\) 和 \(b\)。
在現實情境中解釋 \(a\) 和 \(b\) 的含義。
為給定數據點計算特定的殘差。
計算總 RSS 以評估模型的擬合程度。
根據殘差規律識別異常值或建議模型改進方案。

如果覺得步驟有點多，別擔心！先從掌握 \(b\) 和 \(a\) 的計算開始，剩下的部分自然會水到渠成。你一定能做到的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。