Linear Regression - Further Mathematics (9FM0) - Pearson Edexcel A Level

線性回歸導論

歡迎來到 Further Statistics 2 (進階統計學 2) 的第一章！別擔心過去是否覺得統計學枯燥乏味；線性回歸 (Linear Regression) 才是我們真正開始運用數據對現實世界進行預測的地方。

簡單來說，線性回歸就是在一組數據點中找到「最佳擬合」直線的藝術。想像一下，你正嘗試根據房屋面積來預測房價。你手頭有一堆數據點，而你希望畫出一條盡可能貼近所有點的直線。這就是線性回歸！在本章中，我們將學習如何精確計算這條直線，更重要的是，如何判斷這條直線是否真的具有參考價值。

你知道嗎？「回歸 (Regression)」一詞由 Francis Galton 在 19 世紀提出。他當時觀察到，身材非常高大的父母，其子女的身高往往會比父母矮一點——即向平均身高「回歸 (regressing)」！

1. 最小二乘法回歸線 (The Least Squares Regression Line)

在標準 A Level 數學中，你已經學過了最佳擬合線。在 Further Mathematics (進階數學) 中，我們使用一種稱為最小二乘法 (Least Squares) 的特定方法來找出最準確的直線。這是針對 y 對 x 的回歸，當我們想通過自變量 (\(x\)) 來預測因變量 (\(y\)) 時，就會用到它。

什麼是「最小二乘法」直線？

想像你的數據點就像是在罐子裡盤旋的螢火蟲。你想將一塊薄玻璃板（即回歸線）滑入罐子中，使其處於螢火蟲的正中間。

對於任何一個點，實際數據點與直線之間都存在一個垂直距離。這個距離稱為殘差 (residual)。有些點在線上方（正殘差），有些則在線下方（負殘差）。為了找到「最佳」直線，我們將所有這些距離進行平方（將其變為正值），然後把它們加起來。而「最小二乘法」直線就是使這個平方和 (sum of squares) 達到最小值的直線。

回歸方程式

\(y\) 對 \(x\) 的回歸線方程式寫為：

\(y = a + bx\)

要計算系數 \(a\) 和 \(b\)，我們使用以下標準公式：

計算斜率 (\(b\))： \(b = \frac{S_{xy}}{S_{xx}}\)
計算截距 (\(a\))： \(a = \bar{y} - b\bar{x}\)

快速溫習：記得先前統計學學過的：
\(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)
\(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)
\(\bar{x}\) 和 \(\bar{y}\) 分別是 \(x\) 和 \(y\) 數值的平均值。

步驟指南：
1. 計算總結統計量 (\(\sum x, \sum y, \sum x^2, \sum xy, n\))。
2. 找出 \(S_{xx}\) 和 \(S_{xy}\)。
3. 先找出 \(b\)（下一步要用到它！）。
4. 找出平均值 \(\bar{x}\) 和 \(\bar{y}\)。
5. 將這些數值代入 \(a\) 的公式中。
6. 寫下最終方程式：\(y = a + bx\)。

避免常見錯誤：務必先計算 \(b\)，再計算 \(a\)。如果你嘗試反過來做，你會發現卡住了，因為 \(a\) 的公式需要用到 \(b\) 的數值！

重點總結：最小二乘法回歸線將數據點到直線的垂直距離（殘差）的平方和減至最小。

2. 理解殘差 (Understanding Residuals)

如前所述，殘差 (residual) 就是特定數據點的「剩餘部分」或誤差。它是實際發生值與我們直線預測值之間的差額。

殘差公式

對於任何特定點 \((x_i, y_i)\)，殘差 \(e_i\) 的計算方式為：

\(e_i = y_i - (a + bx_i)\)

簡單來說：殘差 = 觀測值 - 預測值。

如果殘差為正值，實際數據點在直線上方（模型低估了）。
如果殘差為負值，實際數據點在直線下方（模型高估了）。
如果殘差為零，則該點正好落在直線上。

為什麼我們需要關注殘差？

殘差就像是你數學模型的「健康檢查」。通過觀察殘差，我們可以判斷這條直線是否真的適合這些數據。

記憶小撇步：把回歸線當作減肥計劃，把數據點當作你的實際體重。殘差就是減肥計劃預測你的體重與體重計顯示實際重量之間的差異。如果殘差很大，你可能需要一個更好的計劃！

重點總結：殘差告訴我們，對於每個個別數據點，我們的預測偏差有多大。

3. 殘差平方和 (Residual Sum of Squares, RSS)

單個殘差告訴我們單個點的情況，而殘差平方和 (RSS) 則告訴我們這條線對整組數據的擬合程度。

RSS 是「最小二乘法」努力使其最小化的數值。RSS 越小，說明直線對數據的擬合效果越好。

RSS 公式

在考試中，你不需要推導它，但你必須能夠使用這個標準公式進行計算：

\(RSS = S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)

實用提示：你可能已經注意到 \(\frac{(S_{xy})^2}{S_{xx}}\) 實際上等於 \(b \times S_{xy}\)。因此，你也可以這樣思考：
\(RSS = S_{yy} - bS_{xy}\)

快速溫習框：
RSS 低：點非常接近直線，預測可能很準確。
RSS 高：點分散在離直線較遠的地方，預測可能不可靠。

重點總結：RSS 是一個單一數值，總結了回歸線的總「誤差」。數值越小越好！

4. 模型評估與改良

我們「能」計算出一條回歸線，並不代表我們「就應該」使用它。我們利用殘差來檢查線性模型是否合理。

檢查「合理性」

如果你將殘差繪製在圖表上（即殘差圖 residual plot），你應該尋找的是隨機散佈 (random scatter)。

擬合良好：殘差在零線上下隨機散佈，沒有明顯的形狀。這意味著線性模型是合適的。
擬合不良（非線性）：如果殘差呈現「U」形或曲線狀，則表示真實關係並非直線，可能更適合用二次或指數曲線。
離群值 (Outliers)：與其他點相比，殘差極大的點就是潛在離群值。這是模型出現嚴重偏差的點。

改良模型

如果發現模型效果不佳，我們可以透過以下方式改良 (refine)：

移除離群值：如果某個數據點是人為錯誤（例如實驗報告中的打字錯誤），移除它將改變 \(a\) 和 \(b\)，並可能減少 RSS。
更換模型：如果殘差顯示出某種規律，我們可能需要進行數據轉換（這將在其他章節介紹），而不是使用簡單的線性回歸。

模型評估總結：
- 利用殘差來找出離群值。
- 利用殘差圖來檢查直線是否為正確的選擇。
- 利用 RSS 來比較不同的模型（通常 RSS 較低者較佳）。

重點總結：務必檢查你的殘差！它們講述了單靠回歸方程式無法呈現的故事。

恭喜！你已經掌握了 Further Statistics 2 中線性回歸的核心概念。繼續練習那些 \(S_{xx}\) 和 \(S_{xy}\) 的計算，很快你就會成為這方面的專家！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。