線性回歸導論

歡迎來到 Further Statistics 2 (進階統計學 2) 的第一章!別擔心過去是否覺得統計學枯燥乏味;線性回歸 (Linear Regression) 才是我們真正開始運用數據對現實世界進行預測的地方。

簡單來說,線性回歸就是在一組數據點中找到「最佳擬合」直線的藝術。想像一下,你正嘗試根據房屋面積來預測房價。你手頭有一堆數據點,而你希望畫出一條盡可能貼近所有點的直線。這就是線性回歸!在本章中,我們將學習如何精確計算這條直線,更重要的是,如何判斷這條直線是否真的具有參考價值。

你知道嗎?「回歸 (Regression)」一詞由 Francis Galton 在 19 世紀提出。他當時觀察到,身材非常高大的父母,其子女的身高往往會比父母矮一點——即向平均身高「回歸 (regressing)」!


1. 最小二乘法回歸線 (The Least Squares Regression Line)

在標準 A Level 數學中,你已經學過了最佳擬合線。在 Further Mathematics (進階數學) 中,我們使用一種稱為最小二乘法 (Least Squares) 的特定方法來找出最準確的直線。這是針對 y 對 x 的回歸,當我們想通過自變量 (\(x\)) 來預測因變量 (\(y\)) 時,就會用到它。

什麼是「最小二乘法」直線?

想像你的數據點就像是在罐子裡盤旋的螢火蟲。你想將一塊薄玻璃板(即回歸線)滑入罐子中,使其處於螢火蟲的正中間。

對於任何一個點,實際數據點與直線之間都存在一個垂直距離。這個距離稱為殘差 (residual)。有些點在線上方(正殘差),有些則在線下方(負殘差)。為了找到「最佳」直線,我們將所有這些距離進行平方(將其變為正值),然後把它們加起來。而「最小二乘法」直線就是使這個平方和 (sum of squares) 達到最小值的直線。

回歸方程式

\(y\) 對 \(x\) 的回歸線方程式寫為:

\(y = a + bx\)

要計算系數 \(a\) 和 \(b\),我們使用以下標準公式:

  1. 計算斜率 (\(b\)): \(b = \frac{S_{xy}}{S_{xx}}\)
  2. 計算截距 (\(a\)): \(a = \bar{y} - b\bar{x}\)

快速溫習:記得先前統計學學過的:
\(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)
\(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)
\(\bar{x}\) 和 \(\bar{y}\) 分別是 \(x\) 和 \(y\) 數值的平均值。

步驟指南:
1. 計算總結統計量 (\(\sum x, \sum y, \sum x^2, \sum xy, n\))。
2. 找出 \(S_{xx}\) 和 \(S_{xy}\)。
3. 先找出 \(b\)(下一步要用到它!)。
4. 找出平均值 \(\bar{x}\) 和 \(\bar{y}\)。
5. 將這些數值代入 \(a\) 的公式中。
6. 寫下最終方程式:\(y = a + bx\)。

避免常見錯誤:務必先計算 \(b\),再計算 \(a\)。如果你嘗試反過來做,你會發現卡住了,因為 \(a\) 的公式需要用到 \(b\) 的數值!

重點總結:最小二乘法回歸線將數據點到直線的垂直距離(殘差)的平方和減至最小。


2. 理解殘差 (Understanding Residuals)

如前所述,殘差 (residual) 就是特定數據點的「剩餘部分」或誤差。它是實際發生值與我們直線預測值之間的差額。

殘差公式

對於任何特定點 \((x_i, y_i)\),殘差 \(e_i\) 的計算方式為:

\(e_i = y_i - (a + bx_i)\)

簡單來說:殘差 = 觀測值 - 預測值

  • 如果殘差為正值,實際數據點在直線上方(模型低估了)。
  • 如果殘差為負值,實際數據點在直線下方(模型高估了)。
  • 如果殘差為,則該點正好落在直線上。

為什麼我們需要關注殘差?

殘差就像是你數學模型的「健康檢查」。通過觀察殘差,我們可以判斷這條直線是否真的適合這些數據。

記憶小撇步:把回歸線當作減肥計劃,把數據點當作你的實際體重。殘差就是減肥計劃預測你的體重與體重計顯示實際重量之間的差異。如果殘差很大,你可能需要一個更好的計劃!

重點總結:殘差告訴我們,對於每個個別數據點,我們的預測偏差有多大。


3. 殘差平方和 (Residual Sum of Squares, RSS)

單個殘差告訴我們單個點的情況,而殘差平方和 (RSS) 則告訴我們這條線對整組數據的擬合程度。

RSS 是「最小二乘法」努力使其最小化的數值。RSS 越小,說明直線對數據的擬合效果越好。

RSS 公式

在考試中,你不需要推導它,但你必須能夠使用這個標準公式進行計算:

\(RSS = S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)

實用提示:你可能已經注意到 \(\frac{(S_{xy})^2}{S_{xx}}\) 實際上等於 \(b \times S_{xy}\)。因此,你也可以這樣思考:
\(RSS = S_{yy} - bS_{xy}\)

快速溫習框:
RSS 低:點非常接近直線,預測可能很準確。
RSS 高:點分散在離直線較遠的地方,預測可能不可靠。

重點總結:RSS 是一個單一數值,總結了回歸線的總「誤差」。數值越小越好!


4. 模型評估與改良

我們「能」計算出一條回歸線,並不代表我們「就應該」使用它。我們利用殘差來檢查線性模型是否合理。

檢查「合理性」

如果你將殘差繪製在圖表上(即殘差圖 residual plot),你應該尋找的是隨機散佈 (random scatter)

  1. 擬合良好:殘差在零線上下隨機散佈,沒有明顯的形狀。這意味著線性模型是合適的。
  2. 擬合不良(非線性):如果殘差呈現「U」形或曲線狀,則表示真實關係並非直線,可能更適合用二次或指數曲線。
  3. 離群值 (Outliers):與其他點相比,殘差極大的點就是潛在離群值。這是模型出現嚴重偏差的點。

改良模型

如果發現模型效果不佳,我們可以透過以下方式改良 (refine)

  • 移除離群值:如果某個數據點是人為錯誤(例如實驗報告中的打字錯誤),移除它將改變 \(a\) 和 \(b\),並可能減少 RSS。
  • 更換模型:如果殘差顯示出某種規律,我們可能需要進行數據轉換(這將在其他章節介紹),而不是使用簡單的線性回歸。

模型評估總結:
- 利用殘差來找出離群值。
- 利用殘差圖來檢查直線是否為正確的選擇。
- 利用 RSS 來比較不同的模型(通常 RSS 較低者較佳)。

重點總結:務必檢查你的殘差!它們講述了單靠回歸方程式無法呈現的故事。


恭喜!你已經掌握了 Further Statistics 2 中線性回歸的核心概念。繼續練習那些 \(S_{xx}\) 和 \(S_{xy}\) 的計算,很快你就會成為這方面的專家!