歡迎來到線性回歸的世界!
在 A Level 數學中,你可能已經見過用肉眼畫出的「最佳擬合線」。在高等數學(Further Mathematics)中,我們會更進一步。我們使用線性回歸(Linear Regression)來計算出數學上最完美的最佳擬合線。這讓我們能更精確地預測數值並理解兩個變量之間的關係。無論你是要預測未來利潤還是科學實驗的結果,回歸分析都是你不可或缺的工具。
如果起初覺得有點複雜,別擔心! 我們會一步步拆解,從識別變量到有效利用計算機,讓你輕鬆掌握。
1. 自變量與因變量
在進行任何計算之前,我們必須釐清哪個是哪個。在統計學中,我們通常探討一件事如何影響另一件事。
- 自變量 (Independent Variable, \(x\)): 也稱為解釋變量 (Explanatory) 或受控變量 (Controlled)。這是我們首先設定或測量的變量。例如:溫習的時間。
- 因變量 (Dependent Variable, \(y\)): 也稱為反應變量 (Response)。這是我們測量用以觀察變化結果的變量。例如:測試分數。
現實生活例子: 如果你要研究肥料用量如何影響植物生長,肥料用量就是自變量 (\(x\)),因為這取決於你決定給多少;而植物高度就是因變量 (\(y\)),因為它的生長「取決於」肥料。
你知道嗎? 有時候,變量之間並沒有嚴格的「受控」關係。例如,如果你測量運動員的手臂長度和腿部長度,兩者之間並沒有因果關係,但為了找出它們的關係,我們仍然會將其中一個設為 \(x\),另一個設為 \(y\)。
快速溫習: 永遠將自變量繪製在水平軸 (\(x\)) 上,將因變量繪製在垂直軸 (\(y\)) 上。
2. 「最小二乘法」的概念
我們如何判斷哪條線才是真正的「最佳」?這就是最小二乘法 (Least Squares) 的用途。
想像一個散點圖。對於我們畫出的每一條線,每個數據點與直線之間都會有一個垂直距離,這個距離稱為殘差 (residual)。有些點在線上方(正殘差),有些則在下方(負殘差)。
為了找到最佳擬合線,我們進行以下步驟:
- 將這些殘差全部平方(這樣負數也會變成正數)。
- 將這些平方值全部相加。
- 找出能讓這個平方和 (sum of squares) 達到最小的直線。
類比: 想像每個數據點都通過一根彈簧連接到一根金屬桿(即直線)上。金屬桿會自然地穩定在一個位置,使所有彈簧的總張力降至最低。這就是你的最小二乘回歸線!
3. 回歸線方程
對於 OCR 課程大綱,y 對 x 的回歸線方程寫作:
\(y = a + bx\)
其中:
- b 是斜率 (gradient)(表示 \(x\) 每增加 1 個單位,\(y\) 的變動量)。
- a 是 y 截距 (y-intercept)(即當 \(x = 0\) 時 \(y\) 的值)。
如何計算 b 和 a:
你通常會獲得如 \(\sum x\)、\(\sum y\)、\(\sum x^2\) 和 \(\sum xy\) 等統計摘要數據。請使用以下公式:
1. 計算 \(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)
2. 計算 \(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)
3. 找出斜率:\(b = \frac{S_{xy}}{S_{xx}}\)
4. 找出截距:\(a = \bar{y} - b\bar{x}\)
(注意:\(\bar{x}\) 和 \(\bar{y}\) 分別是 \(x\) 和 \(y\) 的平均值)
常見錯誤: 千萬不要弄混 \(a\) 和 \(b\)!在純數學中,我們習慣用 \(y = mx + c\),但在統計學中,我們習慣用 \(y = a + bx\)。請務必仔細閱讀計算機輸出的數值!
重點提示: 回歸線永遠會經過「平均點」\((\bar{x}, \bar{y})\)。
4. 線性編碼 (Linear Coding)
有時數據值非常大(例如 1,000,005)或非常小(0.00002)。為了簡化計算,我們可以使用線性變換來對數據進行「編碼」,例如 \(u = \frac{x - c}{d}\)。
如果你計算出編碼後數據的回歸線(例如 \(v = a' + b'u\)),你可以將編碼公式代回方程,從而還原出原始的回歸線。
記憶小撇步: 編碼就像是更改圖表的「比例尺」或「單位」。變量之間的內在關係保持不變,只是數值看起來不一樣了!
5. 利用回歸線進行估計
我們找出這個方程的主要原因就是為了進行預測。如果我們有某個 \(x\) 的值,就可以將其代入 \(y = a + bx\) 來估計 \(y\)。
內插法 (Interpolation) 與 外推法 (Extrapolation)
- 內插法: 在原始數據範圍之內進行預測。這通常非常可靠。
- 外推法: 在數據範圍之外進行預測。這非常危險且不可靠,因為我們不知道線性趨勢是否會無限持續下去。
例子: 如果你測量一個孩子 2 歲到 10 歲的身高,你可以準確地預測他 5 歲時的身高(內插法)。然而,若用同一條線來預測他 40 歲的身高(外推法),那他可能會高達 10 英尺!
關鍵點: 當題目要求評論估計的可靠性時,檢查它是屬於內插法還是外推法,並檢查相關係數的強弱。
總結清單
1. 識別你的自變量 (\(x\)) 和因變量 (\(y\))。
2. 計算統計摘要數據 (\(S_{xx}\) 和 \(S_{xy}\)),或使用計算機的 1-Var/2-Var 模式。
3. 建立方程 \(y = a + bx\)。
4. 解釋 \(a\) 和 \(b\) 在題目背景下的意義(例如:「初始溫度為 \(a\),每分鐘升高 \(b\) 度」)。
5. 進行估計,但要警惕外推法 (extrapolation)!
繼續練習吧! 回歸分析是統計學中最實用的部分之一,因為幾乎所有行業都會用它來制定未來規劃。你一定能學好的!