Linear Regression - Further Mathematics A - H245 - Cambridge OCR A Level

歡迎來到線性回歸的世界！

在 A Level 數學中，你可能已經見過用肉眼畫出的「最佳擬合線」。在高等數學（Further Mathematics）中，我們會更進一步。我們使用線性回歸（Linear Regression）來計算出數學上最完美的最佳擬合線。這讓我們能更精確地預測數值並理解兩個變量之間的關係。無論你是要預測未來利潤還是科學實驗的結果，回歸分析都是你不可或缺的工具。

如果起初覺得有點複雜，別擔心！ 我們會一步步拆解，從識別變量到有效利用計算機，讓你輕鬆掌握。

1. 自變量與因變量

在進行任何計算之前，我們必須釐清哪個是哪個。在統計學中，我們通常探討一件事如何影響另一件事。

自變量 (Independent Variable, \(x\))： 也稱為解釋變量 (Explanatory) 或受控變量 (Controlled)。這是我們首先設定或測量的變量。例如：溫習的時間。
因變量 (Dependent Variable, \(y\))： 也稱為反應變量 (Response)。這是我們測量用以觀察變化結果的變量。例如：測試分數。

現實生活例子： 如果你要研究肥料用量如何影響植物生長，肥料用量就是自變量 (\(x\))，因為這取決於你決定給多少；而植物高度就是因變量 (\(y\))，因為它的生長「取決於」肥料。

你知道嗎？ 有時候，變量之間並沒有嚴格的「受控」關係。例如，如果你測量運動員的手臂長度和腿部長度，兩者之間並沒有因果關係，但為了找出它們的關係，我們仍然會將其中一個設為 \(x\)，另一個設為 \(y\)。

快速溫習： 永遠將自變量繪製在水平軸 (\(x\)) 上，將因變量繪製在垂直軸 (\(y\)) 上。

2. 「最小二乘法」的概念

我們如何判斷哪條線才是真正的「最佳」？這就是最小二乘法 (Least Squares) 的用途。

想像一個散點圖。對於我們畫出的每一條線，每個數據點與直線之間都會有一個垂直距離，這個距離稱為殘差 (residual)。有些點在線上方（正殘差），有些則在下方（負殘差）。

為了找到最佳擬合線，我們進行以下步驟：

將這些殘差全部平方（這樣負數也會變成正數）。
將這些平方值全部相加。
找出能讓這個平方和 (sum of squares) 達到最小的直線。

類比： 想像每個數據點都通過一根彈簧連接到一根金屬桿（即直線）上。金屬桿會自然地穩定在一個位置，使所有彈簧的總張力降至最低。這就是你的最小二乘回歸線！

3. 回歸線方程

對於 OCR 課程大綱，y 對 x 的回歸線方程寫作：

\(y = a + bx\)

其中：

b 是斜率 (gradient)（表示 \(x\) 每增加 1 個單位，\(y\) 的變動量）。
a 是 y 截距 (y-intercept)（即當 \(x = 0\) 時 \(y\) 的值）。

如何計算 b 和 a：

你通常會獲得如 \(\sum x\)、\(\sum y\)、\(\sum x^2\) 和 \(\sum xy\) 等統計摘要數據。請使用以下公式：

1. 計算 \(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)

2. 計算 \(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)

3. 找出斜率：\(b = \frac{S_{xy}}{S_{xx}}\)

4. 找出截距：\(a = \bar{y} - b\bar{x}\)

（注意：\(\bar{x}\) 和 \(\bar{y}\) 分別是 \(x\) 和 \(y\) 的平均值）

常見錯誤： 千萬不要弄混 \(a\) 和 \(b\)！在純數學中，我們習慣用 \(y = mx + c\)，但在統計學中，我們習慣用 \(y = a + bx\)。請務必仔細閱讀計算機輸出的數值！

重點提示： 回歸線永遠會經過「平均點」\((\bar{x}, \bar{y})\)。

4. 線性編碼 (Linear Coding)

有時數據值非常大（例如 1,000,005）或非常小（0.00002）。為了簡化計算，我們可以使用線性變換來對數據進行「編碼」，例如 \(u = \frac{x - c}{d}\)。

如果你計算出編碼後數據的回歸線（例如 \(v = a' + b'u\)），你可以將編碼公式代回方程，從而還原出原始的回歸線。

記憶小撇步： 編碼就像是更改圖表的「比例尺」或「單位」。變量之間的內在關係保持不變，只是數值看起來不一樣了！

5. 利用回歸線進行估計

我們找出這個方程的主要原因就是為了進行預測。如果我們有某個 \(x\) 的值，就可以將其代入 \(y = a + bx\) 來估計 \(y\)。

內插法 (Interpolation) 與外推法 (Extrapolation)

內插法： 在原始數據範圍之內進行預測。這通常非常可靠。
外推法： 在數據範圍之外進行預測。這非常危險且不可靠，因為我們不知道線性趨勢是否會無限持續下去。

例子： 如果你測量一個孩子 2 歲到 10 歲的身高，你可以準確地預測他 5 歲時的身高（內插法）。然而，若用同一條線來預測他 40 歲的身高（外推法），那他可能會高達 10 英尺！

關鍵點： 當題目要求評論估計的可靠性時，檢查它是屬於內插法還是外推法，並檢查相關係數的強弱。

總結清單

1. 識別你的自變量 (\(x\)) 和因變量 (\(y\))。
2. 計算統計摘要數據 (\(S_{xx}\) 和 \(S_{xy}\))，或使用計算機的 1-Var/2-Var 模式。
3. 建立方程 \(y = a + bx\)。
4. 解釋 \(a\) 和 \(b\) 在題目背景下的意義（例如：「初始溫度為 \(a\)，每分鐘升高 \(b\) 度」）。
5. 進行估計，但要警惕外推法 (extrapolation)！

繼續練習吧！ 回歸分析是統計學中最實用的部分之一，因為幾乎所有行業都會用它來制定未來規劃。你一定能學好的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。