線性回歸導論
歡迎來到線性回歸 (Linear Regression) 章節!在之前的學習中,你可能已經習慣用肉眼在散點圖上畫出「最佳擬合線」。在進階數學(Further Mathematics)中,我們要進一步深入探討:學習如何透過數學方法精準計算出一條最能代表兩個變數關係的直線。這能讓我們做出明智的預測,並理解事物之間的相互影響。
線性回歸在現實世界中至關重要——從醫生預測病人的健康狀況,到企業根據廣告投入預測銷售額,應用廣泛。如果一開始覺得有點生澀也不用擔心,我們會把它拆解成簡單且易於掌握的步驟!
1. 誰主導?自變數與應變數
在計算直線之前,我們必須釐清變數的角色。在任何涉及兩個變數(\(x\) 和 \(y\))的實驗或觀察中,通常包含:
- 自變數(或稱控制變數,Independent Variable,\(x\)):這是我們控制或輸入的變數。例如:你投入的溫習時間。
- 應變數(或稱反應變數,Dependent Variable,\(y\)):這是我們測量並觀察其反應的變數。例如:你的考試成績取決於你溫習了多久。
重要提示:有時,變數之間並無嚴格的「控制」關係。例如科學家測量一群人的身高與臂展,兩者並無絕對的因果。但在回歸分析中,我們通常仍會選定其中一個作為預測變數(\(x\)),另一個作為結果變數(\(y\))。
快速複習:坐標軸規則
在散點圖中,務必將自變數放在橫軸(x軸),將應變數放在縱軸(y軸)。
核心觀念:正確判斷哪個是自變數(\(x\))及哪個是應變數(\(y\)),是進行任何回歸分析的第一步。
2. 「最小平方法」的概念
為什麼我們稱所計算的直線為最小平方法回歸線 (Least Squares Regression Line)?想像你在數據點群中畫了一條線,有些點在線上,有些則在線下。點與直線之間的垂直距離稱為殘差 (residual)。
為了找到絕對「最佳」的直線,我們希望殘差儘可能小。但由於有些距離是正數、有些是負數,直接相加會互相抵消。為了解決這個問題,我們將這些距離平方(確保全部為正數),並找出那條能讓殘差平方和最小化的直線。這就是為什麼它被稱為「最小平方法」。
類比:想像數據點就像磁鐵,正在拉扯一根金屬棒(直線)。「最小平方法」直線就是當金屬棒受到所有數據點的「拉力」達到完美平衡時,最終靜止的位置。
3. 計算 \(y\) 對 \(x\) 的回歸線
回歸線的方程式看起來就像你在 GCSE 學過的直線方程式: \( y = a + bx \)
- \(b\) 是斜率 (gradient)(直線的陡峭程度)。
- \(a\) 是y截距 (y-intercept)(直線與 y 軸相交的位置)。
計算步驟
你可以使用摘要數據(如平均值及平方和等統計量),或利用計算機的統計模式直接輸入原始數據進行計算。
步驟 1:計算斜率 (\(b\))
首先,使用以下公式求出 \(b\): \( b = \frac{S_{xy}}{S_{xx}} \)
其中 \(S_{xy}\) 和 \(S_{xx}\) 是你在相關係數章節練習過的平方和。注意:\(b\) 為正值代表正相關,\(b\) 為負值則代表負相關。
步驟 2:計算截距 (\(a\))
一旦得到 \(b\),即可利用 \(x\) 和 \(y\) 的平均值(\(\bar{x}\) 和 \(\bar{y}\))求出 \(a\): \( a = \bar{y} - b\bar{x} \)
你知道嗎?回歸線一定會通過平均值點 \((\bar{x}, \bar{y})\)。這是檢查你的直線在圖表上位置是否正確的好方法!
常見錯誤:
學生有時會誤試著計算「\(x\) 對 \(y\) 的回歸線」。在此課程綱要中,若 \(x\) 為自變數,你只需計算 \(y\) 對 \(x\) 的回歸線,請勿將它們調換!
核心觀念:先求 \(b\),再用它求 \(a\)。最終方程式應始終寫成 \(y = a + bx\) 的形式。
4. 線性編碼的影響
有時為了簡化計算,數據會經過「編碼」處理(例如將每個數值減去 1000 或除以 10),這稱為線性編碼 (Linear Coding)。
如果你改變了數據的單位(例如將米改為厘米),回歸線也會隨之改變。如果你應用了如 \(x_{new} = \frac{x - 10}{2}\) 的編碼,回歸線的斜率和截距也會相應變動。
簡單技巧:如果你獲得了編碼數據的回歸線,而需要求原始回歸線,只需將編碼公式代回 \(y = a + bx\) 方程式中並重新排列即可!
5. 使用回歸線進行預測
求出 \(y = a + bx\) 方程式的最終目的,是為了根據給定的 \(x\) 值來估算 \(y\)。這就像擁有一顆數學水晶球!
內插法 vs. 外推法
- 內插法 (Interpolation):在原始數據範圍之內進行預測。例如:若你的數據涵蓋 5 到 15 歲,預測 10 歲時的情況屬於內插法。這通常較為可靠。
- 外推法 (Extrapolation):在原始數據範圍之外進行預測。例如:使用同樣的數據預測 50 歲的情況。這非常不可靠且具風險,因為數據關係可能在觀察範圍外發生改變。
理解不確定性
即使是「最佳擬合線」也不完美。進行估算時,應結合實際情況解讀:
- 如果相關性極強(點分佈極貼近直線),估算的準確度通常較高。
- 如果相關性較弱,或者你使用的是外推法,那麼估算的不確定性就很高。
快速複習:預測可靠性
可靠 = 強相關 + 內插法
不可靠 = 弱相關 或 外推法
核心觀念:善用回歸線估算 \(y\),但在信任結果前,務必檢查 \(x\) 值是否落在原始數據範圍內!
最終總結清單
- 我是否正確判斷了自變數 (\(x\)) 和 應變數 (\(y\))?
- 我是否在計算截距 (\(a\)) 之前,先計算了斜率 (\(b\))?
- 我的直線是否有通過平均值點 \((\bar{x}, \bar{y})\)?
- 我的預測屬於內插法(範圍內)還是外推法(範圍外)?
- 如果數據經過編碼,我是否已將最終答案轉換回原始單位?