线性回归导论

欢迎来到线性回归 (Linear Regression) 章节!在之前的学习中,你可能已经习惯用肉眼在散点图上画出“最佳拟合线”。在进阶数学(Further Mathematics)中,我们要进一步深入探讨:学习如何通过数学方法精准计算出一条最能代表两个变量关系的直线。这能让我们做出明智的预测,并理解事物之间的相互影响。

线性回归在现实世界中至关重要——从医生预测病人的健康状况,到企业根据广告投入预测销售额,应用广泛。如果一开始觉得有点生涩也不用担心,我们会把它拆解成简单且易于掌握的步骤!

1. 谁主导?自变量与因变量

在计算直线之前,我们必须厘清变量的角色。在任何涉及两个变量(\(x\) 和 \(y\))的实验或观察中,通常包含:

  • 自变量(或称控制变量,Independent Variable,\(x\)):这是我们控制或输入的变量。例如:你投入的复习时间。
  • 因变量(或称响应变量,Dependent Variable,\(y\)):这是我们测量并观察其反应的变量。例如:你的考试成绩取决于你复习了多久。

重要提示:有时,变量之间并无严格的“控制”关系。例如科学家测量一群人的身高与臂展,两者并无绝对的因果。但在回归分析中,我们通常仍会选定其中一个作为预测变量(\(x\)),另一个作为结果变量(\(y\))。

快速复习:坐标轴规则

在散点图中,务必将自变量放在横轴(x轴),将因变量放在纵轴(y轴)

核心观念:正确判断哪个是自变量(\(x\))及哪个是因变量(\(y\)),是进行任何回归分析的第一步。

2. “最小二乘法”的概念

为什么我们称所计算的直线为最小二乘法回归线 (Least Squares Regression Line)?想象你在数据点群中画了一条线,有些点在线上,有些则在线下。点与直线之间的垂直距离称为残差 (residual)

为了找到绝对“最佳”的直线,我们希望残差尽可能小。但由于有些距离是正数、有些是负数,直接相加会互相抵消。为了解决这个问题,我们将这些距离平方(确保全部为正数),并找出那条能让残差平方和最小化的直线。这就是为什么它被称为“最小二乘法”。

类比:想象数据点就像磁铁,正在拉扯一根金属棒(直线)。“最小二乘法”直线就是当金属棒受到所有数据点的“拉力”达到完美平衡时,最终静止的位置。

3. 计算 \(y\) 对 \(x\) 的回归线

回归线的方程式看起来就像你在 GCSE 学过的直线方程式: \( y = a + bx \)

  • \(b\)斜率 (gradient)(直线的陡峭程度)。
  • \(a\)y截距 (y-intercept)(直线与 y 轴相交的位置)。

计算步骤

你可以使用摘要数据(如平均值及平方和等统计量),或利用计算器的统计模式直接输入原始数据进行计算。

步骤 1:计算斜率 (\(b\))

首先,使用以下公式求出 \(b\): \( b = \frac{S_{xy}}{S_{xx}} \)

其中 \(S_{xy}\) 和 \(S_{xx}\) 是你在相关系数章节练习过的平方和。注意:\(b\) 为正值代表正相关,\(b\) 为负值则代表负相关。

步骤 2:计算截距 (\(a\))

一旦得到 \(b\),即可利用 \(x\) 和 \(y\) 的平均值(\(\bar{x}\) 和 \(\bar{y}\))求出 \(a\): \( a = \bar{y} - b\bar{x} \)

你知道吗?回归线一定会通过平均值点 \((\bar{x}, \bar{y})\)。这是检查你的直线在图表上位置是否正确的好方法!

常见错误:

学生有时会误试着计算“\(x\) 对 \(y\) 的回归线”。在此课程纲要中,若 \(x\) 为自变量,你只需计算 \(y\) 对 \(x\) 的回归线,请勿将它们调换!

核心观念:先求 \(b\),再用它求 \(a\)。最终方程式应始终写成 \(y = a + bx\) 的形式。

4. 线性编码的影响

有时为了简化计算,数据会经过“编码”处理(例如将每个数值减去 1000 或除以 10),这称为线性编码 (Linear Coding)

如果你改变了数据的单位(例如将米改为厘米),回归线也会随之改变。如果你应用了如 \(x_{new} = \frac{x - 10}{2}\) 的编码,回归线的斜率和截距也会相应变动。

简单技巧:如果你获得了编码数据的回归线,而需要求原始回归线,只需将编码公式代回 \(y = a + bx\) 方程式中并重新排列即可!

5. 使用回归线进行预测

求出 \(y = a + bx\) 方程式的最终目的,是为了根据给定的 \(x\) 值来估算 \(y\)。这就像拥有一颗数学水晶球!

内插法 vs. 外推法

  • 内插法 (Interpolation):在原始数据范围之内进行预测。例如:若你的数据涵盖 5 到 15 岁,预测 10 岁时的情况属于内插法。这通常较为可靠
  • 外推法 (Extrapolation):在原始数据范围之外进行预测。例如:使用同样的数据预测 50 岁的情况。这非常不可靠具风险,因为数据关系可能在观察范围外发生改变。

理解不确定性

即使是“最佳拟合线”也不完美。进行估算时,应结合实际情况解读:

  • 如果相关性极强(点分布极贴近直线),估算的准确度通常较高。
  • 如果相关性较弱,或者你使用的是外推法,那么估算的不确定性就很高。
快速复习:预测可靠性

可靠 = 强相关 + 内插法
不可靠 = 弱相关 或 外推法

核心观念:善用回归线估算 \(y\),但在信任结果前,务必检查 \(x\) 值是否落在原始数据范围内!

最终总结清单

  • 我是否正确判断了自变量 (\(x\))因变量 (\(y\))
  • 我是否在计算截距 (\(a\)) 之前,先计算了斜率 (\(b\))?
  • 我的直线是否有通过平均值点 \((\bar{x}, \bar{y})\)
  • 我的预测属于内插法(范围内)还是外推法(范围外)?
  • 如果数据经过编码,我是否已将最终答案转换回原始单位?