欢迎来到线性回归的世界!

在 A Level 数学中,你可能已经见过用肉眼画出的“最佳拟合线”。在高等数学(Further Mathematics)中,我们会更进一步。我们使用线性回归(Linear Regression)来计算出数学上最完美的最佳拟合线。这让我们能更精确地预测数值并理解两个变量之间的关系。无论是你要预测未来利润还是科学实验的结果,回归分析都是你不可或缺的工具。

如果起初觉得有点复杂,别担心! 我们会一步步拆解,从识别变量到有效利用计算器,让你轻松掌握。


1. 自变量与因变量

在进行任何计算之前,我们必须厘清哪个是哪个。在统计学中,我们通常探讨一件事如何影响另一件事。

  • 自变量 (Independent Variable, \(x\)): 也称为解释变量 (Explanatory)受控变量 (Controlled)。这是我们首先设定或测量的变量。例如:温习的时间。
  • 因变量 (Dependent Variable, \(y\)): 也称为反应变量 (Response)。这是我们测量用以观察变化结果的变量。例如:测试分数。

现实生活例子: 如果你要研究肥料用量如何影响植物生长,肥料用量就是自变量 (\(x\)),因为这取决于你决定给多少;而植物高度就是因变量 (\(y\)),因为它的生长“取决于”肥料。

你知道吗? 有时候,变量之间并没有严格的“受控”关系。例如,如果你测量运动员的手臂长度和腿部长度,两者之间并没有因果关系,但为了找出它们的关系,我们仍然会将其中一个设为 \(x\),另一个设为 \(y\)。

快速复习: 永远将自变量绘制在水平轴 (\(x\)) 上,将因变量绘制在垂直轴 (\(y\)) 上。


2. “最小二乘法”的概念

我们如何判断哪条线才是真正的“最佳”?这就是最小二乘法 (Least Squares) 的用途。

想象一个散点图。对于我们画出的每一条线,每个数据点与直线之间都会有一个垂直距离,这个距离称为残差 (residual)。有些点在线上方(正残差),有些则在下方(负残差)。

为了找到最佳拟合线,我们进行以下步骤:

  1. 将这些残差全部平方(这样负数也会变成正数)。
  2. 将这些平方值全部相加
  3. 找出能让这个平方和 (sum of squares) 达到最小的直线。

类比: 想象每个数据点都通过一根弹簧连接到一根金属杆(即直线)上。金属杆会自然地稳定在一个位置,使所有弹簧的总张力降至最低。这就是你的最小二乘回归线


3. 回归线方程

对于 OCR 课程大纲,y 对 x 的回归线方程写作:

\(y = a + bx\)

其中:

  • b斜率 (gradient)(表示 \(x\) 每增加 1 个单位,\(y\) 的变动量)。
  • ay 截距 (y-intercept)(即当 \(x = 0\) 时 \(y\) 的值)。

如何计算 b 和 a:

你通常会获得如 \(\sum x\)、\(\sum y\)、\(\sum x^2\) 和 \(\sum xy\) 等统计摘要数据。请使用以下公式:

1. 计算 \(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)

2. 计算 \(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)

3. 找出斜率:\(b = \frac{S_{xy}}{S_{xx}}\)

4. 找出截距:\(a = \bar{y} - b\bar{x}\)

(注意:\(\bar{x}\) 和 \(\bar{y}\) 分别是 \(x\) 和 \(y\) 的平均值)

常见错误: 千万不要弄混 \(a\) 和 \(b\)!在纯数学中,我们习惯用 \(y = mx + c\),但在统计学中,我们习惯用 \(y = a + bx\)。请务必仔细阅读计算器输出的数值!

重点提示: 回归线永远会经过“平均点”\((\bar{x}, \bar{y})\)。


4. 线性编码 (Linear Coding)

有时数据值非常大(例如 1,000,005)或非常小(0.00002)。为了简化计算,我们可以使用线性变换来对数据进行“编码”,例如 \(u = \frac{x - c}{d}\)。

如果你计算出编码后数据的回归线(例如 \(v = a' + b'u\)),你可以将编码公式代回方程,从而还原出原始的回归线。

记忆小撇步: 编码就像是更改图表的“比例尺”或“单位”。变量之间的内在关系保持不变,只是数值看起来不一样了!


5. 利用回归线进行估计

我们找出这个方程的主要原因就是为了进行预测。如果我们有某个 \(x\) 的值,就可以将其代入 \(y = a + bx\) 来估计 \(y\)。

内插法 (Interpolation) 与 外推法 (Extrapolation)

  • 内插法: 在原始数据范围之内进行预测。这通常非常可靠。
  • 外推法: 在数据范围之外进行预测。这非常危险且不可靠,因为我们不知道线性趋势是否会无限持续下去。

例子: 如果你测量一个孩子 2 岁到 10 岁身高,你可以准确地预测他 5 岁时的身高(内插法)。然而,若用同一条线来预测他 40 岁时的身高(外推法),那他可能会高达 10 英尺!

关键点: 当题目要求评论估计的可靠性时,检查它是属于内插法还是外推法,并检查相关系数的强弱。


总结清单

1. 识别你的自变量 (\(x\)) 和因变量 (\(y\))。
2. 计算统计摘要数据 (\(S_{xx}\) 和 \(S_{xy}\)),或使用计算器的 1-Var/2-Var 模式。
3. 建立方程 \(y = a + bx\)。
4. 解释 \(a\) 和 \(b\) 在题目背景下的意义(例如:“初始温度为 \(a\),每分钟升高 \(b\) 度”)。
5. 进行估计,但要警惕外推法 (extrapolation)

继续练习吧! 回归分析是统计学中最实用的部分之一,因为几乎所有行业都会用它来制定未来规划。你一定能学好的!