简介:欢迎来到预测的世界!
在以往的学习中,你可能试过靠肉眼画出一条「最佳拟合线」(line of best fit)。这固然有用,但比较像是在猜测。在进阶统计学 2 (Further Statistics 2) 中,我们将摆脱凭空猜测,转而使用最小二乘法线性回归 (Least Squares Linear Regression) 来找出数学上最完美的直线。这条直线能让我们以极高的精确度,根据一个变量来预测另一个变量。
无论你是要根据日照时间预测植物生长,还是根据广告支出预测销售增长,本章都将为你提供准确模拟现实世界关系的工具。如果这些公式刚开始看起来有点吓人,不用担心——我们会带你一步步拆解!
1. 最小二乘回归线
线性回归的目标是求出一条直线的方程:\(y = a + bx\)。这条线被称为 \(y\) 对 \(x\) 的回归线 (regression line of y on x)。
这些字母代表什么?
- \(x\): 自变量(解释变量,independent variable)。
- \(y\): 应变量(响应变量,dependent variable)。
- \(b\): 斜率 (gradient)(即 \(x\) 每增加 1 个单位时,\(y\) 的变化量)。
- \(a\): \(y\) 轴截距 (y-intercept)(即当 \(x = 0\) 时 \(y\) 的值)。
「最小二乘法」的概念
为什么叫「最小二乘」?想象一下你的数据点散布在图表上。你画出的任何直线都会有一些「误差」——即实际数据点与直线之间的垂直距离。我们称这个距离为残差 (residual)。
我们想要的直线,是让这些残差平方和 (sum of the squares of these residuals) 达到最小值的直线。我们将残差平方是因为有些点在线上方(正值),有些在下方(负值);平方后它们都会变成正数,这样它们就不会互相抵消了!
小贴士: 回归线永远都会通过平均值点 \((\bar{x}, \bar{y})\)。这是检查你计算出的直线是否合理的绝佳方法!
2. 计算系数 (a 和 b)
要得出 \(y = a + bx\) 的方程,你需要先计算 \(b\),然后再用它求出 \(a\)。你需要用到你的摘要统计量:\(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\)。
步骤 1:计算斜率 (\(b\))
求 \(b\) 的公式为:
\(b = \frac{S_{xy}}{S_{xx}}\)
步骤 2:计算截距 (\(a\))
一旦有了 \(b\),就利用 \(x\) 和 \(y\) 的平均值:
\(a = \bar{y} - b\bar{x}\)
常见错误:
学生经常会弄混 \(S_{xy}\) 和 \(S_{xx}\)。请记住:「x 在分母」。 因为你是根据 \(x\) 来预测 \(y\),所以 \(x\) 的变异量 (\(S_{xx}\)) 就是你的除数。
重点提示: 永远先求 \(b\) 再求 \(a\)。利用数据的平均值来固定这条直线。
3. 理解残差
残差 简单来说,就是观测值 (observed value) 与回归线预测值 (predicted value) 之间的差值。
公式:
\(Residual = y_{observed} - y_{predicted}\)
或者:\(e_i = y_i - (a + bx_i)\)
为什么我们关心残差?
- 检查「拟合度」: 如果残差都很小,说明你的直线是一个很棒的模型。如果残差很大,说明模型可能不太精确。
- 寻找异常值 (outliers): 残差异常大的数据点很可能是异常值。这类点不符合其他数据的趋势。
- 优化模型: 如果你发现残差呈现某种规律(例如呈 U 型),这暗示了直线可能不是最佳选择——也许曲线拟合效果更好!
类比: 把回归线想象成一套订制西装。「残差」就是西装太紧或太松的地方。如果西装到处都非常合身,那么残差就是零!
4. 残差平方和 (RSS)
残差平方和 (Residual Sum of Squares, RSS) 给出了一个单一数值,代表直线的总「误差」。在 Pearson Edexcel 课程中,你获提供了一个特定公式,让你无需算出每个残差也能快速计算出此数值。
公式:
\(RSS = S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)
你知道吗?
RSS 越小,直线对数据的拟合度就越好。如果 \(RSS = 0\),代表每一个数据点都精确地落在直线之上!
RSS 分步解释:
1. 求出 \(S_{yy}\)(\(y\) 的总变异量)。
2. 计算 \(\frac{(S_{xy})^2}{S_{xx}}\)(这代表由直线「解释」的变异量)。
3. 用总变异量减去已解释的变异量,剩下的就是「未解释」的变异量,即 RSS。
重点提示: RSS 测量的是「未解释」的变异量。我们要将其最小化,以获得最佳的线性模型。
5. 模型优化与异常值
线性回归不仅仅是把数字代入公式,它还需要你像侦探一样审视数据。得到直线和残差后,你应该自问:
这个模型合理吗?
- 随机性: 残差应该随机散布在 x 轴的上方和下方。
- 异常值: 如果发现某个点的残差极大,请调查原因。是输入错误?还是该数据点本身非常特殊?剔除异常值可以显著改变(并往往能提升)回归线的准确度。
快速复习盒:
- 回归线: \(y = a + bx\)
- 斜率 (\(b\)): \(S_{xy} / S_{xx}\)
- 截距 (\(a\)): \(\bar{y} - b\bar{x}\)
- 残差: \(实际\ y - 预测\ y\)
- RSS 公式: \(S_{yy} - \frac{(S_{xy})^2}{S_{xx}}\)
总结清单
在处理考试题目之前,请确保你能:
- 写出最小二乘回归线的方程。
- 利用摘要统计量计算 \(a\) 和 \(b\)。
- 在现实情境中解释 \(a\) 和 \(b\) 的含义。
- 为给定数据点计算特定的残差。
- 计算总 RSS 以评估模型的拟合程度。
- 根据残差规律识别异常值或建议模型改进方案。
如果觉得步骤有点多,别担心!先从掌握 \(b\) 和 \(a\) 的计算开始,剩下的部分自然会水到渠成。你一定能做到的!