欢迎来到相关系数与线性回归!

你有没有想过,玩游戏的时间长短与反应速度之间是否真的有关系?或者,户外气温是否能预测冰淇淋店的销量?这正是本章要探讨的内容!我们将寻找两组不同数据之间的关系(relationships),并学习如何运用这些关系来进行精准的预测。

卷一(Paper 1)中,重点在于使用计算器计算这些数值,更重要的是,诠释(interpreting)它们在现实世界中的含义。别担心课本里的公式看起来很复杂——对于这场考试,你的计算器已经帮你处理掉繁重的计算工作了!


1. 理解相关系数(Correlation)

相关系数(Correlation)用来描述两个变量之间关系的强度和方向。

皮尔逊积差相关系数(Pearson’s Product Moment Correlation Coefficient, 简称 PMCC 或 \(r\))

这是衡量散点图上的点与直线(straight line)有多接近的指标。

  • \(r\) 的值:永远落在 -1 到 1 之间。
  • \(r = 1\):完全正线性相关(一条完美的向上直线)。
  • \(r = -1\):完全负线性相关(一条完美的向下直线)。
  • \(r = 0\):完全没有线性相关。

快速回顾:若 \(r = 0.9\),代表数据点非常接近一条向上的直线。若 \(r = 0.2\),则代表数据点分布较散,但总体趋势是向上的。

斯皮尔曼等级相关系数(Spearman’s Rank Correlation Coefficient, \(\rho\))

有时候,数据并非呈现直线,但仍遵循某种趋势(例如:当一个变量增加时,另一个也增加,但呈现曲线形态)。针对这种情况,我们使用斯皮尔曼等级相关系数。我们不使用原始数据,而是将它们进行排序(rank)(第 1 名、第 2 名、第 3 名……)。

如何进行斯皮尔曼排序:

  1. 为第一个变量排序(例如:最高分为 1,次高分为 2)。
  2. 用同样的方法为第二个变量排序。
  3. 并列排名(Tied Ranks):如果两个项目并列第 3 和第 4 名,给予它们平均排名:\( (3+4) \div 2 = 3.5 \)。
  4. 一致性是关键:如果你在第一个变量中将最高分排为“1”,那么在第二个变量中,你也必须将最高分排为“1”!

你知道吗?斯皮尔曼等级相关系数非常适合用于“主观性”数据,例如两位评委在选秀节目中为参赛者评分。即使一位评委给 90/100 分,而另一位给 70/100 分也没关系;只要他们都将同一个人排在第 1 名,斯皮尔曼系数就会显示出完美的相关性!

关键重点:

皮尔逊系数 (\(r\)) 衡量的是线性(直线)关系。斯皮尔曼系数 (\(\rho\)) 衡量的是排名的吻合度(一般趋势),且适用范围更广。


2. 选择合适的方法

在考试中,你可能会被问到为什么选择特定的方法。判断标准如下:

请使用皮尔逊系数 (\(r\)),当:

  • 散点图上的关系看起来是线性的(直线)。
  • 数据来自双变量常态分布(bivariate normal distribution)(这是一种比较高级的说法,意指数据在 3D 绘图时呈“钟形”,或者两个变量都呈常态分布)。

请使用斯皮尔曼系数 (\(\rho\)),当:

  • 数据是非线性的(例如:呈现曲线)。
  • 数据已经是等级(ranks)或属于定性数据(qualitative)(例如:“美味”、“更美味”、“最美味”)。
  • 存在异常值(outliers)。斯皮尔曼系数受单一极端数据点的影响远小于皮尔逊系数。
  • 没有关于数据分布的假设时。

常见错误:学生常忘记皮尔逊系数能测量直线关系。如果数据形成一个完美的“U”形,皮尔逊 \(r\) 可能为 0,尽管两者之间显然存在关联!


3. 线性回归:最佳拟合线

相关系数告诉我们是否存在关联,而回归(Regression)则为我们提供了进行预测的方程式。标准形式为:

\( y = a + bx \)

  • \(y\):应变量(dependent variable)(你试图预测的目标)。
  • \(x\):自变量(independent/explanatory variable)(你已知的事实)。
  • \(a\):截距(intercept)。当 \(x = 0\) 时的 \(y\) 值。
  • \(b\):斜率(gradient)。代表 \(x\) 每增加 1 个单位,\(y\) 会增加(若 \(b\) 为负值则为减少)多少。

步骤解析:
假设冰淇淋销量 (\(y\)) 与气温 (\(x\)) 的方程式为 \( y = 20 + 5x \):
1. 截距 (20):意指当气温为 0°C 时,预期可售出 20 份冰淇淋。
2. 斜率 (5):意指气温每升高 1°C,预期销量会多出 5 份冰淇淋。

别担心:考试要求你使用计算器求出 \(a\) 和 \(b\)。请确保你熟悉如何输入双变量数据(在标准 A-Level 计算器中,通常位于 'STAT' 或 '6' 菜单下)。


4. 预测:安全 vs. 风险

一旦你有了 \( y = a + bx \) 的直线方程式,就可以代入 \(x\) 的值来求出 \(y\)。但要小心!

内插法(Interpolation,较安全)

这指的是你预测的数值位于你现有数据的范围内。如果你测量的气温介于 10°C 到 30°C 之间,预测 20°C 时的情况就属于内插法。这通常相当可靠。

外推法(Extrapolation,危险区)

这指的是你预测的数值位于数据范围之外。如果你的最高数据点是 30°C,却预测 50°C 时的冰淇淋销量,这就是外推法
为什么有风险? 因为趋势可能不会延续!在 50°C 时,人们可能选择待在家中不出门,销量反而可能下降。请避免依赖外推法。

关键重点:

内插法 = 数据范围内(可靠)。
外推法 = 数据范围外(不可靠/风险高)。


5. 残差与异常值

残差(residual)就是实际发生值与回归线预测值之间的差额。

\( \text{Residual} = y_i - (a + bx_i) \)

简而言之:残差 = 实际值 - 预测值

  • 如果残差为正数,代表实际数据点在回归线上方
  • 如果残差为负数,代表实际数据点在回归线下方
  • 极大的残差(正或负)通常暗示该数据点可能是一个异常值

类比:想象你的 GPS 显示车程需要 30 分钟(预测),但实际上却花了 45 分钟(实际)。你的“残差”就是 15 分钟。如果其他路程的误差都在 1 分钟内,那么这 15 分钟的落差就显示该次车程为一个异常值!

快速回顾箱:
- 皮尔逊 \(r\):线性,范围 -1 到 1。
- 斯皮尔曼 \(\rho\):排名,非线性趋势。
- 方程式 \(y = a + bx\):\(a\) 是起点,\(b\) 是变化量。
- 残差:实际值减去预测值。


恭喜!你已经掌握了卷一中相关系数与回归的核心内容。记住:在回答问题时,务必将你的答案结合题目情境进行诠释(记得加上单位,如“公斤”、“公尺”或“英镑”),这样才能拿到最高分!