欢迎来到相关系数与线性回归!
你有没有想过,玩游戏的时间长短与反应速度之间是否真的有关系?或者,户外气温是否能预测冰淇淋店的销量?这正是本章要探讨的内容!我们将寻找两组不同数据之间的关系(relationships),并学习如何运用这些关系来进行精准的预测。
在卷一(Paper 1)中,重点在于使用计算器计算这些数值,更重要的是,诠释(interpreting)它们在现实世界中的含义。别担心课本里的公式看起来很复杂——对于这场考试,你的计算器已经帮你处理掉繁重的计算工作了!
1. 理解相关系数(Correlation)
相关系数(Correlation)用来描述两个变量之间关系的强度和方向。
皮尔逊积差相关系数(Pearson’s Product Moment Correlation Coefficient, 简称 PMCC 或 \(r\))
这是衡量散点图上的点与直线(straight line)有多接近的指标。
- \(r\) 的值:永远落在 -1 到 1 之间。
- \(r = 1\):完全正线性相关(一条完美的向上直线)。
- \(r = -1\):完全负线性相关(一条完美的向下直线)。
- \(r = 0\):完全没有线性相关。
快速回顾:若 \(r = 0.9\),代表数据点非常接近一条向上的直线。若 \(r = 0.2\),则代表数据点分布较散,但总体趋势是向上的。
斯皮尔曼等级相关系数(Spearman’s Rank Correlation Coefficient, \(\rho\))
有时候,数据并非呈现直线,但仍遵循某种趋势(例如:当一个变量增加时,另一个也增加,但呈现曲线形态)。针对这种情况,我们使用斯皮尔曼等级相关系数。我们不使用原始数据,而是将它们进行排序(rank)(第 1 名、第 2 名、第 3 名……)。
如何进行斯皮尔曼排序:
- 为第一个变量排序(例如:最高分为 1,次高分为 2)。
- 用同样的方法为第二个变量排序。
- 并列排名(Tied Ranks):如果两个项目并列第 3 和第 4 名,给予它们平均排名:\( (3+4) \div 2 = 3.5 \)。
- 一致性是关键:如果你在第一个变量中将最高分排为“1”,那么在第二个变量中,你也必须将最高分排为“1”!
你知道吗?斯皮尔曼等级相关系数非常适合用于“主观性”数据,例如两位评委在选秀节目中为参赛者评分。即使一位评委给 90/100 分,而另一位给 70/100 分也没关系;只要他们都将同一个人排在第 1 名,斯皮尔曼系数就会显示出完美的相关性!
关键重点:
皮尔逊系数 (\(r\)) 衡量的是线性(直线)关系。斯皮尔曼系数 (\(\rho\)) 衡量的是排名的吻合度(一般趋势),且适用范围更广。
2. 选择合适的方法
在考试中,你可能会被问到为什么选择特定的方法。判断标准如下:
请使用皮尔逊系数 (\(r\)),当:
- 散点图上的关系看起来是线性的(直线)。
- 数据来自双变量常态分布(bivariate normal distribution)(这是一种比较高级的说法,意指数据在 3D 绘图时呈“钟形”,或者两个变量都呈常态分布)。
请使用斯皮尔曼系数 (\(\rho\)),当:
- 数据是非线性的(例如:呈现曲线)。
- 数据已经是等级(ranks)或属于定性数据(qualitative)(例如:“美味”、“更美味”、“最美味”)。
- 存在异常值(outliers)。斯皮尔曼系数受单一极端数据点的影响远小于皮尔逊系数。
- 没有关于数据分布的假设时。
常见错误:学生常忘记皮尔逊系数只能测量直线关系。如果数据形成一个完美的“U”形,皮尔逊 \(r\) 可能为 0,尽管两者之间显然存在关联!
3. 线性回归:最佳拟合线
相关系数告诉我们是否存在关联,而回归(Regression)则为我们提供了进行预测的方程式。标准形式为:
\( y = a + bx \)
- \(y\):应变量(dependent variable)(你试图预测的目标)。
- \(x\):自变量(independent/explanatory variable)(你已知的事实)。
- \(a\):截距(intercept)。当 \(x = 0\) 时的 \(y\) 值。
- \(b\):斜率(gradient)。代表 \(x\) 每增加 1 个单位,\(y\) 会增加(若 \(b\) 为负值则为减少)多少。
步骤解析:
假设冰淇淋销量 (\(y\)) 与气温 (\(x\)) 的方程式为 \( y = 20 + 5x \):
1. 截距 (20):意指当气温为 0°C 时,预期可售出 20 份冰淇淋。
2. 斜率 (5):意指气温每升高 1°C,预期销量会多出 5 份冰淇淋。
别担心:考试要求你使用计算器求出 \(a\) 和 \(b\)。请确保你熟悉如何输入双变量数据(在标准 A-Level 计算器中,通常位于 'STAT' 或 '6' 菜单下)。
4. 预测:安全 vs. 风险
一旦你有了 \( y = a + bx \) 的直线方程式,就可以代入 \(x\) 的值来求出 \(y\)。但要小心!
内插法(Interpolation,较安全)
这指的是你预测的数值位于你现有数据的范围内。如果你测量的气温介于 10°C 到 30°C 之间,预测 20°C 时的情况就属于内插法。这通常相当可靠。
外推法(Extrapolation,危险区)
这指的是你预测的数值位于数据范围之外。如果你的最高数据点是 30°C,却预测 50°C 时的冰淇淋销量,这就是外推法。
为什么有风险? 因为趋势可能不会延续!在 50°C 时,人们可能选择待在家中不出门,销量反而可能下降。请避免依赖外推法。
关键重点:
内插法 = 数据范围内(可靠)。
外推法 = 数据范围外(不可靠/风险高)。
5. 残差与异常值
残差(residual)就是实际发生值与回归线预测值之间的差额。
\( \text{Residual} = y_i - (a + bx_i) \)
简而言之:残差 = 实际值 - 预测值。
- 如果残差为正数,代表实际数据点在回归线上方。
- 如果残差为负数,代表实际数据点在回归线下方。
- 极大的残差(正或负)通常暗示该数据点可能是一个异常值。
类比:想象你的 GPS 显示车程需要 30 分钟(预测),但实际上却花了 45 分钟(实际)。你的“残差”就是 15 分钟。如果其他路程的误差都在 1 分钟内,那么这 15 分钟的落差就显示该次车程为一个异常值!
快速回顾箱:
- 皮尔逊 \(r\):线性,范围 -1 到 1。
- 斯皮尔曼 \(\rho\):排名,非线性趋势。
- 方程式 \(y = a + bx\):\(a\) 是起点,\(b\) 是变化量。
- 残差:实际值减去预测值。
恭喜!你已经掌握了卷一中相关系数与回归的核心内容。记住:在回答问题时,务必将你的答案结合题目情境进行诠释(记得加上单位,如“公斤”、“公尺”或“英镑”),这样才能拿到最高分!