Correlation and linear regression

欢迎来到相关系数与线性回归！

你有没有想过，玩游戏的时间长短与反应速度之间是否真的有关系？或者，户外气温是否能预测冰淇淋店的销量？这正是本章要探讨的内容！我们将寻找两组不同数据之间的关系（relationships），并学习如何运用这些关系来进行精准的预测。

在卷一（Paper 1）中，重点在于使用计算器计算这些数值，更重要的是，诠释（interpreting）它们在现实世界中的含义。别担心课本里的公式看起来很复杂——对于这场考试，你的计算器已经帮你处理掉繁重的计算工作了！

1. 理解相关系数（Correlation）

相关系数（Correlation）用来描述两个变量之间关系的强度和方向。

皮尔逊积差相关系数（Pearson’s Product Moment Correlation Coefficient, 简称 PMCC 或 \(r\)）

这是衡量散点图上的点与直线（straight line）有多接近的指标。

\(r\) 的值：永远落在 -1 到 1 之间。
\(r = 1\)：完全正线性相关（一条完美的向上直线）。
\(r = -1\)：完全负线性相关（一条完美的向下直线）。
\(r = 0\)：完全没有线性相关。

快速回顾：若 \(r = 0.9\)，代表数据点非常接近一条向上的直线。若 \(r = 0.2\)，则代表数据点分布较散，但总体趋势是向上的。

斯皮尔曼等级相关系数（Spearman’s Rank Correlation Coefficient, \(\rho\)）

有时候，数据并非呈现直线，但仍遵循某种趋势（例如：当一个变量增加时，另一个也增加，但呈现曲线形态）。针对这种情况，我们使用斯皮尔曼等级相关系数。我们不使用原始数据，而是将它们进行排序（rank）（第 1 名、第 2 名、第 3 名……）。

如何进行斯皮尔曼排序：

为第一个变量排序（例如：最高分为 1，次高分为 2）。
用同样的方法为第二个变量排序。
并列排名（Tied Ranks）：如果两个项目并列第 3 和第 4 名，给予它们平均排名：\( (3+4) \div 2 = 3.5 \)。
一致性是关键：如果你在第一个变量中将最高分排为“1”，那么在第二个变量中，你也必须将最高分排为“1”！

你知道吗？斯皮尔曼等级相关系数非常适合用于“主观性”数据，例如两位评委在选秀节目中为参赛者评分。即使一位评委给 90/100 分，而另一位给 70/100 分也没关系；只要他们都将同一个人排在第 1 名，斯皮尔曼系数就会显示出完美的相关性！

关键重点：

皮尔逊系数 (\(r\)) 衡量的是线性（直线）关系。斯皮尔曼系数 (\(\rho\)) 衡量的是排名的吻合度（一般趋势），且适用范围更广。

2. 选择合适的方法

在考试中，你可能会被问到为什么选择特定的方法。判断标准如下：

请使用皮尔逊系数 (\(r\))，当：

散点图上的关系看起来是线性的（直线）。
数据来自双变量常态分布（bivariate normal distribution）（这是一种比较高级的说法，意指数据在 3D 绘图时呈“钟形”，或者两个变量都呈常态分布）。

请使用斯皮尔曼系数 (\(\rho\))，当：

数据是非线性的（例如：呈现曲线）。
数据已经是等级（ranks）或属于定性数据（qualitative）（例如：“美味”、“更美味”、“最美味”）。
存在异常值（outliers）。斯皮尔曼系数受单一极端数据点的影响远小于皮尔逊系数。
没有关于数据分布的假设时。

常见错误：学生常忘记皮尔逊系数只能测量直线关系。如果数据形成一个完美的“U”形，皮尔逊 \(r\) 可能为 0，尽管两者之间显然存在关联！

3. 线性回归：最佳拟合线

相关系数告诉我们是否存在关联，而回归（Regression）则为我们提供了进行预测的方程式。标准形式为：

\( y = a + bx \)

\(y\)：应变量（dependent variable）（你试图预测的目标）。
\(x\)：自变量（independent/explanatory variable）（你已知的事实）。
\(a\)：截距（intercept）。当 \(x = 0\) 时的 \(y\) 值。
\(b\)：斜率（gradient）。代表 \(x\) 每增加 1 个单位，\(y\) 会增加（若 \(b\) 为负值则为减少）多少。

步骤解析：
假设冰淇淋销量 (\(y\)) 与气温 (\(x\)) 的方程式为 \( y = 20 + 5x \)：
1. 截距 (20)：意指当气温为 0°C 时，预期可售出 20 份冰淇淋。
2. 斜率 (5)：意指气温每升高 1°C，预期销量会多出 5 份冰淇淋。

别担心：考试要求你使用计算器求出 \(a\) 和 \(b\)。请确保你熟悉如何输入双变量数据（在标准 A-Level 计算器中，通常位于 'STAT' 或 '6' 菜单下）。

4. 预测：安全 vs. 风险

一旦你有了 \( y = a + bx \) 的直线方程式，就可以代入 \(x\) 的值来求出 \(y\)。但要小心！

内插法（Interpolation，较安全）

这指的是你预测的数值位于你现有数据的范围内。如果你测量的气温介于 10°C 到 30°C 之间，预测 20°C 时的情况就属于内插法。这通常相当可靠。

外推法（Extrapolation，危险区）

这指的是你预测的数值位于数据范围之外。如果你的最高数据点是 30°C，却预测 50°C 时的冰淇淋销量，这就是外推法。
为什么有风险？ 因为趋势可能不会延续！在 50°C 时，人们可能选择待在家中不出门，销量反而可能下降。请避免依赖外推法。

关键重点：

内插法 = 数据范围内（可靠）。
外推法 = 数据范围外（不可靠/风险高）。

5. 残差与异常值

残差（residual）就是实际发生值与回归线预测值之间的差额。

\( \text{Residual} = y_i - (a + bx_i) \)

简而言之：残差 = 实际值 - 预测值。

如果残差为正数，代表实际数据点在回归线上方。
如果残差为负数，代表实际数据点在回归线下方。
极大的残差（正或负）通常暗示该数据点可能是一个异常值。

类比：想象你的 GPS 显示车程需要 30 分钟（预测），但实际上却花了 45 分钟（实际）。你的“残差”就是 15 分钟。如果其他路程的误差都在 1 分钟内，那么这 15 分钟的落差就显示该次车程为一个异常值！

快速回顾箱：
- 皮尔逊 \(r\)：线性，范围 -1 到 1。
- 斯皮尔曼 \(\rho\)：排名，非线性趋势。
- 方程式 \(y = a + bx\)：\(a\) 是起点，\(b\) 是变化量。
- 残差：实际值减去预测值。

恭喜！你已经掌握了卷一中相关系数与回归的核心内容。记住：在回答问题时，务必将你的答案结合题目情境进行诠释（记得加上单位，如“公斤”、“公尺”或“英镑”），这样才能拿到最高分！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

Correlation and linear regression

欢迎来到相关系数与线性回归！

1. 理解相关系数（Correlation）

皮尔逊积差相关系数（Pearson’s Product Moment Correlation Coefficient, 简称 PMCC 或 \(r\)）

斯皮尔曼等级相关系数（Spearman’s Rank Correlation Coefficient, \(\rho\)）

关键重点：

2. 选择合适的方法

请使用皮尔逊系数 (\(r\))，当：

请使用斯皮尔曼系数 (\(\rho\))，当：

3. 线性回归：最佳拟合线

4. 预测：安全 vs. 风险

内插法（Interpolation，较安全）

外推法（Extrapolation，危险区）

关键重点：

5. 残差与异常值

准备好测试自己了吗？

更多Statistics (9ST0)章节

立即实践所学