Correlation and regression 学习笔记

欢迎来到相关与回归的世界！

你有没有想过你的复习时间与考试成绩之间是否有关联？或者长得高的人脚掌是否通常也比较大？在 S1 单元的这一章中，我们将学习如何用数学方法来衡量这些关系。我们将从观察单一组数据，进阶到观察双变量数据 (bivariate data)——这只是“包含两个变量的数据”的一种专业说法。

即使你还觉得自己在“数学方面天分不足”也不用担心。我们会将内容拆解成简单的步骤，从在图表上画点，到利用方程预测未来！

1. 基础知识：变量与散点图

在进行任何计算之前，我们需要知道自己正在看什么。当我们有两个变量时，通常会将它们标记为 x 和 y。

解释变量与反应变量

• 解释变量 (Explanatory Variable, x)：这是自变量。我们认为它可能是导致变化的“原因”。我们总是将它画在横轴 (horizontal axis)上。
• 反应变量 (Response Variable, y)：这是因变量。这是我们用来观察它如何随 x 变化的测量对象。我们将其画在纵轴 (vertical axis)上。

例子：如果你正在研究阳光如何影响植物生长，“阳光”就是解释变量 (x)，而“植物高度”则是反应变量 (y)。

散点图 (Scatter Diagrams)

散点图就是将每一对数据点 \((x, y)\) 作为一个点画在图表上。它能帮助我们直观地看出关系的“形态”。

• 正相关 (Positive Correlation)：点从左到右呈“上升”趋势。当 x 增加，y 也增加。
• 负相关 (Negative Correlation)：点从左到右呈“下降”趋势。当 x 增加，y 减少。
• 无相关 (No Correlation)：点像一群飞虫一样四处散落。没有明显的规律。

快速复习：
记得检查你的坐标轴！x 是用来解释的，y 是用来反应的。

重点总结：散点图是我们观察数据的第一步。它们能在视觉上展示关系的方向（正或负）及强弱。

2. 衡量相关性：积动差相关系数 (PMCC, r)

视觉观察固然好，但数学家更喜欢用数字说话。这个数字就是积动差相关系数 (Product Moment Correlation Coefficient)，简称 r。

'r' 告诉我们什么？

r 的值总是落在 -1 到 +1 之间。
• \(r = +1\)：完全正线性相关（所有点都在一条向上的直线上）。
• \(r = -1\)：完全负线性相关（所有点都在一条向下的直线上）。
• \(r = 0\)：完全没有线性相关。
• 越接近 1 或 -1，关系就越强。

记忆小撇步：把 r 看作“关系的紧密度”。
0.9 是“最好的朋友”（关系强），0.3 是“点头之交”（关系弱），而 0 则是“陌生人”（没有关联）。

常见陷阱：相关性 vs. 因果关系

你知道吗？仅仅因为两件事的 r 值很高，并不代表其中一件事导致了另一件事。例如，冰激凌销量和鲨鱼袭击次数在夏天都会增加。它们是相关的，但吃冰激凌并不会导致鲨鱼袭击！它们两者都是因为受到第三个因素影响：天气炎热。

重点总结：PMCC (r) 衡量的是线性（直线）关系的强弱和方向。它不能证明两者之间存在因果关系！

3. 线性回归：最佳拟合线

如果数据存在线性相关，我们可以在数据中画出一条直线。在 S1 中，我们使用最小二乘回归线 (Least Squares Regression Line)。其方程如下：
\(y = a + bx\)

'a' 和 'b' 代表什么？

• b（斜率）：这告诉我们每当 x 增加 1 个单位时，y 会变化多少。如果 b 是 2，那么每当 x 增加 1，y 就会增加 2。
• a（截距）：这是当 \(x = 0\) 时 y 的值。在现实情境中，这通常是“初始值”。

最小二乘法 (Method of Least Squares)

你不需要推导这些公式，但你需要学会如何从公式手册中使用它们。通常你需要先计算总结统计量：
\(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)
\(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)

然后：
\(b = \frac{S_{xy}}{S_{xx}}\)
\(a = \bar{y} - b\bar{x}\)
（其中 \(\bar{x}\) 和 \(\bar{y}\) 分别是 x 和 y 的平均值）。

步骤说明：绘制回归线
1. 找出平均点 \((\bar{x}, \bar{y})\)。回归线永远会经过这个点。
2. 选取一个 x 的值（例如 \(x=0\) 来求 a），并计算对应的 y 值。
3. 将这两点标出并用尺连接起来。

重点总结：回归线 \(y = a + bx\) 是一个数学模型，用来根据解释变量 (x) 来预测反应变量 (y) 的值。

4. 进行预测：内插法 vs. 外推法

回归线的全部意义在于预测，但我们必须小心！

内插法 (Interpolation - 安全区)

当你利用回归线预测的 x 值位于你现有数据范围之内时，这就是内插法。通常这种预测非常可靠。

外推法 (Extrapolation - 危险区)

当你试图预测的 x 值位于数据范围之外时，这就是外推法。
比喻：如果你测量婴儿从 0 到 1 岁的成长数据，并用那条线去预测他们 50 岁时的身高，你的线可能会算出他们有 10 米高！
常见错误：学生经常盲目相信外推法。在考试中，如果题目问你预测是否可靠，且 x 值在数据范围外，请务必回答：“不可靠，这是外推法 (extrapolation)，可能不准确。”

快速复习：
• 数据范围之内 = 内插法 = 可靠。
• 数据范围之外 = 外推法 = 不可靠。

重点总结：为了确保准确性，只应在原有数据的范围内使用你的回归模型。

5. 编码 (Coding / Change of Variable)

有时候数字太大或小数点太多，我们会使用编码来简化计算（例如 \(p = x - 100\)）。
• 编码不会改变 PMCC (r)。 无论单位如何变化，关系的强弱保持不变。
• 如果你为编码后的数据计算了回归线，记得要代回原式，以便得出原始变量的最终答案。

重点总结：编码只是简化计算的捷径。它会影响回归方程中的 'a' 和 'b' 值，但绝不会改变相关系数 r。

成功小贴士

• 不要慌张：如果公式看起来很可怕，请记住它们都在公式手册里。你只需要知道将哪些数值代入即可。
• 检查正负号：负的 \(S_{xy}\) 意味着负相关。如果你的 r 是负的，但 b 是正的，那你一定计算出错了！
• 情境最重要：在最终解释时，请务必提到现实世界中的变量（例如“体重”和“身高”），而不仅仅是“x”和“y”。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

Correlation and regression