Correlation and regression

欢迎来到相关与回归的世界！

你好，未来的统计学家！本章将带你进入数学与现实世界碰撞的领域。我们不再仅仅停留于描述数据，而是要开始探索一个令人兴奋的问题：“两个不同的事物之间有怎样的联系？我们能否利用其中一个来预测另一个？”

你将学习分析变量间关系的必要工具，例如学习时长如何影响考试成绩，或者气温如何影响冰淇淋的销量。别担心如果一开始觉得有难度；我们会把每一个计算步骤和概念拆解得清清楚楚！

I. 关系可视化：散点图 (Scatter Diagrams)

分析两个变量之间关系的第一步是画图。这种图被称为散点图 (Scatter Diagram)。

什么是散点图？

散点图将成对的数据点 \((x, y)\) 绘制在标准的笛卡尔坐标系上。

自变量 (Independent Variable) (\(x\))：通常绘制在横轴上。这是我们认为可能会对另一个变量产生影响的变量。（可以将其理解为“原因”或“输入”。）
因变量 (Dependent Variable) (\(y\))：绘制在纵轴上。这是其值取决于 \(x\) 的变量。（可以将其理解为“结果”或“输出”。）

II. 量化相关性：积差相关系数 (PMCC, \(r\))

我们对散点图的视觉判断是主观的。为了获得衡量线性相关性的客观数值指标，我们使用积差相关系数 (Product Moment Correlation Coefficient)，通常用 \(r\) 表示。

积差相关系数 (\(r\))

PMCC 是一个衡量线性相关性的强度和方向的数值。

\(r\) 的关键性质

\(r\) 的值必须始终在 \(-1\) 到 \(+1\) 之间（包含边界）：\(-1 \le r \le 1\)。
\(r = +1\) 表示完全正线性相关（所有点完全位于一条向上的直线上）。
\(r = -1\) 表示完全负线性相关（所有点完全位于一条向下的直线上）。
\(r = 0\) 表示无线性相关性。

解读：相关性的强度

我们该如何描述 0 到 1（或 0 到 -1）之间的值呢？

强相关：\(r\) 接近 \(-1\) 或 \(+1\)（例如，\(r = 0.9\) 或 \(r = -0.85\)）。数据点非常接近一条直线。
中等相关：\(r\) 距离 0 有一定距离（例如，\(r = 0.5\) 或 \(r = -0.4\)）。
弱相关：\(r\) 接近 0（例如，\(r = 0.1\) 或 \(r = -0.2\)）。数据点散布很广。

记忆小贴士：把 \(r\) 看作你的“关系状态表”。1 是“完美匹配”，-1 是“完全相反”，0 是“互不相识”。

!!! 重要警告 !!!
PMCC 仅测量线性关系。如果数据形成一条明显的曲线（非线性关系），即使存在很强的关系，\(r\) 也可能接近于零！所以务必先查看散点图。

你知道吗？

PMCC 通常使用汇总统计量 \(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\) 来计算。这些值通常会在考试题目中给出，或者你可以利用计算器的统计功能来求出 \(r\)。完整的公式为： \[\n r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\n \]

III. 线性回归：寻找最佳拟合线

如果我们确定了相关性是强且线性的，我们就可以定义一条最能描述这种关系的直线，这被称为回归线 (Regression Line)。它的主要用途是预测。

\(y\) 对 \(x\) 的回归线

在 S1 课程中，我们重点研究如何通过自变量 \(x\) 来预测因变量 \(y\)。其标准方程形式为：

\[\n\mathbf{y = a + bx}\n\]

\(y\)：因变量的预测值。
\(x\)：用于预测的自变量的值。
\(b\)：直线的斜率 (gradient)。它告诉我们 \(x\) 每增加 1 个单位，\(y\) 变化多少。
\(a\)：\(y\) 轴截距 (y-intercept)。即当 \(x=0\) 时，\(y\) 的预测值。

\(a\) 和 \(b\) 的分步计算

我们需要用到计算 \(r\) 时同样的汇总统计量：\(S_{xx}\) 和 \(S_{xy}\)。

第 1 步：计算斜率 (\(b\))

斜率 \(b\)（回归系数）的公式为： \[\nb = \frac{S_{xy}}{S_{xx}}\n\]

注意：\(b\) 的符号必须与 \(r\) 的符号一致。如果 \(r\) 是正的，\(b\) 也必须是正的（正相关）。

第 2 步：计算 y 轴截距 (\(a\))

回归线始终穿过均值点 \((\bar{x}, \bar{y})\)。我们利用这一事实来求 \(a\)： \[\n\bar{y} = a + b\bar{x}\n\] 重写公式可得： \[\n\mathbf{a = \bar{y} - b\bar{x}}\n\]

常见错误：学生经常混淆 \(b\) 和 \(r\) 的公式。记住，\(b\) 只涉及 \(S_{xy}\) 和 \(S_{xx}\)，而 \(r\) 还需要使用 \(S_{yy}\)。

解释 \(a\) 和 \(b\)

根据背景解释所计算系数的含义非常重要：

\(b\) 的解释：“[自变量 x] 每增加 1 个单位，[因变量 y] 预计增加/减少 \(|b|\) 个单位。”
\(a\) 的解释：“当 [自变量 x] 为零时，[因变量 y] 的预测值为 a。”（小心：在某些背景下，\(x=0\) 可能没有意义，例如预测 0 年工作经验者的薪资）。

重点总结：回归方程

方程 \(y = a + bx\) 是我们预测的工具。我们先计算 \(b\)，然后利用均值 \((\bar{x}, \bar{y})\) 来计算 \(a\)。

IV. 预测的可靠性（内插法与外推法）

得到回归线后，我们可以用它来预测特定 \(x\) 值对应的 \(y\) 值。但这些预测可靠吗？

1. 内插法 (Interpolation)

当我们使用的 \(x\) 值处于原始数据范围之内时，称为内插法。

例子：如果数据集的学习时间范围是 10 到 50 小时，预测学习了 30 小时的人的成绩就是内插。
可靠性：如果 PMCC (\(r\)) 接近 \(+1\) 或 \(-1\)，内插法的预测通常是可靠的。

2. 外推法 (Extrapolation)

当我们使用的 \(x\) 值处于原始数据范围之外（高出或低于数据范围）时，称为外推法。

例子：利用上述数据预测学习 100 小时（或 1 小时）的人的成绩。
可靠性：外推法的预测通常是不可靠的（或有风险的）。我们不能假设这种线性关系在观测到的数据范围之外仍然成立。

类比：如果你有上午 9 点到下午 5 点的气温数据，猜测其间某个时间点的温度就是内插；根据同样的数据去猜测午夜的气温就是外推——此时气候关系可能已经完全改变了！

V. 编码对相关性和回归的影响

有时数据值非常大或非常小，导致计算困难（尽管现代计算器可以轻松处理）。我们使用编码 (coding)（线性变换）来简化数值。

典型的编码关系如：\(p = \frac{x - c}{d}\) 或 \(p = ax + b\)。

1. 对相关性 (PMCC) 的影响

如果变量 \(x\) 和 \(y\) 进行了线性变换（例如 \(x' = ax + b\) 和 \(y' = cy + d\)），PMCC 几乎不受影响。

法则：只要缩放因子 (\(a\) 和 \(c\)) 同时为正或同时为负，\(x\) 和 \(y\) 之间的相关系数 \(r\)，与编码变量 \(x'\) 和 \(y'\) 之间的相关系数 \(r\) 是相同的。

在 S1 课程术语中：除非特别告知某个缩放因子为负（这会反转关系方向），否则我们假设：

编码不会改变 \(r\) 的大小。\(r_{xy} = r_{x'y'}\)。

2. 对回归系数 (\(a\) 和 \(b\)) 的影响

当数据被编码后，回归线确实会发生变化。

如果编码数据的回归线为 \(y' = A + Bx'\)，你必须利用编码关系式来求出原始回归线 \(y = a + bx\)。

示例场景：

假设我们使用了编码：\(x' = 2x - 5\) 和 \(y' = \frac{y}{10}\)。

求得编码后的回归线为 \(y' = 1.5 + 4x'\)。

分步解码：

将编码定义代入编码后的方程： \[\n \frac{y}{10} = 1.5 + 4(2x - 5)\n \]
简化右侧 (RHS)： \[\n \frac{y}{10} = 1.5 + 8x - 20\n \] \[\n \frac{y}{10} = 8x - 18.5\n \]
乘以比例因子 (10) 以分离 \(y\)： \[\n y = 10(8x - 18.5)\n \] \[\n \mathbf{y = 80x - 185}\n \]

这就是原始回归方程（\(a = -185\)，\(b = 80\)）。

编码快速核对

PMCC (\(r\))：保持不变（数值和符号均不变）。
回归 (\(a\) 和 \(b\))：会发生改变。必须通过解码回归到原始变量。

VI. 相关性与因果关系：关键的区别

这是统计学中最重要的概念之一，考官非常喜欢考查这一点！