欢迎来到相关与回归的世界!

你好,未来的统计学家!本章将带你进入数学与现实世界碰撞的领域。我们不再仅仅停留于描述数据,而是要开始探索一个令人兴奋的问题:“两个不同的事物之间有怎样的联系?我们能否利用其中一个来预测另一个?”

你将学习分析变量间关系的必要工具,例如学习时长如何影响考试成绩,或者气温如何影响冰淇淋的销量。别担心如果一开始觉得有难度;我们会把每一个计算步骤和概念拆解得清清楚楚!


I. 关系可视化:散点图 (Scatter Diagrams)

分析两个变量之间关系的第一步是画图。这种图被称为散点图 (Scatter Diagram)

什么是散点图?

散点图将成对的数据点 \((x, y)\) 绘制在标准的笛卡尔坐标系上。

  • 自变量 (Independent Variable) (\(x\)):通常绘制在横轴上。这是我们认为可能会对另一个变量产生影响的变量。(可以将其理解为“原因”或“输入”。)
  • 因变量 (Dependent Variable) (\(y\)):绘制在纵轴上。这是其值取决于 \(x\) 的变量。(可以将其理解为“结果”或“输出”。)
相关性的类型

通过观察点形成的规律,我们可以描述相关性 (correlation),即变量间线性关系的强度和方向。

1. 正相关 (Positive Correlation)

  • 随着 \(x\) 的增加,\(y\) 也趋于增加。
  • 数据点总体上从左下向右上倾斜。
  • 例子:跑步时间越长,跑过的距离就越远。

2. 负相关 (Negative Correlation)

  • 随着 \(x\) 的增加,\(y\) 趋于减少。
  • 数据点总体上从左上向右下倾斜。
  • 例子:汽车车龄越老,转售价值越低。

3. 零相关或不相关 (Zero or No Correlation)

  • \(x\) 和 \(y\) 之间没有明显的规律或关系。
  • 数据点随机散布。
  • 例子:人的身高和他们拥有的宠物数量。
快速回顾:可视化解读

我们使用散点图来确定关系的方向(正或负)以及强度(数据点分布的紧密程度)。


II. 量化相关性:积差相关系数 (PMCC, \(r\))

我们对散点图的视觉判断是主观的。为了获得衡量线性相关性的客观数值指标,我们使用积差相关系数 (Product Moment Correlation Coefficient),通常用 \(r\) 表示。

积差相关系数 (\(r\))

PMCC 是一个衡量线性相关性的强度和方向的数值。

\(r\) 的关键性质
  1. \(r\) 的值必须始终在 \(-1\) 到 \(+1\) 之间(包含边界):\(-1 \le r \le 1\)
  2. \(r = +1\) 表示完全正线性相关(所有点完全位于一条向上的直线上)。
  3. \(r = -1\) 表示完全负线性相关(所有点完全位于一条向下的直线上)。
  4. \(r = 0\) 表示无线性相关性

解读:相关性的强度

我们该如何描述 0 到 1(或 0 到 -1)之间的值呢?

  • 强相关:\(r\) 接近 \(-1\) 或 \(+1\)(例如,\(r = 0.9\) 或 \(r = -0.85\))。数据点非常接近一条直线。
  • 中等相关:\(r\) 距离 0 有一定距离(例如,\(r = 0.5\) 或 \(r = -0.4\))。
  • 弱相关:\(r\) 接近 0(例如,\(r = 0.1\) 或 \(r = -0.2\))。数据点散布很广。

记忆小贴士:把 \(r\) 看作你的“关系状态表”。1 是“完美匹配”,-1 是“完全相反”,0 是“互不相识”。

!!! 重要警告 !!!
PMCC 仅测量线性关系。如果数据形成一条明显的曲线(非线性关系),即使存在很强的关系,\(r\) 也可能接近于零!所以务必先查看散点图。

你知道吗?

PMCC 通常使用汇总统计量 \(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\) 来计算。这些值通常会在考试题目中给出,或者你可以利用计算器的统计功能来求出 \(r\)。完整的公式为: \[\n r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\n \]


III. 线性回归:寻找最佳拟合线

如果我们确定了相关性是强且线性的,我们就可以定义一条最能描述这种关系的直线,这被称为回归线 (Regression Line)。它的主要用途是预测

\(y\) 对 \(x\) 的回归线

在 S1 课程中,我们重点研究如何通过自变量 \(x\) 来预测因变量 \(y\)。其标准方程形式为:

\[\n\mathbf{y = a + bx}\n\]

  • \(y\):因变量的预测值。
  • \(x\):用于预测的自变量的值。
  • \(b\):直线的斜率 (gradient)。它告诉我们 \(x\) 每增加 1 个单位,\(y\) 变化多少。
  • \(a\)\(y\) 轴截距 (y-intercept)。即当 \(x=0\) 时,\(y\) 的预测值。
\(a\) 和 \(b\) 的分步计算

我们需要用到计算 \(r\) 时同样的汇总统计量:\(S_{xx}\) 和 \(S_{xy}\)。

第 1 步:计算斜率 (\(b\))

斜率 \(b\)(回归系数)的公式为: \[\nb = \frac{S_{xy}}{S_{xx}}\n\]

注意:\(b\) 的符号必须与 \(r\) 的符号一致。如果 \(r\) 是正的,\(b\) 也必须是正的(正相关)。

第 2 步:计算 y 轴截距 (\(a\))

回归线始终穿过均值点 \((\bar{x}, \bar{y})\)。我们利用这一事实来求 \(a\): \[\n\bar{y} = a + b\bar{x}\n\] 重写公式可得: \[\n\mathbf{a = \bar{y} - b\bar{x}}\n\]

常见错误:学生经常混淆 \(b\) 和 \(r\) 的公式。记住,\(b\) 只涉及 \(S_{xy}\) 和 \(S_{xx}\),而 \(r\) 还需要使用 \(S_{yy}\)。

解释 \(a\) 和 \(b\)

根据背景解释所计算系数的含义非常重要:

  • \(b\) 的解释:“[自变量 x] 每增加 1 个单位,[因变量 y] 预计增加/减少 \(|b|\) 个单位。”
  • \(a\) 的解释:“当 [自变量 x] 为零时,[因变量 y] 的预测值为 a。”(小心:在某些背景下,\(x=0\) 可能没有意义,例如预测 0 年工作经验者的薪资)。
重点总结:回归方程

方程 \(y = a + bx\) 是我们预测的工具。我们先计算 \(b\),然后利用均值 \((\bar{x}, \bar{y})\) 来计算 \(a\)。


IV. 预测的可靠性(内插法与外推法)

得到回归线后,我们可以用它来预测特定 \(x\) 值对应的 \(y\) 值。但这些预测可靠吗?

1. 内插法 (Interpolation)

当我们使用的 \(x\) 值处于原始数据范围之内时,称为内插法。

  • 例子:如果数据集的学习时间范围是 10 到 50 小时,预测学习了 30 小时的人的成绩就是内插。
  • 可靠性:如果 PMCC (\(r\)) 接近 \(+1\) 或 \(-1\),内插法的预测通常是可靠的

2. 外推法 (Extrapolation)

当我们使用的 \(x\) 值处于原始数据范围之外(高出或低于数据范围)时,称为外推法。

  • 例子:利用上述数据预测学习 100 小时(或 1 小时)的人的成绩。
  • 可靠性:外推法的预测通常是不可靠的(或有风险的)。我们不能假设这种线性关系在观测到的数据范围之外仍然成立。

类比:如果你有上午 9 点到下午 5 点的气温数据,猜测其间某个时间点的温度就是内插;根据同样的数据去猜测午夜的气温就是外推——此时气候关系可能已经完全改变了!


V. 编码对相关性和回归的影响

有时数据值非常大或非常小,导致计算困难(尽管现代计算器可以轻松处理)。我们使用编码 (coding)(线性变换)来简化数值。

典型的编码关系如:\(p = \frac{x - c}{d}\) 或 \(p = ax + b\)。

1. 对相关性 (PMCC) 的影响

如果变量 \(x\) 和 \(y\) 进行了线性变换(例如 \(x' = ax + b\) 和 \(y' = cy + d\)),PMCC 几乎不受影响。

法则:只要缩放因子 (\(a\) 和 \(c\)) 同时为正或同时为负,\(x\) 和 \(y\) 之间的相关系数 \(r\),与编码变量 \(x'\) 和 \(y'\) 之间的相关系数 \(r\) 是相同的。

在 S1 课程术语中:除非特别告知某个缩放因子为负(这会反转关系方向),否则我们假设:

编码不会改变 \(r\) 的大小。\(r_{xy} = r_{x'y'}\)。

2. 对回归系数 (\(a\) 和 \(b\)) 的影响

当数据被编码后,回归线确实会发生变化

如果编码数据的回归线为 \(y' = A + Bx'\),你必须利用编码关系式来求出原始回归线 \(y = a + bx\)。

示例场景:

假设我们使用了编码:\(x' = 2x - 5\) 和 \(y' = \frac{y}{10}\)。

求得编码后的回归线为 \(y' = 1.5 + 4x'\)。

分步解码:

  1. 将编码定义代入编码后的方程: \[\n \frac{y}{10} = 1.5 + 4(2x - 5)\n \]
  2. 简化右侧 (RHS): \[\n \frac{y}{10} = 1.5 + 8x - 20\n \] \[\n \frac{y}{10} = 8x - 18.5\n \]
  3. 乘以比例因子 (10) 以分离 \(y\): \[\n y = 10(8x - 18.5)\n \] \[\n \mathbf{y = 80x - 185}\n \]

这就是原始回归方程(\(a = -185\),\(b = 80\))。

编码快速核对
  • PMCC (\(r\)):保持不变(数值和符号均不变)。
  • 回归 (\(a\) 和 \(b\)):会发生改变。必须通过解码回归到原始变量。

VI. 相关性与因果关系:关键的区别

这是统计学中最重要的概念之一,考官非常喜欢考查这一点!

相关性不等于因果关系

仅仅因为两个变量表现出强相关性(\(r\) 接近 \(\pm 1\)),并不一定意味着一个变量导致了另一个变量

现实世界类比:

想象一下,一年中某城市的冰淇淋销量犯罪案件数量之间存在强正相关。

吃冰淇淋会导致犯罪吗?当然不是!

这种关系很可能是由第三个变量引起的,通常称为混杂变量 (confounding variable)。在这个例子中,混杂变量是气温。高温增加了冰淇淋的销量和户外活动,而户外活动增加往往伴随着犯罪率的升高。

什么时候我们可以建议存在因果关系?

在数学 (S1) 中,我们通常无法证明因果关系。我们只能陈述存在相关性。

然而,如果发现强相关性,并且存在连接这两个变量的逻辑上的、科学的依据或机制(例如学习时长与考试成绩),我们可以暗示它们可能存在因果联系。

请永远记住:强 \(r\) 值的存在只是关联的证据,而不是因果关系的证明。

S1 的最终核心总结

相关性告诉我们两件事是否“一起变动”(\(r\))。回归告诉我们它们是“如何一起变动”的 (\(y=a+bx\))。在解读结果时,务必考虑可靠性(内插/外推)和因果关系