欢迎来到回归与相关分析的世界!

未来的统计学家们,你们好!本章作为 S3 单元的一部分至关重要,它教我们如何寻找并量化两个变量之间的关系。试想一下,日照时间如何影响植物生长,或者学习时长与考试分数之间有着怎样的联系。

学完这些笔记,你将能够:

  • 利用散点图直观地展示数据关系。
  • 使用积矩相关系数(Product Moment Correlation Coefficient,简称 PMCC)计算并解释这些关系的强弱。
  • 利用最小二乘回归法找到“最佳拟合线”,从而进行数据预测。

如果起初觉得有些复杂也不要担心——我们会将公式和概念拆解成简单易懂的步骤。让我们开始吧!


1. 关系可视化:散点图

分析任何双变量数据(涉及两个变量的数据)的第一步,就是将其绘制在散点图上。

1.1 自变量与因变量

当你绘制两个变量时,需要确定哪一个对另一个产生影响:

  • 自变量(x): 这是你所控制的,或者是引起变化的变量。它位于横轴上。
  • 因变量(y): 这是随自变量改变而改变的变量。它位于纵轴上。

示例:如果我们研究温度(x)如何影响冰淇淋销量(y),那么温度就是自变量。

1.2 线性相关性的类型

观察散点图时,我们主要关注关系的方向强度(相关性)。

  • 正相关: 随着 x 的增加,y 通常也增加。数据点从左下向右上延伸。
  • 负相关: 随着 x 的增加,y 通常减少。数据点从左上向右下延伸。
  • 不相关: 数据点呈随机分布,显示 xy 之间没有明显关系。
快速回顾:相关性与因果关系

相关性意味着两个变量同步变动。因果关系意味着一个变量直接导致了另一个变量的变化。仅仅因为两个事物相关,并不代表它们之间存在因果关系!

你知道吗?在夏季,冰淇淋销量和犯罪率都会增加。它们是相关的,但冰淇淋并不会导致犯罪(其潜在的共同原因其实是炎热的天气!)。


2. 衡量相关性:PMCC (\(r\))

虽然散点图可以直观地展示关系,但我们需要一个精确的数学度量标准。这就是积矩相关系数(PMCC)的任务,通常记作 \(r\)。

2.1 什么是 PMCC?

PMCC 用于衡量两个变量之间线性关系强度和方向

2.2 解读 \(r\) 的值

\(r\) 的取值范围始终在 -1 到 1 之间:

$$ -1 \le r \le 1 $$
PMCC (\(r\)) 数值 含义解读
\(r = 1\) 完全正相关(所有点精确地落在一条向上的直线上。)
\(r\) 接近 +1(例如 0.8 到 0.99) 强正相关
\(r\) 接近 0.5 中度正相关
\(r \approx 0\) 无线性相关性
\(r\) 接近 -0.5 中度负相关
\(r = -1\) 完全负相关

2.3 计算 \(r\)(公式构成)

虽然你经常会用计算器直接得出 \(r\),但理解其计算的核心要素至关重要。这些要素是离差平方和与乘积和:

  • \(S_{xx}\)(x 的离差平方和): 衡量 x 数据的离散程度。
  • \(S_{yy}\)(y 的离差平方和): 衡量 y 数据的离散程度。
  • \(S_{xy}\)(乘积和): 衡量 xy 如何共同变动。这是决定相关性符号(+ 或 -)的关键要素。

PMCC 的计算公式为:

$$ r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} $$

不用太担心需要经常手动计算 \(S_{xx}, S_{yy}\) 和 \(S_{xy}\),Edexcel 的公式手册提供了基于和的定义,计算器也能帮你完成大部分工作。但你必须掌握如何利用这三个值来计算 \(r\)。

PMCC 的核心要点

PMCC (\(r\)) 仅衡量线性关系。如果数据点构成了完美的曲线(非线性关系),\(r\) 可能接近 0,这会误导你认为两者没有关系,而实际上它们存在着很强的非线性关系!


3. 寻找最佳拟合线:线性回归

如果我们确定存在线性关系(即 \(r\) 接近 1 或 -1),我们就可以求出回归线。这条线用于对关系进行建模并进行预测。

3.1 最小二乘原理

绘制最佳拟合线时,我们希望这条线能使实际数据点到直线的总误差最小。S3 中所用的回归线称为最小二乘回归线。它使数据点到直线垂直距离(残差)的平方和最小。

3.2 回归方程

yx 的回归线标准方程为:

$$ y = a + bx $$

其中:

  • \(y\) 是因变量(你要预测的对象)。
  • \(x\) 是自变量(用于预测的对象)。
  • \(b\) 是直线的斜率
  • \(a\)y 轴截距

3.3 计算系数(\(a\) 和 \(b\))

为了求出直线,我们使用 \(S_{xx}, S_{xy}\) 以及数据的平均值(\(\bar{x}\) 和 \(\bar{y}\))。

第一步:计算 \(b\)(斜率)

斜率 \(b\) 告诉我们 x 每增加一个单位,y 预计会改变多少。

$$ b = \frac{S_{xy}}{S_{xx}} $$

记忆小贴士:斜率 \(b\) 取决于 x 和 y 的共同变动程度 (\(S_{xy}\)) 相对于 x 的离散程度 (\(S_{xx}\))。

第二步:计算 \(a\)(y 轴截距)

最小二乘回归线始终经过平均点 \((\bar{x}, \bar{y})\)。我们利用这一事实,结合算出的 \(b\) 来求 \(a\)。

$$ a = \bar{y} - b\bar{x} $$

分步操作示例:

  1. 计算平均值 \(\bar{x}\) 和 \(\bar{y}\)(题目通常会给出,或通过计算器求得)。
  2. 计算 \(S_{xx}\) 和 \(S_{xy}\)(题目通常会给出)。
  3. 使用第一步的公式求出 \(b\)。
  4. 使用第二步的公式求出 \(a\)。
  5. 写出最终方程 \(y = a + bx\)。

3.4 为何区分“y 对 x”与“x 对 y”很重要

在进阶数学中,一个非常常见的陷阱是混淆哪个变量预测哪个变量。yx 的回归线与 xy 的回归线是不同的。

  • yx 的回归: \(y = a + bx\)。当 x 是自变量且我们想要预测 y 时使用。(最小化垂直误差)。
  • xy 的回归: \(x = c + dy\)。当 y 是自变量且我们想要预测 x 时使用。(最小化水平误差)。

如果你被要求根据得到的分数(\(y\))预测学习时长(\(x\)),你就必须使用 xy 的直线。

致同学的关键提示

一定要先确定因变量!如果你要根据年龄预测身高,那么身高就是 \(y\),年龄就是 \(x\),请使用 \(y = a + bx\)。当你根据 \(x\) 预测 \(y\) 时,公式中的 \(b\) 分母永远是 \(S_{xx}\)


4. 使用回归线:预测与局限性

一旦有了方程 \(y = a + bx\),你就可以利用它来估计数值。

4.1 内插法(可靠的预测)

内插法是指基于落在原始数据范围之内的自变量值 \(x\),来预测因变量 \(y\)。

示例:如果原始数据使用了 5 到 15 岁的数据,预测 10 岁儿童的身高属于内插法。这通常是可靠的。

4.2 外推法(不可靠的预测)

外推法是指基于落在原始数据范围之外的 \(x\) 值来预测 \(y\)。

示例:使用 5-15 岁的数据来预测 40 岁成人的身高。

警告! 外推法很危险,因为你假设线性趋势会无限期持续下去,这在现实生活中通常是不成立的。在观测范围之外,关系往往会崩溃或改变形态。

4.3 可靠性与适用性

任何预测的可靠性取决于两点:

  1. 相关系数的强度(\(|r|\)): \(|r|\) 越接近 1,数据越符合直线,预测就越可靠。
  2. 数据范围(内插 vs 外推): 内插法通常可靠;外推法通常不可靠。

类比:想象一下预测你在 10 公里旅程中的速度。如果你使用前 5 公里的数据进行预测(内插),预测很可能准确。如果你用这些数据去预测横跨全国 300 公里的路程速度(外推),你的预测很可能出错,因为路况会发生变化!

章节复习清单
  • 我是否能根据强度和方向解读 PMCC (\(r\))?
  • 我是否知道相关性并不意味着因果关系?
  • 在给定 \(S_{xx}\) 和 \(S_{xy}\) 的情况下,我能计算出系数 \(a\) 和 \(b\) 吗?
  • 我是否清楚 yx 的线与 xy 的线的区别?
  • 我能否识别一项预测需要的是内插法还是外推法?

如果你的回答都是肯定的,那么你已经准备好迎接考题了!


祝你学习顺利!你已经成功掌握了统计关系的核心概念。