欢迎来到回归与相关分析的世界!
未来的统计学家们,你们好!本章作为 S3 单元的一部分至关重要,它教我们如何寻找并量化两个变量之间的关系。试想一下,日照时间如何影响植物生长,或者学习时长与考试分数之间有着怎样的联系。
学完这些笔记,你将能够:
- 利用散点图直观地展示数据关系。
- 使用积矩相关系数(Product Moment Correlation Coefficient,简称 PMCC)计算并解释这些关系的强弱。
- 利用最小二乘回归法找到“最佳拟合线”,从而进行数据预测。
如果起初觉得有些复杂也不要担心——我们会将公式和概念拆解成简单易懂的步骤。让我们开始吧!
1. 关系可视化:散点图
分析任何双变量数据(涉及两个变量的数据)的第一步,就是将其绘制在散点图上。
1.1 自变量与因变量
当你绘制两个变量时,需要确定哪一个对另一个产生影响:
- 自变量(x): 这是你所控制的,或者是引起变化的变量。它位于横轴上。
- 因变量(y): 这是随自变量改变而改变的变量。它位于纵轴上。
示例:如果我们研究温度(x)如何影响冰淇淋销量(y),那么温度就是自变量。
1.2 线性相关性的类型
观察散点图时,我们主要关注关系的方向和强度(相关性)。
- 正相关: 随着 x 的增加,y 通常也增加。数据点从左下向右上延伸。
- 负相关: 随着 x 的增加,y 通常减少。数据点从左上向右下延伸。
- 不相关: 数据点呈随机分布,显示 x 和 y 之间没有明显关系。
快速回顾:相关性与因果关系
相关性意味着两个变量同步变动。因果关系意味着一个变量直接导致了另一个变量的变化。仅仅因为两个事物相关,并不代表它们之间存在因果关系!
你知道吗?在夏季,冰淇淋销量和犯罪率都会增加。它们是相关的,但冰淇淋并不会导致犯罪(其潜在的共同原因其实是炎热的天气!)。
2. 衡量相关性:PMCC (\(r\))
虽然散点图可以直观地展示关系,但我们需要一个精确的数学度量标准。这就是积矩相关系数(PMCC)的任务,通常记作 \(r\)。
2.1 什么是 PMCC?
PMCC 用于衡量两个变量之间线性关系的强度和方向。
2.2 解读 \(r\) 的值
\(r\) 的取值范围始终在 -1 到 1 之间:
$$ -1 \le r \le 1 $$| PMCC (\(r\)) 数值 | 含义解读 |
|---|---|
| \(r = 1\) | 完全正相关(所有点精确地落在一条向上的直线上。) |
| \(r\) 接近 +1(例如 0.8 到 0.99) | 强正相关 |
| \(r\) 接近 0.5 | 中度正相关 |
| \(r \approx 0\) | 无线性相关性 |
| \(r\) 接近 -0.5 | 中度负相关 |
| \(r = -1\) | 完全负相关 |
2.3 计算 \(r\)(公式构成)
虽然你经常会用计算器直接得出 \(r\),但理解其计算的核心要素至关重要。这些要素是离差平方和与乘积和:
- \(S_{xx}\)(x 的离差平方和): 衡量 x 数据的离散程度。
- \(S_{yy}\)(y 的离差平方和): 衡量 y 数据的离散程度。
- \(S_{xy}\)(乘积和): 衡量 x 和 y 如何共同变动。这是决定相关性符号(+ 或 -)的关键要素。
PMCC 的计算公式为:
$$ r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} $$不用太担心需要经常手动计算 \(S_{xx}, S_{yy}\) 和 \(S_{xy}\),Edexcel 的公式手册提供了基于和的定义,计算器也能帮你完成大部分工作。但你必须掌握如何利用这三个值来计算 \(r\)。
PMCC 的核心要点
PMCC (\(r\)) 仅衡量线性关系。如果数据点构成了完美的曲线(非线性关系),\(r\) 可能接近 0,这会误导你认为两者没有关系,而实际上它们存在着很强的非线性关系!
3. 寻找最佳拟合线:线性回归
如果我们确定存在线性关系(即 \(r\) 接近 1 或 -1),我们就可以求出回归线。这条线用于对关系进行建模并进行预测。
3.1 最小二乘原理
绘制最佳拟合线时,我们希望这条线能使实际数据点到直线的总误差最小。S3 中所用的回归线称为最小二乘回归线。它使数据点到直线垂直距离(残差)的平方和最小。
3.2 回归方程
y 对 x 的回归线标准方程为:
$$ y = a + bx $$其中:
- \(y\) 是因变量(你要预测的对象)。
- \(x\) 是自变量(用于预测的对象)。
- \(b\) 是直线的斜率。
- \(a\) 是 y 轴截距。
3.3 计算系数(\(a\) 和 \(b\))
为了求出直线,我们使用 \(S_{xx}, S_{xy}\) 以及数据的平均值(\(\bar{x}\) 和 \(\bar{y}\))。
第一步:计算 \(b\)(斜率)
斜率 \(b\) 告诉我们 x 每增加一个单位,y 预计会改变多少。
$$ b = \frac{S_{xy}}{S_{xx}} $$记忆小贴士:斜率 \(b\) 取决于 x 和 y 的共同变动程度 (\(S_{xy}\)) 相对于 x 的离散程度 (\(S_{xx}\))。
第二步:计算 \(a\)(y 轴截距)
最小二乘回归线始终经过平均点 \((\bar{x}, \bar{y})\)。我们利用这一事实,结合算出的 \(b\) 来求 \(a\)。
$$ a = \bar{y} - b\bar{x} $$分步操作示例:
- 计算平均值 \(\bar{x}\) 和 \(\bar{y}\)(题目通常会给出,或通过计算器求得)。
- 计算 \(S_{xx}\) 和 \(S_{xy}\)(题目通常会给出)。
- 使用第一步的公式求出 \(b\)。
- 使用第二步的公式求出 \(a\)。
- 写出最终方程 \(y = a + bx\)。
3.4 为何区分“y 对 x”与“x 对 y”很重要
在进阶数学中,一个非常常见的陷阱是混淆哪个变量预测哪个变量。y 对 x 的回归线与 x 对 y 的回归线是不同的。
- y 对 x 的回归: \(y = a + bx\)。当 x 是自变量且我们想要预测 y 时使用。(最小化垂直误差)。
- x 对 y 的回归: \(x = c + dy\)。当 y 是自变量且我们想要预测 x 时使用。(最小化水平误差)。
如果你被要求根据得到的分数(\(y\))预测学习时长(\(x\)),你就必须使用 x 对 y 的直线。
致同学的关键提示
一定要先确定因变量!如果你要根据年龄预测身高,那么身高就是 \(y\),年龄就是 \(x\),请使用 \(y = a + bx\)。当你根据 \(x\) 预测 \(y\) 时,公式中的 \(b\) 分母永远是 \(S_{xx}\)。
4. 使用回归线:预测与局限性
一旦有了方程 \(y = a + bx\),你就可以利用它来估计数值。
4.1 内插法(可靠的预测)
内插法是指基于落在原始数据范围之内的自变量值 \(x\),来预测因变量 \(y\)。
示例:如果原始数据使用了 5 到 15 岁的数据,预测 10 岁儿童的身高属于内插法。这通常是可靠的。
4.2 外推法(不可靠的预测)
外推法是指基于落在原始数据范围之外的 \(x\) 值来预测 \(y\)。
示例:使用 5-15 岁的数据来预测 40 岁成人的身高。
警告! 外推法很危险,因为你假设线性趋势会无限期持续下去,这在现实生活中通常是不成立的。在观测范围之外,关系往往会崩溃或改变形态。
4.3 可靠性与适用性
任何预测的可靠性取决于两点:
- 相关系数的强度(\(|r|\)): \(|r|\) 越接近 1,数据越符合直线,预测就越可靠。
- 数据范围(内插 vs 外推): 内插法通常可靠;外推法通常不可靠。
类比:想象一下预测你在 10 公里旅程中的速度。如果你使用前 5 公里的数据进行预测(内插),预测很可能准确。如果你用这些数据去预测横跨全国 300 公里的路程速度(外推),你的预测很可能出错,因为路况会发生变化!
章节复习清单
- 我是否能根据强度和方向解读 PMCC (\(r\))?
- 我是否知道相关性并不意味着因果关系?
- 在给定 \(S_{xx}\) 和 \(S_{xy}\) 的情况下,我能计算出系数 \(a\) 和 \(b\) 吗?
- 我是否清楚 y 对 x 的线与 x 对 y 的线的区别?
- 我能否识别一项预测需要的是内插法还是外推法?
如果你的回答都是肯定的,那么你已经准备好迎接考题了!
祝你学习顺利!你已经成功掌握了统计关系的核心概念。