相关与回归:学习笔记(S1单元:统计学 1)
你好!欢迎来到令人兴奋的相关与回归(Correlation and Regression)世界。本章旨在探讨两个不同测量值之间的关系,比如你的学习时间是如何影响考试成绩的。别担心,如果统计学有时让你感到困惑——我们将一步步拆解这些概念!
我们将学到什么? 我们将学习如何使用图表直观地表示关系,如何使用一个特殊的数字——皮尔逊积矩相关系数(PMCC)来衡量这些关系的强度,最后,如何建立数学直线来进行预测。这些技能对于建立现实世界的数据模型至关重要!
1. 双变量数据与散点图简介
什么是双变量数据?
双变量数据(Bivariate Data)指涉及两个变量的数据。我们观察同一对象对应的成对数据。
- 例子: 测量一组学生的身高(变量 1)和体重(变量 2)。
解释变量与响应变量
当我们分析关系时,通常会假设一个变量可能会影响另一个变量。
1. 解释变量(自变量,\(x\)): 我们认为该变量可能会解释或导致另一个变量发生变化。它位于水平轴(x轴)。
2. 响应变量(因变量,\(y\)): 我们正在测量或试图预测的变量。它的值取决于解释变量。它位于垂直轴(y轴)。
散点图
散点图(Scatter Diagram)是分析双变量数据的第一步。它将成对的数据点 \((x, y)\) 绘制在坐标系上。
关键点: 通过观察点的分布规律,我们可以立即估计出关系的类型和强度。
解读散点图中的模式
我们主要观察三个特征:方向、形式和强度。在 S1 中,我们主要关注线性关系。
1. 正相关: 随着 \(x\) 的增加,\(y\) 也趋于增加。点向右上方分布。
2. 负相关: 随着 \(x\) 的增加,\(y\) 趋于减少。点向右下方分布。
3. 无相关: 没有明显的模式;点随机分布。
快速回顾: 图形模式告诉我们相关性情况。如果点紧密地形成一条直线,说明相关性很强。
2. 衡量相关性:积矩相关系数 (\(r\))
什么是相关性?
相关性衡量两个变量之间线性关系的强度和方向。
积矩相关系数 (PMCC)
为了获得精确的数值测量,我们使用积矩相关系数(PMCC),通常用字母 \(r\) 表示。你的计算器通常可以直接算出这个值,但你必须理解它的含义!
\(r\) 的属性
PMCC(\(r\))的取值范围始终在 \(-1\) 到 \(+1\) 之间:
$$ -1 \le r \le 1 $$
1. 若 \(r = +1\): 完全正线性相关。所有点恰好都在一条斜向上的直线上。
2. 若 \(r = -1\): 完全负线性相关。所有点恰好都在一条斜向下的直线上。
3. 若 \(r = 0\): 无线性相关。
解读 \(r\) 的值
\(|r|\)(忽略符号)越接近 1,关系越强。
- 强正相关: \(r\) 接近 +1(例如 \(r = 0.9\))
- 中等正相关: \(r\) 大约在 0.5 到 0.8 之间
- 弱正相关: \(r\) 接近 0 但为正数(例如 \(r = 0.2\))
- 强负相关: \(r\) 接近 -1(例如 \(r = -0.9\))
记忆小贴士: 可以把 \(r\) 看作关系的“速度计”。1 代表全速前进(完全匹配);0 代表停滞(无匹配)。符号只告诉你关系的方向(上升或下降)。
你知道吗? 相关性与因果关系
统计学中一个非常重要的概念是区分相关性和因果关系。
相关性(Correlation)意味着两个变量一起变动。
因果关系(Causation)意味着一个变量导致了另一个变量的变化。
例子: 冰淇淋销量与犯罪率可能显示出强正相关(\(r\) 接近 1)。吃冰淇淋会导致犯罪吗?不!是一个潜在变量(高温/夏季)导致了两者同时增加。
核心规则:相关性并不意味着因果关系。
3. 线性回归:寻找最佳拟合直线
回归的目的
如果我们确定了强线性相关,就会想要建立一个总结这种关系的方程。这个方程被称为线性回归方程(Linear Regression Line),或最佳拟合直线。我们用它来进行预测。
在 S1 中,我们专注于 \(y\) 对 \(x\) 的回归直线。该直线用于在已知解释变量 \(x\) 的特定值时,预测响应变量 \(y\) 的值。
最小二乘回归直线
我们使用一种称为最小二乘法(Least Squares)的方法。该方法寻找使所有数据点到直线的垂直距离(称为残差,residuals)的平方和最小的直线。这能给出“最好”的拟合。
直线方程为:
$$ \hat{y} = a + bx $$
其中:
- \(\hat{y}\)(读作 "y-hat")是 \(y\) 的预测值。
- \(a\) 是 y轴截距。
- \(b\) 是直线的斜率(梯度)。
计算 \(a\) 和 \(b\) 的步骤
要计算 \(a\) 和 \(b\),我们首先需要求出三个关键的汇总统计量,通常记作 \(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\)。这些是方差和协方差的测量值。
第 1 步:计算 S 值(汇总统计量)
这些 S 值的公式在你的公式手册中都有(通常也可以通过计算器求出)。我们使用 \(x\)、\(y\)、\(x^2\)、\(y^2\) 和 \(xy\) 的和来计算它们。
$$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ $$ S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} $$ (注:\(n\) 是数据对的数量。)
第 2 步:计算斜率 (\(b\))
斜率 \(b\) 取决于 \(x\) 和 \(y\) 的共同变异程度相对于 \(x\) 自身变异程度的比值:
$$ b = \frac{S_{xy}}{S_{xx}} $$第 3 步:计算 y轴截距 (\(a\))
回归直线始终通过均值点 \((\bar{x}, \bar{y})\)。我们利用这一事实来求 \(a\)。(记住:\(\bar{x} = \frac{\sum x}{n}\) 且 \(\bar{y} = \frac{\sum y}{n}\))。
$$ a = \bar{y} - b\bar{x} $$常见错误警示! 计算 \(b\) 时,分母务必使用 \(S_{xx}\)。如果你误用了 \(S_{yy}\),那么你计算的是 \(x\) 对 \(y\) 的直线斜率,这在 S1 考试要求预测模型时通常是错误的!
4. 解读与局限性
解读斜率 (\(b\))
斜率 \(b\) 告诉我们解释变量 \(x\) 每增加一个单位,响应变量 \(y\) 的预测变化量。
例子: 如果 \(x\) 是“学习小时数”,\(y\) 是“考试成绩”,且 \(b = 4.5\),那么我们可以这样解读:“每多学习一小时,预测考试成绩提高 4.5 分。”
解读 y轴截距 (\(a\))
y轴截距 \(a\) 是当 \(x=0\) 时 \(y\) 的预测值。
注意: 只有在现实语境中 \(x=0\) 有意义时,这种解读才合理。如果 \(x\) 是“成年人身高”,而你数据集中最小身高是 150 厘米,那么说身高为 0 时 \(y\)(体重)为 \(a\) 是毫无意义的!务必检查 \(x=0\) 是否在数据范围内。
使用直线:内插法与外推法
一旦有了方程 \(\hat{y} = a + bx\),就可以用它来进行预测。
1. 内插法(Interpolation,可靠预测): 指对位于原始数据范围之内**的 \(x\) 值进行预测。这些预测通常是可靠的。
2. 外推法(Extrapolation,危险预测): 指对位于原始数据范围之外**的 \(x\) 值进行预测。
为什么外推法很危险? 我们假设线性关系会无限延续,但实际上,一旦超出数据边界,关系可能会弯曲、平缓或完全改变。在考试中,你必须始终提醒注意外推法的风险!
关键点: 回归是一个强大的预测工具,但其准确性高度依赖于相关性(\(r\))的强度,并且必须避免外推。
S1 单元摘要清单:相关与回归
- 我能绘制并解读散点图吗?
- 我能陈述并解读 PMCC (\(r\)) 的属性吗?(范围 \(-1\) 到 \(+1\))
- 我了解相关性和因果关系的区别吗?(它们是不同的!)
- 我能定义并计算 \(S_{xx}\) 和 \(S_{xy}\) 吗?
- 我能计算 \(y\) 对 \(x\) 的回归直线:\(\hat{y} = a + bx\) 吗?
- 我能在语境中解读 \(a\) 和 \(b\) 的值吗?
- 我理解外推法的风险吗?