相关与回归:学习笔记(S1单元:统计学 1)

你好!欢迎来到令人兴奋的相关与回归(Correlation and Regression)世界。本章旨在探讨两个不同测量值之间的关系,比如你的学习时间是如何影响考试成绩的。别担心,如果统计学有时让你感到困惑——我们将一步步拆解这些概念!

我们将学到什么? 我们将学习如何使用图表直观地表示关系,如何使用一个特殊的数字——皮尔逊积矩相关系数(PMCC)来衡量这些关系的强度,最后,如何建立数学直线来进行预测。这些技能对于建立现实世界的数据模型至关重要!

1. 双变量数据与散点图简介

什么是双变量数据?

双变量数据(Bivariate Data)指涉及两个变量的数据。我们观察同一对象对应的成对数据。

  • 例子: 测量一组学生的身高(变量 1)和体重(变量 2)。
解释变量与响应变量

当我们分析关系时,通常会假设一个变量可能会影响另一个变量。

1. 解释变量(自变量,\(x\)): 我们认为该变量可能会解释或导致另一个变量发生变化。它位于水平轴(x轴)。

2. 响应变量(因变量,\(y\)): 我们正在测量或试图预测的变量。它的值取决于解释变量。它位于垂直轴(y轴)。

散点图

散点图(Scatter Diagram)是分析双变量数据的第一步。它将成对的数据点 \((x, y)\) 绘制在坐标系上。

关键点: 通过观察点的分布规律,我们可以立即估计出关系的类型强度

解读散点图中的模式

我们主要观察三个特征:方向、形式和强度。在 S1 中,我们主要关注线性关系

1. 正相关: 随着 \(x\) 的增加,\(y\) 也趋于增加。点向右上方分布。
2. 负相关: 随着 \(x\) 的增加,\(y\) 趋于减少。点向右下方分布。
3. 无相关: 没有明显的模式;点随机分布。

快速回顾: 图形模式告诉我们相关性情况。如果点紧密地形成一条直线,说明相关性很强。


2. 衡量相关性:积矩相关系数 (\(r\))

什么是相关性?

相关性衡量两个变量之间线性关系的强度方向

积矩相关系数 (PMCC)

为了获得精确的数值测量,我们使用积矩相关系数(PMCC),通常用字母 \(r\) 表示。你的计算器通常可以直接算出这个值,但你必须理解它的含义!

\(r\) 的属性

PMCC(\(r\))的取值范围始终在 \(-1\) 到 \(+1\) 之间:

$$ -1 \le r \le 1 $$

1. 若 \(r = +1\): 完全正线性相关。所有点恰好都在一条斜向上的直线上。
2. 若 \(r = -1\): 完全负线性相关。所有点恰好都在一条斜向下的直线上。
3. 若 \(r = 0\): 无线性相关。

解读 \(r\) 的值

\(|r|\)(忽略符号)越接近 1,关系越强。

  • 强正相关: \(r\) 接近 +1(例如 \(r = 0.9\))
  • 中等正相关: \(r\) 大约在 0.5 到 0.8 之间
  • 弱正相关: \(r\) 接近 0 但为正数(例如 \(r = 0.2\))
  • 强负相关: \(r\) 接近 -1(例如 \(r = -0.9\))

记忆小贴士: 可以把 \(r\) 看作关系的“速度计”。1 代表全速前进(完全匹配);0 代表停滞(无匹配)。符号只告诉你关系的方向(上升或下降)。

你知道吗? 相关性与因果关系

统计学中一个非常重要的概念是区分相关性和因果关系。

相关性(Correlation)意味着两个变量一起变动。
因果关系(Causation)意味着一个变量导致了另一个变量的变化。

例子: 冰淇淋销量与犯罪率可能显示出强正相关(\(r\) 接近 1)。吃冰淇淋会导致犯罪吗?不!是一个潜在变量(高温/夏季)导致了两者同时增加。
核心规则:相关性并不意味着因果关系。


3. 线性回归:寻找最佳拟合直线

回归的目的

如果我们确定了强线性相关,就会想要建立一个总结这种关系的方程。这个方程被称为线性回归方程(Linear Regression Line),或最佳拟合直线。我们用它来进行预测。

在 S1 中,我们专注于 \(y\) 对 \(x\) 的回归直线。该直线用于在已知解释变量 \(x\) 的特定值时,预测响应变量 \(y\) 的值。

最小二乘回归直线

我们使用一种称为最小二乘法(Least Squares)的方法。该方法寻找使所有数据点到直线的垂直距离(称为残差,residuals)的平方和最小的直线。这能给出“最好”的拟合。

直线方程为:

$$ \hat{y} = a + bx $$

其中:

  • \(\hat{y}\)(读作 "y-hat")是 \(y\) 的预测值
  • \(a\) 是 y轴截距
  • \(b\) 是直线的斜率(梯度)

计算 \(a\) 和 \(b\) 的步骤

要计算 \(a\) 和 \(b\),我们首先需要求出三个关键的汇总统计量,通常记作 \(S_{xx}\)、\(S_{yy}\) 和 \(S_{xy}\)。这些是方差和协方差的测量值。

第 1 步:计算 S 值(汇总统计量)

这些 S 值的公式在你的公式手册中都有(通常也可以通过计算器求出)。我们使用 \(x\)、\(y\)、\(x^2\)、\(y^2\) 和 \(xy\) 的和来计算它们。

$$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ $$ S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} $$ (注:\(n\) 是数据对的数量。)

第 2 步:计算斜率 (\(b\))

斜率 \(b\) 取决于 \(x\) 和 \(y\) 的共同变异程度相对于 \(x\) 自身变异程度的比值:

$$ b = \frac{S_{xy}}{S_{xx}} $$

第 3 步:计算 y轴截距 (\(a\))

回归直线始终通过均值点 \((\bar{x}, \bar{y})\)。我们利用这一事实来求 \(a\)。(记住:\(\bar{x} = \frac{\sum x}{n}\) 且 \(\bar{y} = \frac{\sum y}{n}\))。

$$ a = \bar{y} - b\bar{x} $$

常见错误警示! 计算 \(b\) 时,分母务必使用 \(S_{xx}\)。如果你误用了 \(S_{yy}\),那么你计算的是 \(x\) 对 \(y\) 的直线斜率,这在 S1 考试要求预测模型时通常是错误的!


4. 解读与局限性

解读斜率 (\(b\))

斜率 \(b\) 告诉我们解释变量 \(x\) 每增加一个单位,响应变量 \(y\) 的预测变化量。

例子: 如果 \(x\) 是“学习小时数”,\(y\) 是“考试成绩”,且 \(b = 4.5\),那么我们可以这样解读:“每多学习一小时,预测考试成绩提高 4.5 分。”

解读 y轴截距 (\(a\))

y轴截距 \(a\) 是当 \(x=0\) 时 \(y\) 的预测值。

注意: 只有在现实语境中 \(x=0\) 有意义时,这种解读才合理。如果 \(x\) 是“成年人身高”,而你数据集中最小身高是 150 厘米,那么说身高为 0 时 \(y\)(体重)为 \(a\) 是毫无意义的!务必检查 \(x=0\) 是否在数据范围内。

使用直线:内插法与外推法

一旦有了方程 \(\hat{y} = a + bx\),就可以用它来进行预测。

1. 内插法(Interpolation,可靠预测): 指对位于原始数据范围之内**的 \(x\) 值进行预测。这些预测通常是可靠的。

2. 外推法(Extrapolation,危险预测): 指对位于原始数据范围之外**的 \(x\) 值进行预测。

为什么外推法很危险? 我们假设线性关系会无限延续,但实际上,一旦超出数据边界,关系可能会弯曲、平缓或完全改变。在考试中,你必须始终提醒注意外推法的风险!

关键点: 回归是一个强大的预测工具,但其准确性高度依赖于相关性(\(r\))的强度,并且必须避免外推。

S1 单元摘要清单:相关与回归

  • 我能绘制并解读散点图吗?
  • 我能陈述并解读 PMCC (\(r\)) 的属性吗?(范围 \(-1\) 到 \(+1\))
  • 我了解相关性和因果关系的区别吗?(它们是不同的!)
  • 我能定义并计算 \(S_{xx}\) 和 \(S_{xy}\) 吗?
  • 我能计算 \(y\) 对 \(x\) 的回归直线:\(\hat{y} = a + bx\) 吗?
  • 我能在语境中解读 \(a\) 和 \(b\) 的值吗?
  • 我理解外推法的风险吗?