Correlation and regression

相关与回归：学习笔记（S1单元：统计学 1）

你好！欢迎来到令人兴奋的相关与回归（Correlation and Regression）世界。本章旨在探讨两个不同测量值之间的关系，比如你的学习时间是如何影响考试成绩的。别担心，如果统计学有时让你感到困惑——我们将一步步拆解这些概念！

我们将学到什么？ 我们将学习如何使用图表直观地表示关系，如何使用一个特殊的数字——皮尔逊积矩相关系数（PMCC）来衡量这些关系的强度，最后，如何建立数学直线来进行预测。这些技能对于建立现实世界的数据模型至关重要！

1. 双变量数据与散点图简介

什么是双变量数据？

双变量数据（Bivariate Data）指涉及两个变量的数据。我们观察同一对象对应的成对数据。

例子： 测量一组学生的身高（变量 1）和体重（变量 2）。

解释变量与响应变量

当我们分析关系时，通常会假设一个变量可能会影响另一个变量。

1. 解释变量（自变量，$x$）： 我们认为该变量可能会解释或导致另一个变量发生变化。它位于水平轴（x轴）。

2. 响应变量（因变量，$y$）： 我们正在测量或试图预测的变量。它的值取决于解释变量。它位于垂直轴（y轴）。

散点图

散点图（Scatter Diagram）是分析双变量数据的第一步。它将成对的数据点 $(x, y)$ 绘制在坐标系上。

关键点： 通过观察点的分布规律，我们可以立即估计出关系的类型和强度。

解读散点图中的模式

我们主要观察三个特征：方向、形式和强度。在 S1 中，我们主要关注线性关系。

1. 正相关： 随着 $x$ 的增加，$y$ 也趋于增加。点向右上方分布。
2. 负相关： 随着 $x$ 的增加，$y$ 趋于减少。点向右下方分布。
3. 无相关： 没有明显的模式；点随机分布。

快速回顾： 图形模式告诉我们相关性情况。如果点紧密地形成一条直线，说明相关性很强。

2. 衡量相关性：积矩相关系数 ($r$)

什么是相关性？

相关性衡量两个变量之间线性关系的强度和方向。

积矩相关系数 (PMCC)

为了获得精确的数值测量，我们使用积矩相关系数（PMCC），通常用字母 $r$ 表示。你的计算器通常可以直接算出这个值，但你必须理解它的含义！

$r$ 的属性

PMCC（$r$）的取值范围始终在 $-1$ 到 $+1$ 之间：

$$ -1 \le r \le 1 $$

1. 若 $r = +1$： 完全正线性相关。所有点恰好都在一条斜向上的直线上。
2. 若 $r = -1$： 完全负线性相关。所有点恰好都在一条斜向下的直线上。
3. 若 $r = 0$： 无线性相关。

解读 $r$ 的值

$|r|$（忽略符号）越接近 1，关系越强。

强正相关： $r$ 接近 +1（例如 $r = 0.9$）
中等正相关： $r$ 大约在 0.5 到 0.8 之间
弱正相关： $r$ 接近 0 但为正数（例如 $r = 0.2$）
强负相关： $r$ 接近 -1（例如 $r = -0.9$）

记忆小贴士： 可以把 $r$ 看作关系的“速度计”。1 代表全速前进（完全匹配）；0 代表停滞（无匹配）。符号只告诉你关系的方向（上升或下降）。

你知道吗？相关性与因果关系

统计学中一个非常重要的概念是区分相关性和因果关系。

相关性（Correlation）意味着两个变量一起变动。
因果关系（Causation）意味着一个变量导致了另一个变量的变化。

例子： 冰淇淋销量与犯罪率可能显示出强正相关（$r$ 接近 1）。吃冰淇淋会导致犯罪吗？不！是一个潜在变量（高温/夏季）导致了两者同时增加。
核心规则：相关性并不意味着因果关系。

3. 线性回归：寻找最佳拟合直线

回归的目的

如果我们确定了强线性相关，就会想要建立一个总结这种关系的方程。这个方程被称为线性回归方程（Linear Regression Line），或最佳拟合直线。我们用它来进行预测。

在 S1 中，我们专注于 $y$ 对 $x$ 的回归直线。该直线用于在已知解释变量 $x$ 的特定值时，预测响应变量 $y$ 的值。

最小二乘回归直线

我们使用一种称为最小二乘法（Least Squares）的方法。该方法寻找使所有数据点到直线的垂直距离（称为残差，residuals）的平方和最小的直线。这能给出“最好”的拟合。

直线方程为：

$$ \hat{y} = a + bx $$

其中：

$\hat{y}$（读作 "y-hat"）是 $y$ 的预测值。
$a$ 是 y轴截距。
$b$ 是直线的斜率（梯度）。

计算 $a$ 和 $b$ 的步骤

要计算 $a$ 和 $b$，我们首先需要求出三个关键的汇总统计量，通常记作 $S_{xx}$、$S_{yy}$ 和 $S_{xy}$。这些是方差和协方差的测量值。

第 1 步：计算 S 值（汇总统计量）

这些 S 值的公式在你的公式手册中都有（通常也可以通过计算器求出）。我们使用 $x$、$y$、$x^2$、$y^2$ 和 $xy$ 的和来计算它们。

$$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ $$ S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} $$ （注：$n$ 是数据对的数量。）

第 2 步：计算斜率 ($b$)

斜率 $b$ 取决于 $x$ 和 $y$ 的共同变异程度相对于 $x$ 自身变异程度的比值：

$$ b = \frac{S_{xy}}{S_{xx}} $$

第 3 步：计算 y轴截距 ($a$)

回归直线始终通过均值点 $(\bar{x}, \bar{y})$。我们利用这一事实来求 $a$。(记住：$\bar{x} = \frac{\sum x}{n}$ 且 $\bar{y} = \frac{\sum y}{n}$)。

$$ a = \bar{y} - b\bar{x} $$

常见错误警示！ 计算 $b$ 时，分母务必使用 $S_{xx}$。如果你误用了 $S_{yy}$，那么你计算的是 $x$ 对 $y$ 的直线斜率，这在 S1 考试要求预测模型时通常是错误的！

4. 解读与局限性

解读斜率 ($b$)

斜率 $b$ 告诉我们解释变量 $x$ 每增加一个单位，响应变量 $y$ 的预测变化量。

例子： 如果 $x$ 是“学习小时数”，$y$ 是“考试成绩”，且 $b = 4.5$，那么我们可以这样解读：“每多学习一小时，预测考试成绩提高 4.5 分。”

解读 y轴截距 ($a$)

y轴截距 $a$ 是当 $x=0$ 时 $y$ 的预测值。

注意： 只有在现实语境中 $x=0$ 有意义时，这种解读才合理。如果 $x$ 是“成年人身高”，而你数据集中最小身高是 150 厘米，那么说身高为 0 时 $y$（体重）为 $a$ 是毫无意义的！务必检查 $x=0$ 是否在数据范围内。

使用直线：内插法与外推法

一旦有了方程 $\hat{y} = a + bx$，就可以用它来进行预测。

1. 内插法（Interpolation，可靠预测）： 指对位于原始数据范围之内**的 $x$ 值进行预测。这些预测通常是可靠的。

2. 外推法（Extrapolation，危险预测）： 指对位于原始数据范围之外**的 $x$ 值进行预测。

为什么外推法很危险？ 我们假设线性关系会无限延续，但实际上，一旦超出数据边界，关系可能会弯曲、平缓或完全改变。在考试中，你必须始终提醒注意外推法的风险！

关键点： 回归是一个强大的预测工具，但其准确性高度依赖于相关性（$r$）的强度，并且必须避免外推。

S1 单元摘要清单：相关与回归

我能绘制并解读散点图吗？

我能陈述并解读 PMCC ($r$) 的属性吗？（范围 $-1$ 到 $+1$）

我了解相关性和因果关系的区别吗？（它们是不同的！）

我能定义并计算 $S_{xx}$ 和 $S_{xy}$ 吗？

我能计算 $y$ 对 $x$ 的回归直线：$\hat{y} = a + bx$ 吗？

我能在语境中解读 $a$ 和 $b$ 的值吗？

我理解外推法的风险吗？

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

相关与回归：学习笔记（S1单元：统计学 1）

1. 双变量数据与散点图简介

什么是双变量数据？

解释变量与响应变量

散点图

解读散点图中的模式

2. 衡量相关性：积矩相关系数 (\(r\))

什么是相关性？

积矩相关系数 (PMCC)

\(r\) 的属性

解读 \(r\) 的值

你知道吗？相关性与因果关系

3. 线性回归：寻找最佳拟合直线

回归的目的

最小二乘回归直线

计算 \(a\) 和 \(b\) 的步骤

4. 解读与局限性

解读斜率 (\(b\))

解读 y轴截距 (\(a\))

使用直线：内插法与外推法

准备好测试自己了吗？

更多Further Mathematics (YFM01)章节

立即实践所学

相关与回归：学习笔记（S1单元：统计学 1）

1. 双变量数据与散点图简介

什么是双变量数据？

解释变量与响应变量

散点图

解读散点图中的模式

2. 衡量相关性：积矩相关系数 (\(r\))

什么是相关性？

积矩相关系数 (PMCC)

\(r\) 的属性

解读 \(r\) 的值

你知道吗？ 相关性与因果关系

3. 线性回归：寻找最佳拟合直线

回归的目的

最小二乘回归直线

计算 \(a\) 和 \(b\) 的步骤

4. 解读与局限性

解读斜率 (\(b\))

解读 y轴截距 (\(a\))

使用直线：内插法与外推法

准备好测试自己了吗？

更多Further Mathematics (YFM01)章节

立即实践所学

你知道吗？相关性与因果关系