Bivariate data - Further Mathematics B (MEI) - H645 - Cambridge OCR A Level

双变量数据简介

欢迎来到双变量数据（Bivariate Data）的世界！虽然“单变量”数据每次只看一个面向（例如学生的身高），但双变量数据的核心在于探讨变量之间的关系。我们观察同一个体上的两个不同变量，看看它们是否相关。例如，你玩游戏的时间会不会影响你的反应速度呢？

在这一章，我们将学习如何将这些关系可视化、衡量它们的强度，甚至进行预测。别担心公式一开始看起来很吓人——大部分的繁琐计算都可以交给计算机处理！

1. 双变量数据的两种类型

在开始计算之前，我们需要了解数据是如何收集的。MEI 课程大纲将其分为两种情况：

情况 A：随机对非随机（Random on Non-Random）

这种情况发生在实验者控制其中一个变量（自变量，\(x\)）并测量另一个变量（因变量，\(y\)）时。
例子： 一位科学家决定分别测试 10g、20g 和 30g 的弹簧。重量是固定的（非随机），但弹簧的伸长量会略有变化（随机）。

情况 B：随机对随机（Random on Random）

这是指我们观察两个自然发生的现象，两者我们都不进行控制。
例子： 测量 50 个随机选定的人的身高和体重。身高和体重都是随机变量。在图表上，这通常看起来像是一团“数据云”。

快速回顾：
• 情况 A： 有一个变量是被控制的（例如：“我选择了这些特定的时间”）。
• 情况 B： 两个变量都是测量得出的（例如：“我只是记录了我所观察到的结果”）。

2. 散点图（Scatter Diagrams）

散点图是我们研究的第一站。它帮助我们观察两个变量之间的关系（或称相关性/Correlation）。

自变量 (\(x\))： 通常放在横轴上。在情况 A 中，这就是你所控制的变量。
因变量 (\(y\))： 放在纵轴上。
离群值（Outliers）： 这些是不符合整体规律的数据点。我们最初可以“肉眼”辨识这些点。

你知道吗？ 软件绘制的散点图通常会包含一条“趋势线”和一个 \(r^2\) 值。\(r^2\) 越接近 1，这条线对数据的拟合程度就越好！

3. 皮尔逊积矩相关系数（Pearson’s Product Moment Correlation Coefficient, PMCC）

PMCC（以字母 \(r\) 表示）衡量的是线性关系的强度。它的值总是在 -1 到 +1 之间。

\(r = +1\)： 完美的正线性相关（一条完美的向上的直线）。
\(r = 0\)： 没有线性相关。
\(r = -1\)： 完美的负线性相关（一条完美的向下的直线）。

什么时候适合使用 \(r\)？

要使 PMCC 的假设检验有效，数据必须遵循双变量正态分布（Bivariate Normal Distribution）。你通常无法证明这一点，但你可以观察散点图上的点是否呈现椭圆形（像橄榄球状）的云团。如果数据呈现偏态、双峰或非线性，那么 PMCC 就不是正确的工具！

PMCC 的假设检验

我们检验在整个总体中是否存在相关性的证据（以希腊字母 \(\rho\) 表示，读作 'rho'）。

虚无假设 (\(H_0\))： \(\rho = 0\)（总体中没有相关性）。
对立假设 (\(H_1\))： \(\rho > 0\)、\(\rho < 0\)（单尾）或 \(\rho \neq 0\)（双尾）。
检验统计量： 你计算出的 \(r\) 值。
决策： 将你的 \(p\)-值与显著性水平比较，或者将你的 \(r\) 值与查表得出的临界值比较。

常见错误： 永远不要说“这证明了”存在相关性。请使用较保守的语句，例如：“有足够的证据显示……之间存在正相关。”

4. 斯皮尔曼等级相关系数（Spearman’s Rank Correlation Coefficient, \(r_s\)）

有时数据不是线性的，或者比较“杂乱”。斯皮尔曼等级相关系数用于寻找关联性，而不仅仅是线性相关。它衡量的是关系有多单调（monotonic）（即一个变量增加时，另一个变量是否通常也会增加，即使它不是直线？）。

步骤流程：
1. 将你的 \(x\) 值按等级排序（最小的为 1，以此类推）。
2. 将你的 \(y\) 值按等级排序。
3. 使用计算机计算这些等级的 PMCC。这个值就是你的 \(r_s\)。

鼓励小贴士： 别担心“并列等级（tied ranks）”（即两个数值相同的情况）。MEI 的 Minor 部分大纲排除了手动计算这些情况的要求！

PMCC 与 Spearman 的比较：该用哪一个？

如果数据是线性的，且看起来像双变量正态“云团”，请使用 PMCC (\(r\))。
如果数据是非线性的（但呈现单调关系），或者你对正态分布的假设有疑虑，请使用 Spearman (\(r_s\))。

5. 线性回归（Linear Regression）

回归的目的在于找到“最佳拟合线”。我们使用最小二乘法（Least Squares），这能使点到线的垂直距离的平方和达到最小。

两条回归线

在情况 B（随机对随机）中，其实有两条线！

\(y\) 对 \(x\) 的回归线： 当你知道 \(x\) 时，用它来估计 \(y\)。它最小化的是垂直距离。
\(x\) 对 \(y\) 的回归线： 当你知道 \(y\) 时，用它来估计 \(x\)。它最小化的是水平距离。

关键事实： 两条线都一定会经过平均值点 \((\bar{x}, \bar{y})\)。

残差（Residuals）

残差是实际观测值与回归线预测值之间的差。

\(残差 = 观测到的\,y - 预测的\,y\)

如果残差很小且随机分布，说明你的线性模型拟合得很好！

6. 进行预测

我们使用回归方程式 \(y = a + bx\) 来预测数值。但是，你必须小心：

内插法（Interpolation）： 预测数据范围之内的值。这通常是可靠的。
外插法（Extrapolation）： 预测数据范围之外的值。这是危险的，因为线性趋势可能不会持续下去！

类比： 内插法就像猜测一部你看过开头和结尾的电影的中段剧情。外插法就像仅凭第一部电影就试图猜测续集会发生什么事——你可能会完全猜错！

重点总结：
• PMCC (\(r\)) 衡量线性强度；需要“正态分布云团”。
• Spearman (\(r_s\)) 使用等级衡量关联性；不需要正态分布假设。
• 假设检验始于 \(H_0: 无相关性\)。
• 回归线用于预测：尽量使用内插法，少用外插法！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。