双变量数据简介

欢迎来到双变量数据(Bivariate Data)的世界!虽然“单变量”数据每次只看一个面向(例如学生的身高),但双变量数据的核心在于探讨变量之间的关系。我们观察同一个体上的两个不同变量,看看它们是否相关。例如,你玩游戏的时间会不会影响你的反应速度呢?

在这一章,我们将学习如何将这些关系可视化、衡量它们的强度,甚至进行预测。别担心公式一开始看起来很吓人——大部分的繁琐计算都可以交给计算机处理!

1. 双变量数据的两种类型

在开始计算之前,我们需要了解数据是如何收集的。MEI 课程大纲将其分为两种情况:

情况 A:随机对非随机(Random on Non-Random)

这种情况发生在实验者控制其中一个变量(自变量,\(x\))并测量另一个变量(因变量,\(y\))时。
例子: 一位科学家决定分别测试 10g、20g 和 30g 的弹簧。重量是固定的(非随机),但弹簧的伸长量会略有变化(随机)。

情况 B:随机对随机(Random on Random)

这是指我们观察两个自然发生的现象,两者我们都不进行控制。
例子: 测量 50 个随机选定的人的身高和体重。身高和体重都是随机变量。在图表上,这通常看起来像是一团“数据云”。

快速回顾:
情况 A: 有一个变量是被控制的(例如:“我选择了这些特定的时间”)。
情况 B: 两个变量都是测量得出的(例如:“我只是记录了我所观察到的结果”)。

2. 散点图(Scatter Diagrams)

散点图是我们研究的第一站。它帮助我们观察两个变量之间的关系(或称相关性/Correlation)。

  • 自变量 (\(x\)): 通常放在横轴上。在情况 A 中,这就是你所控制的变量。
  • 因变量 (\(y\)): 放在纵轴上。
  • 离群值(Outliers): 这些是不符合整体规律的数据点。我们最初可以“肉眼”辨识这些点。

你知道吗? 软件绘制的散点图通常会包含一条“趋势线”和一个 \(r^2\) 值。\(r^2\) 越接近 1,这条线对数据的拟合程度就越好!

3. 皮尔逊积矩相关系数(Pearson’s Product Moment Correlation Coefficient, PMCC)

PMCC(以字母 \(r\) 表示)衡量的是线性关系的强度。它的值总是在 -1 到 +1 之间。

  • \(r = +1\): 完美的正线性相关(一条完美的向上的直线)。
  • \(r = 0\): 没有线性相关。
  • \(r = -1\): 完美的负线性相关(一条完美的向下的直线)。

什么时候适合使用 \(r\)?

要使 PMCC 的假设检验有效,数据必须遵循双变量正态分布(Bivariate Normal Distribution)。你通常无法证明这一点,但你可以观察散点图上的点是否呈现椭圆形(像橄榄球状)的云团。如果数据呈现偏态、双峰或非线性,那么 PMCC 就不是正确的工具!

PMCC 的假设检验

我们检验在整个总体中是否存在相关性的证据(以希腊字母 \(\rho\) 表示,读作 'rho')。

  1. 虚无假设 (\(H_0\)): \(\rho = 0\)(总体中没有相关性)。
  2. 对立假设 (\(H_1\)): \(\rho > 0\)、\(\rho < 0\)(单尾)或 \(\rho \neq 0\)(双尾)。
  3. 检验统计量: 你计算出的 \(r\) 值。
  4. 决策: 将你的 \(p\)-值与显著性水平比较,或者将你的 \(r\) 值与查表得出的临界值比较。

常见错误: 永远不要说“这证明了”存在相关性。请使用较保守的语句,例如:“有足够的证据显示……之间存在正相关。”

4. 斯皮尔曼等级相关系数(Spearman’s Rank Correlation Coefficient, \(r_s\))

有时数据不是线性的,或者比较“杂乱”。斯皮尔曼等级相关系数用于寻找关联性,而不仅仅是线性相关。它衡量的是关系有多单调(monotonic)(即一个变量增加时,另一个变量是否通常也会增加,即使它不是直线?)。

步骤流程:
1. 将你的 \(x\) 值按等级排序(最小的为 1,以此类推)。
2. 将你的 \(y\) 值按等级排序。
3. 使用计算机计算这些等级的 PMCC。这个值就是你的 \(r_s\)。

鼓励小贴士: 别担心“并列等级(tied ranks)”(即两个数值相同的情况)。MEI 的 Minor 部分大纲排除了手动计算这些情况的要求!

PMCC 与 Spearman 的比较:该用哪一个?

  • 如果数据是线性的,且看起来像双变量正态“云团”,请使用 PMCC (\(r\))
  • 如果数据是非线性的(但呈现单调关系),或者你对正态分布的假设有疑虑,请使用 Spearman (\(r_s\))

5. 线性回归(Linear Regression)

回归的目的在于找到“最佳拟合线”。我们使用最小二乘法(Least Squares),这能使点到线的垂直距离的平方和达到最小。

两条回归线

在情况 B(随机对随机)中,其实有两条线!

  1. \(y\) 对 \(x\) 的回归线: 当你知道 \(x\) 时,用它来估计 \(y\)。它最小化的是垂直距离。
  2. \(x\) 对 \(y\) 的回归线: 当你知道 \(y\) 时,用它来估计 \(x\)。它最小化的是水平距离。

关键事实: 两条线都一定会经过平均值点 \((\bar{x}, \bar{y})\)。

残差(Residuals)

残差是实际观测值与回归线预测值之间的差。

\(残差 = 观测到的\,y - 预测的\,y\)

如果残差很小且随机分布,说明你的线性模型拟合得很好!

6. 进行预测

我们使用回归方程式 \(y = a + bx\) 来预测数值。但是,你必须小心:

  • 内插法(Interpolation): 预测数据范围之内的值。这通常是可靠的。
  • 外插法(Extrapolation): 预测数据范围之外的值。这是危险的,因为线性趋势可能不会持续下去!

类比: 内插法就像猜测一部你看过开头和结尾的电影的中段剧情。外插法就像仅凭第一部电影就试图猜测续集会发生什么事——你可能会完全猜错!

重点总结:
PMCC (\(r\)) 衡量线性强度;需要“正态分布云团”。
Spearman (\(r_s\)) 使用等级衡量关联性;不需要正态分布假设。
假设检验始于 \(H_0: 无相关性\)。
回归线用于预测:尽量使用内插法,少用外插法!