欢迎来到相关系数的非正式假设检验!

在本章中,我们将探讨如何判断两件事物之间是否存在关联。例如,你投入复习的时间是否真的与你的考试分数有关?或者一个人的身高是否与其鞋码有关?我们使用非正式假设检验(Informal Hypothesis Testing)来观察我们在小群体(样本)中看到的模式,是否足够强大以至于能推论该模式同样适用于所有人(总体)。

如果刚开始觉得这些术语有点“深奥”,不用担心——其核心其实非常简单,我们只是在寻找证据,判断这种关系是真实存在的,还是纯属巧合!

基本概念:双变量数据与关系

在进行任何检验之前,我们需要先理解我们正在处理的对象。在本节中,我们处理的是双变量数据(Bivariate data)。这意味着我们对每一个体都有两个测量值(例如“身高”和“体重”)。

1. 相关性 (Correlation) 与关联性 (Association)

这两个术语经常被交替使用,但它们之间有细微的差别:

  • 相关性 (Correlation): 这特别指线性关系。换句话说,如果你将数据绘制在散点图上,这些点是否看起来倾向于形成一条直线?
  • 关联性 (Association): 这是一个更广泛的术语。它意味着变量之间存在某种关系,即使它不是一条直线(例如,它可能是一条曲线)。

2. 相关系数 \(r\)

我们使用一个称为相关系数的数值,以字母 \(r\) 表示,来衡量线性关系的强度。

  • 若 \(r = 1\),则为完美的正线性相关(一条完美的向上直线)。
  • 若 \(r = -1\),则为完美的负线性相关(一条完美的向下直线)。
  • 若 \(r = 0\),则完全没有线性相关。

快速回顾: \(r\) 越接近 \(1\) 或 \(-1\),关系越强;越接近 \(0\),关系就越弱。

等级相关 (Rank Correlation):当关系非直线时

有时数据并不会形成直线,但它们仍朝着一致的方向移动(例如,随着 \(x\) 增加,\(y\) 也总是增加,只是速度不同)。在这种情况下,我们使用等级相关

我们不再使用实际数值(如 \(152cm\)、\(180cm\)),而是将它们排序(第 1 高、第 2 高等)。这衡量的是等级之间的关联性,而非实际数值。当你拥有离群值或非线性关系时,这是一个非常有用的工具!

你知道吗? 在这个特定单元中,你不需要知道各种系数的复杂名称(如 Pearson 或 Spearman),你只需要知道如何运用题目给你的 \(r\) 值即可!

假设检验流程

这是我们决定样本的相关性是否具有“统计显著性”的过程。我们需要遵循特定的步骤。

步骤 1:建立你的假设

我们总是从两个陈述开始:

  • 虚无假设 \(H_0\): 这是“平淡”的假设。它总是声称在总体中没有相关性/关联性
  • 对立假设 \(H_1\): 我们怀疑实际发生的情况。
    • 单尾检验 (1-tailed test): 我们预测了方向(例如:“存在正相关”)。
    • 双尾检验 (2-tailed test): 我们认为存在某种关系,但不确定方向(例如:“存在相关性”)。

步骤 2:查看 \(p\)-值或临界值

在考试中,你通常会得到相关系数的 \(p\)-值临界值 (Critical value)。这些数值来自统计软件或统计表。

  • \(p\)-值: 这是我们观察到的相关性纯属巧合(偶然)发生的概率。
  • 显著水平 (Significance Level): 这是由研究者设定的“门槛”(通常为 \(5\%\) 或 \(0.05\))。

步骤 3:做出决定

比较你的 \(p\)-值与显著水平。记住这个简单的口诀:

“若 \(p\) 值低,虚无假设必离去!”(If the p is low, the null must go!)

  • \(p < \text{显著水平}\):我们拒绝 \(H_0\)。有足够的证据显示存在相关性。
  • \(p > \text{显著水平}\):我们无法拒绝 \(H_0\)。没有足够的证据证明该相关性真实存在。

重点提示: 小的 \(p\)-值意味着该结果极不可能仅是运气好!

得出结论(“非武断”的方式)

在 Mathematics B (MEI) 中,考官很看重非武断 (non-assertive) 的语言。我们永远不会说我们“证明了”什么。相反地,我们会说“有足够的证据显示……”

范例:“在 \(5\%\) 的显著水平下,有足够的证据显示复习时间与考试成绩之间存在正相关。”

现实生活范例:冰淇淋与晒伤

想象一下,你发现冰淇淋销售量与晒伤案例之间存在高度相关(\(r = 0.9\))。假设检验很可能会显示这是一个“显著”的相关性。

这是否意味着吃冰淇淋会导致晒伤? 不!这是一个经典范例,说明为什么相关性不代表因果关系 (Correlation does not imply Causation)。两者都是由第三个因素引起的:炎热的天气。在解释结果时,请务必记住这一点!

常见错误需避免

  • 搞混 \(r\) 与 \(p\)-值: \(r\) 告诉你线性的强度;\(p\)-值告诉你该强度是否具有统计显著性。
  • 武断的语言: 避免说“这证明了 \(x\) 导致 \(y\)”。请坚持使用“有证据显示……”。
  • 离群值 (Outliers): 要小心!单一离群值可能让微弱的相关性看起来很强,或让强相关看起来很弱。如果题目有提供散点图,请务必观察它。
  • 时间序列: 相关系数仅适用于随机变量。它们不适合用于时间序列等情况,因为其中一个变量(时间)是在固定间隔下设定的。

快速回顾区

\(H_0\): 无相关性。
\(H_1\): 有相关性(正相关/负相关/任意)。
决定: 若 \(p \leq \text{显著水平}\),拒绝 \(H_0\)。
情境: 最终结论必须总是根据原始变量(例如“身高”和“体重”)来陈述。

总结重点

相关系数的非正式假设检验让我们能利用样本的相关系数 (\(r\)) 和 \(p\)-值,来判断总体中是否存在关系。只要遵循“若 \(p\) 值低,虚无假设必离去”的法则,并使用谨慎、非武断的语言,你一定能掌握统计学课程中的这一部分!