欢迎来到相关系数的世界!

你有没有想过,你花在“进阶数学”练习上的时间和考试拿到的分数之间,是否存在真正的关联?又或者,个子较高的人脚掌真的比较大吗?在本章中,我们将学习如何用数字来衡量这些关系。我们称之为相关性 (Correlation)

你可以把相关性想象成一位“关系侦探”。它能帮助我们判断两件事物是否同时变动,更重要的是,能判断这种链接有多强。如果一开始看到公式觉得有点可怕,别担心,我们会带你一步步拆解!

1. 积差相关系数 (Product Moment Correlation Coefficient, PMCC)

积差相关系数 (Product Moment Correlation Coefficient),通常样本用 \(r\) 表示,总体用 \(\rho\) (希腊字母 'rho') 表示,是用来衡量两个变量之间线性 (linear) 关系强度的指标。

这些数字代表什么?

\(r\) 的值永远在 -1 到 1 之间。

  • \(r = 1\): 完全正相关(呈现一条向上的直线)。
  • \(r = -1\): 完全负相关(呈现一条向下的直线)。
  • \(r = 0\): 完全没有线性相关。

什么时候该用 PMCC?

当你认为数据呈现直线 (straight-line) 的趋势时,就使用 PMCC。如果数据看起来像是一条曲线,PMCC 可能就不是最佳选择了!

数据转换 (Coding) 的影响

这里有一个考试超级实用的“作弊码”:线性转换 (Linear coding) 不会改变 PMCC 的值。
如果你将所有的 \(x\) 或 \(y\) 数值进行加、减、乘或除一个常数,\(r\) 的值会保持不变。这就是所谓的“不变量 (invariant)”。

例子:如果身高(厘米)与体重(公斤)之间的相关系数是 0.8,那么身高(米)与体重(公斤)之间的相关系数依然会是 0.8。

重点速览:

PMCC (\(r\)) 衡量的是线性强度。它不受数据转换影响。它的值永远介于 -1 和 1 之间。


2. 斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient)

有时候,数据并非完美的直线,或者数据本身只是“排名”(例如你列出最喜欢的电影 1 到 10 名)。这时候,斯皮尔曼等级相关系数 (\(r_s\)) 就派上用场了。

为什么要用 Spearman 而不是 PMCC?

  • 当关系是单调 (monotonic) 的(数值一直上升或一直下降,但不一定是直线)。
  • 当数据已经是等级 (ranks) 形式时。
  • 当数据中存在会干扰 PMCC 的离群值 (outliers) 时。

如何计算 \(r_s\)

你通常会拿到一张数据表,请按照以下步骤操作:

  1. 将第一个变量 (\(x\)) 从小到大进行排名 (Rank)
  2. 将第二个变量 (\(y\)) 从小到大进行排名 (Rank)
  3. 找出每一对排名之间的差值 (difference, \(d\))
  4. 将这些差值平方 (\(d^2\))
  5. 将它们加总得到 \(\sum d^2\)
  6. 套用公式:\(r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)}\)

处理重复排名 (Ties)

如果有两个数值相同也不用担心!如果两个项目并列第 2 名和第 3 名,就给它们共同的平均排名,即 \(2.5\)。(计算方式为 \(\frac{2+3}{2}\))。

你知道吗? 你的计算器通常可以在“6: Statistics”模式中帮你计算 \(r\) 和 \(r_s\)!只要将你的排名当作数据输入,就能直接找到 \(r\) 的值。

核心结论:

当处理排名曲线关系时,请使用 Spearman 相关系数。公式其实很简单,计算差值时细心一点就可以了!


3. 相关性的假设检验 (Hypothesis Testing for Correlation)

样本显示有相关性,并不代表整个总体也有。我们需要使用假设检验来确认结果是否具有统计显著性 (statistically significant)

建立假设

我们通常检验相关系数是否为(代表没有关系)。

  • 零假设 (Null Hypothesis, \(H_0\)): \(\rho = 0\) (或 \(\rho_s = 0\)) — 在总体中没有相关性。
  • 对立假设 (Alternative Hypothesis, \(H_1\)): \(\rho \neq 0\) (双尾检验) 或 \(\rho > 0\) / \(\rho < 0\) (单尾检验)。

临界值 (Critical Value)

你不需要进行复杂的计算。请使用考试提供的统计表 (Statistical Tables)。找出你的样本数 (\(n\)) 和显著水平(例如 5%),即可查出临界值

规则: 如果你算出来的数值大于临界值,那就代表显著!这时你要拒绝 \(H_0\),并声称有证据显示存在相关性。

PMCC 检验的重要前提

要对 PMCC (\(r\)) 进行假设检验,数据必须来自双变量正态分布 (bivariate normal distribution)
这是什么意思? 想象散点图看起来像一朵“云”,中间最密集,边缘渐渐稀疏。考试时你不需要证明这一点,但如果题目问到相关假设,你必须提到它!

常见避坑指南:
  • 假设中忘记使用 \(\rho\)\(\rho_s\)(千万不要用样本符号 \(r\))。
  • 搞混单尾和双尾检验。仔细阅读题目:是问“是否存在相关性”(双尾)还是“是否存在相关”(单尾)?

总结检查清单

在进入下一章之前,请确保你能做到:

  • 判断该使用 PMCC(线性)还是 Spearman(排名/单调)。
  • 陈述数据转换 (coding) 对 PMCC 没有影响。
  • 使用公式或计算器计算 Spearman 等级相关系数
  • 正确处理重复排名 (tied ranks)(取平均)。
  • 利用临界值表进行假设检验
  • 记得 PMCC 检验需要双变量正态分布的前提。

你一定做得到!相关性其实就是观察这个世界是如何一起联动的。多练习几题排名相关的题目,你很快就会变成专家!