欢迎来到相关系数的世界!
你有没有想过,你花在“进阶数学”练习上的时间和考试拿到的分数之间,是否存在真正的关联?又或者,个子较高的人脚掌真的比较大吗?在本章中,我们将学习如何用数字来衡量这些关系。我们称之为相关性 (Correlation)。
你可以把相关性想象成一位“关系侦探”。它能帮助我们判断两件事物是否同时变动,更重要的是,能判断这种链接有多强。如果一开始看到公式觉得有点可怕,别担心,我们会带你一步步拆解!
1. 积差相关系数 (Product Moment Correlation Coefficient, PMCC)
积差相关系数 (Product Moment Correlation Coefficient),通常样本用 \(r\) 表示,总体用 \(\rho\) (希腊字母 'rho') 表示,是用来衡量两个变量之间线性 (linear) 关系强度的指标。
这些数字代表什么?
\(r\) 的值永远在 -1 到 1 之间。
- \(r = 1\): 完全正相关(呈现一条向上的直线)。
- \(r = -1\): 完全负相关(呈现一条向下的直线)。
- \(r = 0\): 完全没有线性相关。
什么时候该用 PMCC?
当你认为数据呈现直线 (straight-line) 的趋势时,就使用 PMCC。如果数据看起来像是一条曲线,PMCC 可能就不是最佳选择了!
数据转换 (Coding) 的影响
这里有一个考试超级实用的“作弊码”:线性转换 (Linear coding) 不会改变 PMCC 的值。
如果你将所有的 \(x\) 或 \(y\) 数值进行加、减、乘或除一个常数,\(r\) 的值会保持不变。这就是所谓的“不变量 (invariant)”。
例子:如果身高(厘米)与体重(公斤)之间的相关系数是 0.8,那么身高(米)与体重(公斤)之间的相关系数依然会是 0.8。
重点速览:
PMCC (\(r\)) 衡量的是线性强度。它不受数据转换影响。它的值永远介于 -1 和 1 之间。
2. 斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient)
有时候,数据并非完美的直线,或者数据本身只是“排名”(例如你列出最喜欢的电影 1 到 10 名)。这时候,斯皮尔曼等级相关系数 (\(r_s\)) 就派上用场了。
为什么要用 Spearman 而不是 PMCC?
- 当关系是单调 (monotonic) 的(数值一直上升或一直下降,但不一定是直线)。
- 当数据已经是等级 (ranks) 形式时。
- 当数据中存在会干扰 PMCC 的离群值 (outliers) 时。
如何计算 \(r_s\)
你通常会拿到一张数据表,请按照以下步骤操作:
- 将第一个变量 (\(x\)) 从小到大进行排名 (Rank)。
- 将第二个变量 (\(y\)) 从小到大进行排名 (Rank)。
- 找出每一对排名之间的差值 (difference, \(d\))。
- 将这些差值平方 (\(d^2\))。
- 将它们加总得到 \(\sum d^2\)。
- 套用公式:\(r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)}\)
处理重复排名 (Ties)
如果有两个数值相同也不用担心!如果两个项目并列第 2 名和第 3 名,就给它们共同的平均排名,即 \(2.5\)。(计算方式为 \(\frac{2+3}{2}\))。
你知道吗? 你的计算器通常可以在“6: Statistics”模式中帮你计算 \(r\) 和 \(r_s\)!只要将你的排名当作数据输入,就能直接找到 \(r\) 的值。
核心结论:
当处理排名或曲线关系时,请使用 Spearman 相关系数。公式其实很简单,计算差值时细心一点就可以了!
3. 相关性的假设检验 (Hypothesis Testing for Correlation)
样本显示有相关性,并不代表整个总体也有。我们需要使用假设检验来确认结果是否具有统计显著性 (statistically significant)。
建立假设
我们通常检验相关系数是否为零(代表没有关系)。
- 零假设 (Null Hypothesis, \(H_0\)): \(\rho = 0\) (或 \(\rho_s = 0\)) — 在总体中没有相关性。
- 对立假设 (Alternative Hypothesis, \(H_1\)): \(\rho \neq 0\) (双尾检验) 或 \(\rho > 0\) / \(\rho < 0\) (单尾检验)。
临界值 (Critical Value)
你不需要进行复杂的计算。请使用考试提供的统计表 (Statistical Tables)。找出你的样本数 (\(n\)) 和显著水平(例如 5%),即可查出临界值。
规则: 如果你算出来的数值大于临界值,那就代表显著!这时你要拒绝 \(H_0\),并声称有证据显示存在相关性。
PMCC 检验的重要前提
要对 PMCC (\(r\)) 进行假设检验,数据必须来自双变量正态分布 (bivariate normal distribution)。
这是什么意思? 想象散点图看起来像一朵“云”,中间最密集,边缘渐渐稀疏。考试时你不需要证明这一点,但如果题目问到相关假设,你必须提到它!
常见避坑指南:
- 假设中忘记使用 \(\rho\) 或 \(\rho_s\)(千万不要用样本符号 \(r\))。
- 搞混单尾和双尾检验。仔细阅读题目:是问“是否存在相关性”(双尾)还是“是否存在正相关”(单尾)?
总结检查清单
在进入下一章之前,请确保你能做到:
- 判断该使用 PMCC(线性)还是 Spearman(排名/单调)。
- 陈述数据转换 (coding) 对 PMCC 没有影响。
- 使用公式或计算器计算 Spearman 等级相关系数。
- 正确处理重复排名 (tied ranks)(取平均)。
- 利用临界值表进行假设检验。
- 记得 PMCC 检验需要双变量正态分布的前提。
你一定做得到!相关性其实就是观察这个世界是如何一起联动的。多练习几题排名相关的题目,你很快就会变成专家!