欢迎来到相关系数的世界!
你有没有想过,你花在手机上的时间与考试成绩之间是否有真正的联系?又或者,个子较高的人脚掌真的比较大吗?在本章中,我们将探讨相关系数 (Correlation)——这是一种衡量两件事物之间关联程度的数学方法。
我们将研究如何计算这些关联性、如何测试它们是“真实存在”的还是纯属巧合,以及根据数据类型选择合适的方法。如果起初觉得有点复杂,请不用担心;我们会一步一步为你拆解!
1. 皮尔逊积差相关系数 (Pearson’s Product-Moment Correlation Coefficient, PMCC)
PMCC(以字母 \(r\) 表示)是一个用来衡量双变量数据 (bivariate data)(即同时有两个变量的数据,例如身高与体重)与直线之间贴合程度的数值。
关于 \(r\) 的关键事实:
1. \(r\) 的值始终介于 \(-1\) 和 \(+1\) 之间。
2. \(r = +1\):完全正线性相关(数据点精确排列在向上的直线上)。
3. \(r = -1\):完全负线性相关(数据点精确排列在向下的直线上)。
4. \(r = 0\):完全没有线性相关。
线性编码 (Linear Coding)
PMCC 最酷的地方之一是它不受线性编码影响。这意味着即使你改变数据的单位(例如将身高从厘米转换为英寸,即乘以 2.54),\(r\) 的值依然保持不变。它衡量的是变量之间的关系,而非数据的标度。
“鸡蛋”假设
为了使 PMCC 成为总体 (population) 的有效度量,我们通常假设数据服从双变量正态分布 (bivariate normal distribution)。想象一下,你的散点图看起来像一团模糊的、倾斜的鸡蛋形状云——这就是我们所追求的理想分布!
小贴士:务必使用计算器的统计功能来计算 \(r\)。在考试中,你不需要手动输入大量数字,但你必须熟悉如何操作计算器的“统计 (Statistics)”或“计算 (Calculate)”菜单。
重点总结:PMCC (\(r\)) 衡量的是线性关系的强度。如果数据点形成曲线而非直线,\(r\) 可能无法完全反映数据的特征。
2. 利用 PMCC 进行假设检验
仅仅在一个小样本中发现相关性,并不代表整个总体也存在同样的相关性。我们使用假设检验 (Hypothesis Test) 来判断我们的结果是否具有“统计显著性”。
步骤:
1. 列出假设:我们使用希腊字母 \(\rho\)(读作 'rho')来代表总体相关系数。
- \(H_0: \rho = 0\)(总体中不存在相关性)。
- \(H_1: \rho > 0\)、\(\rho < 0\) 或 \(\rho \neq 0\)(存在正相关、负相关或一般的相关性)。
2. 找出临界值 (Critical Value):根据你的样本大小 (\(n\)) 和显著性水平(例如 5%),在考试提供的统计表中查阅临界值。
3. 比较并得出结论:如果计算出的 \(r\) 距离零比临界值更远,则拒绝 \(H_0\)。
常见错误:撰写结论时,千万不要说你已经“证明 (proven)”了相关性。相反,请说“在 5% 的显著性水平下,有足够的证据显示存在相关性……”。
重点总结:假设检验用于检查样本中观察到的相关性是否强大到足以推断其存在于更广大的总体中。
3. 斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)
有时,数据并非精确的测量值,而是关于等级 (ranks)(第一名、第二名等)。或者,数据关系呈现曲线而非直线。这正是斯皮尔曼等级相关系数 (\(r_s\)) 发挥作用的时候。
如何计算 \(r_s\):
1. 将两组数据分别由 1 到 \(n\) 进行排序 (rank)。
2. 找出每对数据在等级上的差异 (\(d\))。
3. 将这些差异平方 (\(d^2\))。
4. 使用公式:\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)
你知道吗?斯皮尔曼等级相关系数是一种非参数 (non-parametric) 检验。这是一个花哨的说法,意指它不依赖总体的“形状”(分布)。它不需要我们前面提到的“鸡蛋形”云分布!
注意:在 OCR H235 考试中,你最多只需为 10 对数据进行计算,并且不需要担心“同分排名 (tied ranks)”(即两个项目数值相同的情况)。
重点总结:当你拥有等级数据,或者想衡量关联性 (association)(即一个变量增加时,另一个变量是否也增加?)即便它不是呈直线时,请使用斯皮尔曼系数。
4. 选择正确的系数
在考试中,你可能会被问到为什么选择皮尔逊或斯皮尔曼相关系数。这里有一个简单的指南帮助你做决定:
若符合以下条件,请使用皮尔逊 (\(r\)):
- 散点图看起来像是一条直线。
- 数据是定量 (quantitative) 的(实际测量值)。
- 可以假设数据符合双变量正态分布(即那个鸡蛋形的云)。
若符合以下条件,请使用斯皮尔曼 (\(r_s\)):
- 数据已经是等级 (ranks) 形式。
- 散点图显示的是曲线关系 (association) 而非直线。
- 存在极值 (outliers)(皮尔逊系数非常受极值影响;而斯皮尔曼因为只看等级,处理起来会更好)。
类比:想象皮尔逊系数就像一把直尺——它专门检查直线度。而斯皮尔曼系数就像楼梯——它只关心你是向上还是向下走,而不论每一级台阶有多陡峭。
快速复习箱:
- 线性相关 (Linear Correlation) = 直线关系(使用 PMCC)。
- 关联性 (Association) = 一个变量增加,另一个也增加/减少,但可能是曲线(使用斯皮尔曼)。
- 编码 (Coding) = 对数据进行数值的加减乘除,并不会改变相关系数的值。
最后鼓励:相关系数是统计学中最实用的部分之一。一旦你掌握了“线性”与“关联性”之间的区别,你就已经克服了本章最大的障碍!