欢迎来到回归与相关分析的世界!
在你的统计学 1 (S1) 学习中,你已经学过如何利用积差相关系数 (PMCC) 来判断两个变量之间是否存在线性关系。现在,在 S3 单元中,我们要更进一步!我们将学习如何处理并非完美线性的数据,更重要的是,如何证明一个相关关系是“真实存在”的,而非仅仅由随机误差造成。别担心统计学听起来很深奥——我们会把它拆解成简单、易于掌握的步骤。
1. 斯皮尔曼等级相关系数 \( (r_s) \)
有时候,我们想知道两件事物之间是否有关联,但它们在图表上并不呈直线分布。又或者,这些数据是基于排名 (Ranks) 的(例如才艺表演中参赛者获得第 1、第 2 和第 3 名)。这就是斯皮尔曼等级相关系数 (Spearman's Rank Correlation Coefficient) 大显身手的时候了。
为什么要用斯皮尔曼而不是 PMCC?
- 非线性关系: 如果数据趋势一致(同时上升或同时下降)但并非呈直线,使用斯皮尔曼系数会更准确。
- 等级数据: 当你手头上只有项目的先后顺序,而没有确切的数值时。
- 极端值 (Outliers): 斯皮尔曼系数受一两个“奇怪”数据点的影响较小,因为它只关注顺序,而不是具体的数值。
如何逐步计算 \( r_s \)
即使计算机可以帮你完成部分运算,你仍然需要理解其中的过程。以下是该公式:
\( r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)} \)
逐步指南:
- 将第一组数据 (\(x\)) 排名,由小到大(1 为最小)。
- 将第二组数据 (\(y\)) 排名,由小到大。
- 找出每一对数据在排名上的差值 (\(d\))。
- 将每个差值平方 (\(d^2\))。
- 将所有这些平方差值求和,得出 \( \sum d^2 \)。
- 代入公式计算,其中 \(n\) 是数据对的总数。
快速复习:结果代表什么?
就像 PMCC 一样,答案永远介于 +1 和 -1 之间。
+1: 完美的正等级相关(排名完全一致)。
0: 完全没有等级相关。
-1: 完美的负等级相关(排名完全相反)。
等等,如果出现“并列 (Ties)”怎么办?
如果两个人同时获得“第 2 名”,这就是并列。在考试中,你通常不会被要求计算带有并列情况的斯皮尔曼系数,但你应该知道处理方式:我们会给予他们这些名次的平均值。例如,如果有两项并列第 2 和第 3 名,那么它们都会得到 2.5 名。
重点总结: 斯皮尔曼相关系数的核心在于数据的顺序,而非实际数值。它非常适合用于比赛评分,或是判断一个变量是否随另一个变量增加,即便它们之间的关系并非直线。
2. 零相关性检验
想象一下,你计算出的相关系数是 0.5。这个数值是否“足够强”以证明两者相关,还是你只是运气好刚好抽样到了这个结果?在 S3 中,我们使用假设检验 (Hypothesis Testing) 来找出答案。
设定假设
当检验是否存在相关性时,我们的“预设”假设是整个总体中没有任何关系。
- 虚无假设 (\( H_0 \)): \( \rho = 0 \)(没有相关性)。
- 对立假设 (\( H_1 \)):
- \( \rho > 0 \)(怀疑存在正相关——单尾检验)。
- \( \rho < 0 \)(怀疑存在负相关——单尾检验)。
- \( \rho \neq 0 \)(仅怀疑存在某种相关性——双尾检验)。
注意:我们使用希腊字母 \( \rho \) (rho) 来表示 PMCC 的总体相关系数,使用 \( \rho_s \) 表示斯皮尔曼的总体相关系数。
使用统计查表
你不需要从头计算“p-value”。在考试中,你会得到一张临界值 (Critical Values) 表。这就像是你测试的“及格分数”。
- 查看你的样本大小 (\(n\))。
- 查看你的显著性水平 (Significance Level)(通常为 5% 或 1%)。
- 在表中找出临界值。
决策规则:
如果你计算出来的数值(忽略任何负号)大于表格中的临界值,你就有了足够的证据!这时你拒绝 \( H_0 \),并得出结论:两者之间确实存在相关性。
记忆小技巧: 将临界值想象成一道跨栏。如果你的相关系数“够强”,足以跳过这道栏,你就成功证明了两者之间的关系!
加油: 如果起初觉得困难也不要灰心!最棘手的部分通常只是从表格中选对栏位。在查表之前,请务必再三确认你的测试是单尾还是双尾。
重点总结: 假设检验能告诉我们样本相关性是否强到足以代表整个总体。请善用提供的表格,并记得在结论中联系题目原本的背景!
3. 总结与常见错误
常见陷阱
- 查错表: PMCC 和斯皮尔曼有不同的表格,确保你使用的表格与你的计算方法匹配!
- 忘记将 \(d\) 平方: 在计算斯皮尔曼时,必须将差值平方 (\(d^2\))。如果不这样做,总和通常会变成零!
- 混淆双尾检验: 对于 5% 显著性水平的双尾检验,有些表格需要查看 0.025 的栏位(将 5% 分配到两端)——请务必仔细检查特定表格的标题!
- 误解 \( \rho = 0 \): 记住,对于 PMCC 而言,\( \rho = 0 \) 仅表示没有线性相关,但两者之间可能仍存在非线性关系。
你知道吗?
发明等级相关系数的查尔斯·斯皮尔曼 (Charles Spearman) 其实是一位心理学家。他利用这些统计方法发展了关于人类智力的理论!快速复习栏
公式: \( r_s = 1 - \frac{6\sum d^2}{n(n^2 - 1)} \)
\(H_0\): 总是假设相关系数为零 (\( \rho = 0 \))。
决策: 计算值 > 表格临界值 = 显著结果!
你现在已经掌握了 S3 回归与相关分析章节的核心内容。做得好!继续练习查表,因为一旦掌握了技巧,这就是考试中的“必得分数”。