简介:衡量变量间的关系
欢迎来到统计学的世界!在本章中,我们将探讨相关性 (Correlation)。简单来说,相关性是用来衡量两件事物之间关系强弱的方法。例如:你花在复习的时间与考试成绩之间是否有关联?或者一个人的身高与鞋码之间是否存在联系?
在进阶统计学 2 (Further Statistics 2) 中,我们不仅仅是观察散点图 (scatter graph),还会使用数学工具为这些关系赋予数值,从而协助我们判断数据模式是“真实存在”的,还是仅仅出于巧合。别担心公式看起来很多,我们会一步步为你拆解!
1. 积差相关系数 (PMCC)
积差相关系数 (Product Moment Correlation Coefficient)(通常简称为 \(r\))用于衡量两个变量之间线性 (linear) 关系的强度和方向。
\(r\) 的数值代表什么?
- \(r = 1\):完美的正线性相关(一条完美指向右上方的直线)。
- \(r = -1\):完美的负线性相关(一条完美指向右下方的直线)。
- \(r = 0\):完全没有线性相关。
从概括统计量计算 \(r\)
在考试中,题目通常会提供“概括统计量”(summary statistics),例如 \( \sum x, \sum y, \sum x^2, \sum y^2, \) 和 \( \sum xy \)。你需要利用这些数据计算出以下基础组件:
\( S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} \)
\( S_{yy} = \sum y^2 - \frac{(\sum y)^2}{n} \)
\( S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n} \)
最终的 PMCC 计算公式为:
\( r = \frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}} \)
使用条件
只有当你认为两者关系是线性(直线)时,才应该使用 PMCC。如果散点图看起来呈曲线状,\(r\) 所算出的数值可能会产生误导,使相关性看起来过低!
数据编码 (Coding) 的奥妙
你知道吗? PMCC 不受数据编码影响。如果你将每个 \(x\) 值加上 10,或将每个 \(y\) 值乘以 5,\(r\) 的值将保持完全不变。它只关心数据的模式,而不关心数值的比例或缩放。
重点总结
PMCC (\(r\)) 专用于直线关系。其数值范围从 -1 到 1,且不会因加上或乘以常数而改变。
2. 斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)
有时候,数据并非呈完美的直线,又或是“定性”数据(例如将 10 部电影排名)。这时就需要用到斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient) (\(r_s\))。
何时使用斯皮尔曼系数?
- 当关系是单调的 (monotonic)(沿单一方向移动,但不一定是直线)。
- 当数据已经是等级 (ranks) 形式时。
- 当存在会影响 PMCC 准确性的离群值 (outliers) 时。
计算 \(r_s\) 的步骤
1. 将两组变量的数据分别排序 (Rank)(通常最小值记为 1,第二小记为 2,依此类推)。
2. 计算每一对数据的等级差值 (difference) (\(d\))。
3. 将这些差值平方 (square) (\(d^2\))。
4. 加总这些平方差值 (\(\sum d^2\))。
5. 代入公式:
\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)
注:\(n\) 是数据对的数量。
处理“同分” (Ties)
如果两个项目数值相同,则属于“同分”。处理方法是给予它们本应占据等级的平均值。例如,如果两个人并列第 2 和第 3 名,则两人的等级都设为 2.5。
重点总结
斯皮尔曼系数 (\(r_s\)) 用于等级数据或非线性模式。如果你看到一条不断上升的“蛇形”曲线,即使 PMCC 很低,斯皮尔曼系数依然会很高。
3. 相关性的假设检验 (Hypothesis Testing)
当你算出相关系数(\(r\) 或 \(r_s\))后,你需要检查它是否具有“统计显著性”。我们是在基于小样本数据,检验在总体 (population) 中是否存在相关性。
假设设定
- 针对 PMCC: 使用希腊字母 \(\rho\) (rho)。
\(H_0: \rho = 0\)(总体中无相关性)
\(H_1: \rho \neq 0\)(存在相关性 - 双尾检验)或 \(\rho > 0\) / \(\rho < 0\)(单尾检验)。 - 针对斯皮尔曼: 使用 \(\rho_s\)。
\(H_0: \rho_s = 0\)
\(H_1: \rho_s \neq 0\)(或 \(>\) 或 \(<\))。
临界值 (Critical Value)
完成检验的步骤:
1. 在考试提供的统计表中查阅临界值。你需要知道样本大小 (\(n\)) 和显著性水平(例如 5%)。
2. 比较: 如果你的计算结果的绝对值大于临界值(忽略负号),则结果是显著的。你会拒绝 \(H_0\)。
PMCC 检验的重要条件
要对 PMCC 进行假设检验,数据必须来自双变量正态分布 (bivariate normal distribution)。简单来说,如果你在 3D 空间中绘制这些数据,它们看起来应该像一个钟形的土丘。你不需要在考试中证明这一点,但若题目问及,你必须说明这是必要条件!
速览:决策规则
若 \(|r| > \text{临界值}\) \(\rightarrow\) 拒绝 \(H_0\),即有证据表明存在相关性。
4. 比较 PMCC 与斯皮尔曼系数
同学经常问:“我该选哪一个?”以下是一个简单的对比,帮助你决定。
- 类比: 想象一排排队的学生。
- PMCC 在意的是他们之间具体相隔多少厘米(实际距离)。
- 斯皮尔曼系数 只在意谁排在谁前面(先后顺序)。 - “直线”测试: 若呈直线关系则用 PMCC;若呈曲线关系则用斯皮尔曼。
- “敏感度”测试: PMCC 对离群值非常敏感。斯皮尔曼系数则更“稳健”(robust),因为排名会将极端数值“压缩”回原本的顺位。
重点总结
记得先看散点图!如果是直线且数据呈正态分布,PMCC 是你的首选;如果是曲线或分布杂乱,斯皮尔曼系数会更安全。
常见错误提示
- 忘记排名: 计算斯皮尔曼系数时,不要直接使用原始数值!必须先将其转化为 1, 2, 3... 的等级。
- 混淆 \(\rho\) 与 \(r\): 使用 \(r\) 表示你的样本计算结果,而在撰写假设 (\(H_0\) 和 \(H_1\)) 时则使用 \(\rho\)。
- 忽略符号: -0.8 的相关性与 +0.8 一样强,负号仅代表方向(下降)。
- 相关性 \(\neq\) 因果关系: 两者相关并不代表一方是另一方的成因。(例子:雪糕销量与鲨鱼袭击次数相关,是因为天气热,而不是因为雪糕吸引了鲨鱼!)