简介:建立联系

欢迎来到相关性 (Correlation) 的学习领域!在统计学中,我们经常想知道两者之间是否存在关联。例如:花更多时间复习是否会带来更高的分数?人的身高是否与鞋码有关?相关性为我们提供了一种利用数字来衡量这些关系强度与方向的方法。

在本章中,你将学习如何计算这些数值,测试关系是“真实存在”还是纯属巧合,并判断哪种方法最适合不同类型的数据。如果起初看到某些公式觉得很复杂,不用担心——我们会带你一步步拆解!


1. 皮尔逊积差相关系数 (PMCC)

PMCC(以字母 \(r\) 表示)是用于衡量两个变量之间线性关系的指标。你可以把它想象成一个“直线测量器”:它告诉我们散点图 (scatter diagram) 上的点在多大程度上聚集在一条直线周围。

\(r\) 的关键特征:

  • \(r\) 的值始终介于 -1 与 +1 之间。
  • \(r = +1\):完全正线性相关(完美的向上的直线)。
  • \(r = -1\):完全负线性相关(完美的向下的直线)。
  • \(r = 0\):完全没有线性相关。

你知道吗? PMCC 只测量直线模式。如果你的数据点形成一个完美的“U”型,即使两者之间显然存在关系,PMCC 的值也可能为 0!

线性编码 (Linear Coding) 的奥妙

PMCC 的一个非常有用的特性是它不受线性编码的影响。这意味着如果你对所有的 \(x\) 或 \(y\) 数值进行加、减、乘或除一个常数,\(r\) 的值会保持不变。
例如:如果你以厘米为单位测量身高,然后全部转换为米,相关系数 \(r\) 是完全不会改变的!

计算 \(r\)

在考试中,你需要使用计算器的统计功能从原始数据中求出 \(r\)。
小贴士:务必仔细检查你的数据输入!输入错一个数字都可能使最终的 \(r\) 值出现重大偏差。

重点总结:PMCC 测量数据点距离直线有多近。它是一个介于 -1 到 1 之间的数值,不会因数据的平移或缩放而改变。


2. 使用 PMCC 进行假设检验

仅仅因为我们在小样本中发现了相关性,并不代表整个群体中也存在这种相关性。我们使用假设检验 (Hypothesis testing) 来检查结果是否具有统计显著性。

假设前提:双变量正态分布 (Bivariate Normal Distribution)

为了使 PMCC 的假设检验有效,我们假设数据来自双变量正态分布。这是一个高级的说法,意指两个变量都遵循正态分布,且当在 3D 图表中绘制时,它们的联合分布看起来像一个“钟形山丘”。

假设设定:

  • 零假设 (Null Hypothesis, \(H_0\)): \(\rho = 0\)(在群体中没有相关性)。
  • 对立假设 (Alternative Hypothesis, \(H_1\)):
    • \(\rho \neq 0\)(双尾检验:存在某种相关性)。
    • \(\rho > 0\)(单尾检验:存在相关性)。
    • \(\rho < 0\)(单尾检验:存在相关性)。

注意:我们使用希腊字母 \(\rho\) (rho) 来代表群体 (population) 的相关性,而 \(r\) 则是代表我们的样本 (sample)

如何检验:

  1. 明确说明 \(H_0\) 和 \(H_1\)。
  2. 确定显著性水平 (significance level)(例如 5%)和样本大小 (\(n\))。
  3. 从提供的统计表中找到临界值 (critical value)
  4. 将计算出的 \(r\) 与临界值进行比较:
    • 如果 \(|r| > \text{临界值}\),则拒绝 \(H_0\)。有证据表明存在相关性!
    • 否则,不拒绝 \(H_0\)。

重点总结:我们将样本 \(r\) 与临界值进行比较,以查看群体 \(\rho\) 是否很有可能不为零。请务必在答题中提及“双变量正态分布”作为你的基本假设!


3. 斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)

有时候,数据并非线性,或者数据是以“等级”给出的(如第 1 名、第 2 名、第 3 名)。这时就是斯皮尔曼等级相关系数 (\(r_s\)) 大显身手的时候了。

何时使用斯皮尔曼:

  • 当关系是单调的 (monotone) 时(数据一直上升或一直下降,但不一定是直线)。
  • 当数据已经是等级 (ranks) 或属于定性数据 (qualitative) 时(例如:才艺表演评分)。
  • 当数据中存在离群值 (outliers),可能会将 PMCC 的结果“拉偏”时。

计算方法(适用于最多 10 对数据):

公式为:\(r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)}\)

步骤说明:

  1. 对两个变量的数据进行排名 (Rank)(最小值排 1,次小值排 2,以此类推)。
  2. 计算每对数据排名之间的差值 (\(d\))
  3. 将每个差值平方 (\(d^2\))
  4. 将这些平方值求和 (\(\sum d^2\))
  5. 将总和与数据对数 (\(n\)) 代入公式即可。

避免常见错误:确保你对两组数据进行排名的方向一致(例如:都从最小到最大)。此外,对于本课程大纲,你不需要处理“并列排名”(tied ranks)(即两个项目数值相同的情况)。

重点总结:斯皮尔曼使用排名而不是原始数值。它非常适合非线性但一致的关系,且属于非参数统计 (non-parametric) 检验(它对群体分布没有任何假设)。


4. 使用斯皮尔曼进行假设检验

与 PMCC 类似,我们可以使用斯皮尔曼系数来检验群体中是否存在关联 (association)。由于它不需要对群体进行任何假设(如正态性),因此被称为非参数检验。

假设设定:

  • \(H_0\): 两变量在群体中没有关联。
  • \(H_1\): 存在关联(或特定的正/负关联)。

你需要使用特定的斯皮尔曼临界值表来进行检验。过程是一样的:如果你的 \(|r_s|\) 大于临界值,你就拒绝零假设。

快速复习:
- PMCC: 检验线性相关。需要正态分布假设。
- 斯皮尔曼: 检验关联性。适用于非线性已排名的数据。不需要分布假设。


5. 选择正确的系数

考试中常有一题要求你解释为什么选择某种系数。请参考以下指南:

  • 选择 PMCC 的情况: 散点图看起来是线性的,并且你可以假设它服从双变量正态分布
  • 选择斯皮尔曼的情况: 数据是已排名的,关系是非线性的(有弧度但趋势一致),或者存在会干扰 PMCC 的离群值

比喻:想象一下测量弹簧的拉伸程度,直线尺(PMCC)是完美的。但如果你在测量一个人对辣酱的喜好程度(1 到 10 分),那么“排名”系统(斯皮尔曼)就合理得多!

重点总结:一定要先看散点图。如果是直线,PMCC 是你的最佳选择。如果是曲线或涉及“顺序”,请使用斯皮尔曼。


总结清单

在完成本章之前,请确保你能做到:

  • 使用计算器计算 PMCC
  • 解释为什么线性编码不会改变 PMCC。
  • PMCC 进行假设检验(记住“双变量正态分布”的假设!)。
  • 对数据进行排名并计算 斯皮尔曼等级相关系数
  • 斯皮尔曼进行假设检验
  • 根据散点图或背景信息在 PMCC 和斯皮尔曼之间做出选择。

如果刚开始觉得有些棘手也不要担心——只要多练习操作计算器和查阅统计表,这些分数将成为你最拿手的得分项目!