欢迎来到关系的世界!

在统计学中,我们经常想知道两件事物之间是否有关联。你花在玩游戏上的时间会影响考试成绩吗?外面的温度会改变冰淇淋的销量吗?本章的主角是双变量数据 (Bivariate data),这只是一个比较高级的说法,意思是“包含两个变量的数据”。

学完这些笔记后,你将能够识别规律、画出预测未来的直线,并明白为什么即使两件事同时发生,也不代表其中一件事导致了另一件事!

1. 基础概念:双变量数据

双变量数据涉及成对的测量值。每个“对象”都会给我们两项信息(例如一个人的身高和体重)。

要观察这些关系,我们使用散点图 (Scatter Diagram)。但在绘制点之前,我们需要先分清哪个轴代表什么:

  • 解释变量 (Explanatory Variable)(自变量):这是我们认为可能“解释”变化的变量。它总是放在 \(x\) 轴(水平轴)上。
  • 反应变量 (Response Variable)(应变量):这是我们正在测量的“结果”。它总是放在 \(y\) 轴(垂直轴)上。

例子:如果你正在调查“温习时数”是否影响“考试成绩”,温习时数就是解释变量 (\(x\)),而考试成绩就是反应变量 (\(y\))。

快速复习:记住字母表中 \(x\)\(y\) 之前,正如“解释”的原因 (Explanatory) 应在“反应”的结果 (Response) 之前!

2. 描述关系:相关性 (Correlation)

当我们观察散点图时,我们是在寻找相关性——即对点的分布状况的描述。

相关性的类型

  • 正相关 (Positive Correlation):当 \(x\) 增加,\(y\) 也增加。点从左下向右上分布(像是在爬山)。
  • 负相关 (Negative Correlation):当 \(x\) 增加,\(y\) 减少。点从左上向右下分布(像是在滑滑梯)。
  • 零相关 (Zero Correlation):点像云一样散布在各处。没有明显的关联。

相关性的强弱

我们还会描述这种规律有多“整齐”:

  • 强 (Strong):点非常接近一条直线。
  • 弱 (Weak):你可以看出大致的方向,但点分布得比较散。

你知道吗?相关性有点像友谊。相关性“强”意味着这两个变量是“好朋友”,总是紧密地跟随对方!

3. 相关性 vs. 因果关系 (Correlation vs. Causation)

这是考试中最爱考的题目!仅仅因为两件事有相关性,并不代表其中一件事导致了另一件事。这被称为关联 (Association)

例子:冰淇淋销量和鲨鱼袭击次数之间存在正相关。吃冰淇淋会导致鲨鱼咬人吗?当然不会!两者都是由第三个因素引起的:天气炎热

当相关性是偶然的,或是由其他因素引起时,我们称之为虚假相关 (Spurious correlation)

重点总结:相关性显示了一种链接,但它不能证明“产品 A”导致了“结果 B”。

4. 最优拟合线 (Line of Best Fit)

最优拟合线是一条穿过点群中间的直线,用来显示总体趋势。你可以用它来进行预测。

如何精确绘制:

  1. 计算平均数点 (Double Mean Point)。这是点 \((\bar{x}, \bar{y})\),其中 \(\bar{x}\) 是所有 \(x\) 值的平均数,\(\bar{y}\) 是所有 \(y\) 值的平均数。
  2. 你的直线必须穿过这个平均数点 \((\bar{x}, \bar{y})\)。
  3. 尽量让线条上方和下方的点数量大致相等。

进行预测

  • 内插法 (Interpolation):预测数据范围的值。这通常非常可靠!
  • 外推法 (Extrapolation):预测数据范围的值(例如,如果你的数据只到 10 年车龄,却去预测 100 年车龄的汽车价格)。警告:这风险很高且通常不准确,因为趋势可能会改变!

常见错误:学生经常尝试强行让拟合线穿过原点 \((0,0)\)。除非数据真的符合原点且符合现实情境,否则不要这样做!

5. 测量相关性(Higher Tier 高阶课程)

基础程度 (Foundation) 的学生用文字描述相关性,而高阶程度 (Higher) 的学生则使用 -1 到 +1 之间的数字。

斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)

这衡量两个变量的等级(顺序)吻合程度。
\(+1\) = 等级完全吻合。
\(-1\) = 等级完全相反。
\(0\) = 完全不吻合。

公式(考试时会提供)为:
\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)
其中 \(d\) 是等级之间的差,\(n\) 是对数。

皮尔森积动差相关系数 (Pearson’s Product Moment Correlation Coefficient, PMCC)

这衡量线性(直线)关系的强度。
+1:完美的正线性相关。
-1:完美的负线性相关。
0:无线性相关。

斯皮尔曼 vs. PMCC:有什么区别?

  • PMCC 仅适用于直线。
  • 斯皮尔曼适用于任何一种变量增加、另一种也增加的关系(即使它是曲线!)。
  • 例子:如果数据呈曲线状,斯皮尔曼相关系数可能会很高(接近 \(+1\)),但 PMCC 可能会较低,因为它不是完美的直线。

重点总结:数值越接近 \(+1\) 或 \(-1\),相关性就越。接近 \(0\) 的数值表示相关性很

总结:散点图速览

  • 绘图:\(x\) 是解释变量,\(y\) 是反应变量。
  • 相关性:可以是正、负或零;也可以是强或弱。
  • 因果关系:有相关性不代表有因果关系!
  • 最优拟合线:必须穿过平均数点 \((\bar{x}, \bar{y})\)。
  • 预测:内插法安全;外推法是“危险地带”。
  • 系数:\(-1\)(负)到 \(+1\)(正)。\(0\) 代表无相关。

如果公式起初看起来很吓人,别担心——专注于图表告诉你的“故事”,数学自然会变得简单!