Scatter diagrams and correlation

欢迎来到关系的世界！

在统计学中，我们经常想知道两件事物之间是否有关联。你花在玩游戏上的时间会影响考试成绩吗？外面的温度会改变冰淇淋的销量吗？本章的主角是双变量数据 (Bivariate data)，这只是一个比较高级的说法，意思是“包含两个变量的数据”。

学完这些笔记后，你将能够识别规律、画出预测未来的直线，并明白为什么即使两件事同时发生，也不代表其中一件事导致了另一件事！

1. 基础概念：双变量数据

双变量数据涉及成对的测量值。每个“对象”都会给我们两项信息（例如一个人的身高和体重）。

要观察这些关系，我们使用散点图 (Scatter Diagram)。但在绘制点之前，我们需要先分清哪个轴代表什么：

解释变量 (Explanatory Variable)（自变量）：这是我们认为可能“解释”变化的变量。它总是放在 \(x\) 轴（水平轴）上。
反应变量 (Response Variable)（应变量）：这是我们正在测量的“结果”。它总是放在 \(y\) 轴（垂直轴）上。

例子：如果你正在调查“温习时数”是否影响“考试成绩”，温习时数就是解释变量 (\(x\))，而考试成绩就是反应变量 (\(y\))。

快速复习：记住字母表中 \(x\) 在 \(y\) 之前，正如“解释”的原因 (Explanatory) 应在“反应”的结果 (Response) 之前！

2. 描述关系：相关性 (Correlation)

当我们观察散点图时，我们是在寻找相关性——即对点的分布状况的描述。

3. 相关性 vs. 因果关系 (Correlation vs. Causation)

这是考试中最爱考的题目！仅仅因为两件事有相关性，并不代表其中一件事导致了另一件事。这被称为关联 (Association)。

例子：冰淇淋销量和鲨鱼袭击次数之间存在正相关。吃冰淇淋会导致鲨鱼咬人吗？当然不会！两者都是由第三个因素引起的：天气炎热。

当相关性是偶然的，或是由其他因素引起时，我们称之为虚假相关 (Spurious correlation)。

重点总结：相关性显示了一种链接，但它不能证明“产品 A”导致了“结果 B”。

4. 最优拟合线 (Line of Best Fit)

最优拟合线是一条穿过点群中间的直线，用来显示总体趋势。你可以用它来进行预测。

如何精确绘制：

计算平均数点 (Double Mean Point)。这是点 \((\bar{x}, \bar{y})\)，其中 \(\bar{x}\) 是所有 \(x\) 值的平均数，\(\bar{y}\) 是所有 \(y\) 值的平均数。
你的直线必须穿过这个平均数点 \((\bar{x}, \bar{y})\)。
尽量让线条上方和下方的点数量大致相等。

进行预测

内插法 (Interpolation)：预测数据范围内的值。这通常非常可靠！
外推法 (Extrapolation)：预测数据范围外的值（例如，如果你的数据只到 10 年车龄，却去预测 100 年车龄的汽车价格）。警告：这风险很高且通常不准确，因为趋势可能会改变！

常见错误：学生经常尝试强行让拟合线穿过原点 \((0,0)\)。除非数据真的符合原点且符合现实情境，否则不要这样做！

5. 测量相关性（Higher Tier 高阶课程）

基础程度 (Foundation) 的学生用文字描述相关性，而高阶程度 (Higher) 的学生则使用 -1 到 +1 之间的数字。

斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)

这衡量两个变量的等级（顺序）吻合程度。
\(+1\) = 等级完全吻合。
\(-1\) = 等级完全相反。
\(0\) = 完全不吻合。

公式（考试时会提供）为：
\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)
其中 \(d\) 是等级之间的差，\(n\) 是对数。

皮尔森积动差相关系数 (Pearson’s Product Moment Correlation Coefficient, PMCC)

这衡量线性（直线）关系的强度。
+1：完美的正线性相关。
-1：完美的负线性相关。
0：无线性相关。

斯皮尔曼 vs. PMCC：有什么区别？

PMCC 仅适用于直线。
斯皮尔曼适用于任何一种变量增加、另一种也增加的关系（即使它是曲线！）。
例子：如果数据呈曲线状，斯皮尔曼相关系数可能会很高（接近 \(+1\)），但 PMCC 可能会较低，因为它不是完美的直线。

重点总结：数值越接近 \(+1\) 或 \(-1\)，相关性就越强。接近 \(0\) 的数值表示相关性很弱。

总结：散点图速览

绘图：\(x\) 是解释变量，\(y\) 是反应变量。
相关性：可以是正、负或零；也可以是强或弱。
因果关系：有相关性不代表有因果关系！
最优拟合线：必须穿过平均数点 \((\bar{x}, \bar{y})\)。
预测：内插法安全；外推法是“危险地带”。
系数：\(-1\)（负）到 \(+1\)（正）。\(0\) 代表无相关。

如果公式起初看起来很吓人，别担心——专注于图表告诉你的“故事”，数学自然会变得简单！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。