欢迎来到关系的世界!
在统计学中,我们经常想知道两件事物之间是否有关联。你花在玩游戏上的时间会影响考试成绩吗?外面的温度会改变冰淇淋的销量吗?本章的主角是双变量数据 (Bivariate data),这只是一个比较高级的说法,意思是“包含两个变量的数据”。
学完这些笔记后,你将能够识别规律、画出预测未来的直线,并明白为什么即使两件事同时发生,也不代表其中一件事导致了另一件事!
1. 基础概念:双变量数据
双变量数据涉及成对的测量值。每个“对象”都会给我们两项信息(例如一个人的身高和体重)。
要观察这些关系,我们使用散点图 (Scatter Diagram)。但在绘制点之前,我们需要先分清哪个轴代表什么:
- 解释变量 (Explanatory Variable)(自变量):这是我们认为可能“解释”变化的变量。它总是放在 \(x\) 轴(水平轴)上。
- 反应变量 (Response Variable)(应变量):这是我们正在测量的“结果”。它总是放在 \(y\) 轴(垂直轴)上。
例子:如果你正在调查“温习时数”是否影响“考试成绩”,温习时数就是解释变量 (\(x\)),而考试成绩就是反应变量 (\(y\))。
快速复习:记住字母表中 \(x\) 在 \(y\) 之前,正如“解释”的原因 (Explanatory) 应在“反应”的结果 (Response) 之前!
2. 描述关系:相关性 (Correlation)
当我们观察散点图时,我们是在寻找相关性——即对点的分布状况的描述。
相关性的类型
- 正相关 (Positive Correlation):当 \(x\) 增加,\(y\) 也增加。点从左下向右上分布(像是在爬山)。
- 负相关 (Negative Correlation):当 \(x\) 增加,\(y\) 减少。点从左上向右下分布(像是在滑滑梯)。
- 零相关 (Zero Correlation):点像云一样散布在各处。没有明显的关联。
相关性的强弱
我们还会描述这种规律有多“整齐”:
- 强 (Strong):点非常接近一条直线。
- 弱 (Weak):你可以看出大致的方向,但点分布得比较散。
你知道吗?相关性有点像友谊。相关性“强”意味着这两个变量是“好朋友”,总是紧密地跟随对方!
3. 相关性 vs. 因果关系 (Correlation vs. Causation)
这是考试中最爱考的题目!仅仅因为两件事有相关性,并不代表其中一件事导致了另一件事。这被称为关联 (Association)。
例子:冰淇淋销量和鲨鱼袭击次数之间存在正相关。吃冰淇淋会导致鲨鱼咬人吗?当然不会!两者都是由第三个因素引起的:天气炎热。
当相关性是偶然的,或是由其他因素引起时,我们称之为虚假相关 (Spurious correlation)。
重点总结:相关性显示了一种链接,但它不能证明“产品 A”导致了“结果 B”。
4. 最优拟合线 (Line of Best Fit)
最优拟合线是一条穿过点群中间的直线,用来显示总体趋势。你可以用它来进行预测。
如何精确绘制:
- 计算平均数点 (Double Mean Point)。这是点 \((\bar{x}, \bar{y})\),其中 \(\bar{x}\) 是所有 \(x\) 值的平均数,\(\bar{y}\) 是所有 \(y\) 值的平均数。
- 你的直线必须穿过这个平均数点 \((\bar{x}, \bar{y})\)。
- 尽量让线条上方和下方的点数量大致相等。
进行预测
- 内插法 (Interpolation):预测数据范围内的值。这通常非常可靠!
- 外推法 (Extrapolation):预测数据范围外的值(例如,如果你的数据只到 10 年车龄,却去预测 100 年车龄的汽车价格)。警告:这风险很高且通常不准确,因为趋势可能会改变!
常见错误:学生经常尝试强行让拟合线穿过原点 \((0,0)\)。除非数据真的符合原点且符合现实情境,否则不要这样做!
5. 测量相关性(Higher Tier 高阶课程)
基础程度 (Foundation) 的学生用文字描述相关性,而高阶程度 (Higher) 的学生则使用 -1 到 +1 之间的数字。
斯皮尔曼等级相关系数 (Spearman’s Rank Correlation Coefficient)
这衡量两个变量的等级(顺序)吻合程度。
\(+1\) = 等级完全吻合。
\(-1\) = 等级完全相反。
\(0\) = 完全不吻合。
公式(考试时会提供)为:
\( r_s = 1 - \frac{6 \sum d^2}{n(n^2 - 1)} \)
其中 \(d\) 是等级之间的差,\(n\) 是对数。
皮尔森积动差相关系数 (Pearson’s Product Moment Correlation Coefficient, PMCC)
这衡量线性(直线)关系的强度。
+1:完美的正线性相关。
-1:完美的负线性相关。
0:无线性相关。
斯皮尔曼 vs. PMCC:有什么区别?
- PMCC 仅适用于直线。
- 斯皮尔曼适用于任何一种变量增加、另一种也增加的关系(即使它是曲线!)。
- 例子:如果数据呈曲线状,斯皮尔曼相关系数可能会很高(接近 \(+1\)),但 PMCC 可能会较低,因为它不是完美的直线。
重点总结:数值越接近 \(+1\) 或 \(-1\),相关性就越强。接近 \(0\) 的数值表示相关性很弱。
总结:散点图速览
- 绘图:\(x\) 是解释变量,\(y\) 是反应变量。
- 相关性:可以是正、负或零;也可以是强或弱。
- 因果关系:有相关性不代表有因果关系!
- 最优拟合线:必须穿过平均数点 \((\bar{x}, \bar{y})\)。
- 预测:内插法安全;外推法是“危险地带”。
- 系数:\(-1\)(负)到 \(+1\)(正)。\(0\) 代表无相关。
如果公式起初看起来很吓人,别担心——专注于图表告诉你的“故事”,数学自然会变得简单!