欢迎来到双变量数据的世界!
在本章中,我们将探讨两个不同变量之间的关系。你可以把它想象成数学界的“配对服务”——我们想找出一个变量的变化(例如你的复习时间)是否与另一个变量的变化(例如你的考试成绩)有关联。读完这些笔记后,你将学会如何将这些关系可视化、衡量它们的强弱,甚至预测未来的数值。如果一开始觉得术语有点多,别担心,我们会一步一步来!
1. 双变量数据的两种类型
在我们开始绘图之前,我们必须先了解我们正在测量的是什么。在进阶数学(Further Maths)的世界里,我们将双变量数据分为两类“情况”(Cases):
情况 A:随机变量对非随机变量(Random on Non-Random)
这种情况发生在实验者控制其中一个变量(自变量,通常为 \(x\)),并测量另一个变量(因变量,\(y\))时。
例子: 你决定测试一条弹簧,挂上特定的重量(2kg, 4kg, 6kg)并测量它的伸长量。重量是你选择的,所以它们不是“随机”的,但弹簧的伸长量则是随机的。
情况 B:随机变量对随机变量(Random on Random)
这种情况发生在两个变量都是自然发生,而我们只是观察它们时。两者均不受人为控制。
例子: 你测量 50 名随机学生的身高和体重。你并没有“选择”一名学生刚好 170cm 高;身高和体重都是随机变量。这种情况在图表上通常看起来像是一团“数据云”。
快速回顾:
• 情况 A: 其中一个受控(就像实验室里的科学家)。
• 情况 B: 两个都是随机的(就像观察自然现象)。
重点提示: 辨识情况非常重要,因为这会改变我们日后诠释结果的方式!
2. 散点图(Scatter Diagrams)
散点图是我们的首选分析工具。它是一种可视化呈现方式,每个数据对都会在网格上显示为一个点。
如何建立:
1. 自变量(或你控制的变量)放在水平的 \(x\)轴。
2. 因变量(你测量的变量)放在垂直的 \(y\)轴。
3. 寻找极值(Outliers):这些点“不符合”整体规律。它们可能是测量误差,也可能是非常特殊的案例。
你知道吗? 软件通常会为你绘制一条“趋势线”。它有时还会给你一个称为 \(r^2\) 的值。这告诉你 \(y\) 的变化中有多少比例是由 \(x\) 的变化所解释的。
重点提示: 永远先观察散点图。如果这些点看起来杂乱无章,线性模型可能并非最佳选择!
3. 衡量相关性:皮尔逊积矩相关系数(PMCC,\(r\))
皮尔逊积矩相关系数(Pearson’s Product Moment Correlation Coefficient,简称 PMCC,以 \(r\) 表示)是一个用来衡量点与完美直线有多贴近的数值。
关于 \(r\) 的重要规则:
• 范围: \(r\) 的值始终在 \(-1\) 和 \(1\) 之间。
• \(r = 1\): 完全正线性相关(斜率向上)。
• \(r = -1\): 完全负线性相关(斜率向下)。
• \(r = 0\): 完全没有线性相关。
什么时候可以使用它?
只有当数据属于随机对随机(情况 B)且符合双变量正态分布(Bivariate Normal Distribution)时,你才能对 \(r\) 进行正式的假设检验。在散点图上,这看起来像是一团椭圆形(鸡蛋状)的点。如果数据呈现曲线,或数据分布偏斜,PMCC 可能会产生误导!
记忆小贴士: 把 \(r\) 看作“直线的可靠性”。如果 \(r\) 接近 1 或 -1,代表这条直线非常可靠。
重点提示: PMCC 衡量的是线性关系,对于曲线并不适用!
4. 斯皮尔曼等级相关系数(Spearman’s Rank,\(r_s\))
有时数据并非呈现完美的直线,或者很难精确测量(例如才艺比赛中的“排名”)。这就是斯皮尔曼等级相关系数派上用场的时候。
为何使用它?
• 它测试的是关联性(整体趋势),而非单纯的直线关系。
• 它适用于非线性数据,只要它是单调的(始终递增或始终递减)。
• 它对数据的“正态分布”没有任何假设要求。它非常强大且适用范围广!
处理过程:
1. 将两个变量的数据分别进行排名(第 1 名、第 2 名、第 3 名……)。
2. 计算这些排名的 PMCC(你的计算器可以直接做到!)。
常见错误: 别忘了,当你对数据进行排名时,你会“丢失”关于数值之间实际距离的一些信息。只有在数据不适合使用 PMCC 时,才使用斯皮尔曼相关系数。
重点提示: 直线和“正态”数据用 \(r\);曲线或排名数据用 \(r_s\)。
5. 相关性的假设检验
我们使用假设检验来判断样本中发现的相关性是否真的存在于整个总体中,还是仅仅是巧合。
设定:
• 零假设(Null Hypothesis, \(H_0\)): 总体中没有相关性(总体相关系数 \(\rho = 0\))。
• 备择假设(Alternative Hypothesis, \(H_1\)): 存在相关性(\(\rho \neq 0\)、\(\rho > 0\) 或 \(\rho < 0\))。
决策:
将你计算出的 \(r\) 或 \(r_s\) 值与查表得出的临界值(Critical Value)进行比较(或使用软件提供的 p-value)。
• 如果你的值比临界值更极端,则拒绝 \(H_0\)。
• 结论必须结合情境:例如“有足够的证据显示气温与雪糕销量之间存在正相关”。
重点提示: 假设检验并不能证明因果关系;它只能证明变量之间存在关联。
6. 回归线(最佳拟合线)
回归线是一种形式为 \(y = a + bx\) 的数学方程,能帮助我们预测数值。
最小二乘法回归(Least Squares Regression)
此方法能找到使残差(Residuals)平方和最小化的那条线。
什么是残差? 它是实际数据点与直线之间的垂直距离。
残差 = 观测值 – 预测值。
该用哪条线?
• 在情况 A 中: 我们通常只有一条线(即 \(y\) 对 \(x\) 的回归)。
• 在情况 B 中: 我们有两条可能的线!
1. 使用 \(y\) 对 \(x\) 来估计给定 \(x\) 下的 \(y\)。
2. 使用 \(x\) 对 \(y\) 来估计给定 \(y\) 下的 \(x\)。
这两条线永远都会穿过“平均点” \((\bar{x}, \bar{y})\)。
内插法(Interpolation)与外推法(Extrapolation)
• 内插法: 预测数据范围内的数值。这通常是安全且可靠的。
• 外推法: 预测数据范围外的数值。这非常危险,因为趋势可能不会持续下去!
快速回顾:
• 残差: 残差越小,拟合效果越好。
• 内插法: 留在数据范围内(安全)。
• 外推法: 超出数据范围(有风险)。
重点提示: 明智地使用回归线!不要试图用基于幼儿的数据模型来预测 50 岁成人的身高(那就是外推法!)。
7. 双变量数据总结
• 可视化: 先用散点图检查“情况”并寻找极值。
• 衡量: 线性/正态数据用 \(r\);非线性/排名数据用 \(r_s\)。
• 检验: 使用假设检验来确认关系是否在统计学上显著。
• 预测: 使用回归线进行内插,但要非常小心外推的情况。
• 诠释: 永远将你的数学发现链接回题目所提供的现实情境中。