欢迎来到双变量数据的世界!
你有没有想过,花在社交媒体的时间与考试成绩之间是否存在某种规律?或者身高较高的人,鞋码是否真的会比较大?在本章中,我们将探讨两个不同的“变量”(我们可以测量的数据)如何相互关联。读完这份笔记后,你将能像专家一样解读散点图,并学会使用数学模型来预测未来!如果数学平时对你来说像外星语,别担心——我们会将它拆解,让你一步步掌握。
1. 什么是散点图?
散点图 (Scatterplot) 其实就是一种利用点来显示两组数据之间关系的图表。一个变量放在 x 轴(横轴),另一个变量则放在 y 轴(纵轴)。
类比: 你可以把散点图想像成一张数据点的“地图”。每个点代表一个人或一个事件。例如,如果我们在研究身高和体重,一个点就代表某人的特定身高及其对应的特定体重。
相关类型 (Types of Associations)
当我们观察这群点组成的“云状分布”时,我们是在寻找一种规律,这也称为相关 (Association / Correlation):
正相关 (Positive Association): 点的趋势基本上从左到右向上移动。这意味着当一个数值增加时,另一个数值也随之增加。(例子:复习时间越长,成绩通常越高。)
负相关 (Negative Association): 点的趋势基本上从左到右向下移动。这意味着当一个数值增加时,另一个数值反而减少。(例子:汽车行驶的里程数越多,油箱里的汽油就越少。)
无相关 (No Association): 点就像撒落一地的闪粉一样到处乱跳,没有明显的规律。(例子:你的鞋码和你最喜欢的颜色。)
快速复习:
正相关: \(x \uparrow, y \uparrow\)
负相关: \(x \uparrow, y \downarrow\)
无相关: 完全没有规律!
重点总结: 散点图让我们一眼就能看出两件事物是否相关。如果点形成了一种类似于“直线”的形状,就代表它们之间存在关系!
2. “模型”(最佳拟合线)
由于现实世界的数据往往比较凌乱,点通常不会排成一条完美的直线。为了从混乱中理出头绪,我们会画出一条最佳拟合线 (Line of best fit)(或称趋势线 trend line)。这是一条穿过那群点中央的直线。
解读方程
在 SAT 考试中,你经常会看到这条线以线性方程的形式出现:\( y = mx + b \)。
斜率 (\(m\)): 这告诉你当 \(x\) 每增加一个单位时,\(y\) 值预计会改变多少。
例子: 如果斜率是 \(5\),这代表你每多复习 1 小时,预测分数就会提高 5 分。
y 截距 (\(b\)): 这是当 \(x\) 为零时,\(y\) 的预测值。
例子: 如果 y 截距是 \(40\),这代表如果你复习了 0 小时,预测分数会是 40 分。
你知道吗? 最佳拟合线不一定要触及任何实际的数据点!它只是对整体趋势的一个总结。
要避免的常见错误: 不要误以为斜率总是“总数”。斜率是变化率 (rate of change)。在应用题中,要留意“每 (per)”、“每个 (each)”或“每一 (every)”等字眼来辨认斜率。
重点总结: 最佳拟合线是数据的“简化版”,帮助我们进行预测。
3. 进行预测:预测值 vs. 实际值
SAT 最常见的问题之一,就是要求你比较预测值 (Predicted value)与实际值 (Actual value)。
实际值: 这是现实生活中的数据点(图表上的那个点)。
预测值: 这是针对特定的 \(x\),在最佳拟合线上所对应的数值。
步骤拆解:如何找出差异
1. 在横轴上找到问题所要求的 \(x\) 值。
2. 将手指向上移到那个点,看它的 实际 (Actual) 数值。
3. 在同一个 \(x\) 位置,将手指移到那条线,看它的 预测 (Predicted) 数值。
4. 点与线之间的垂直“间距”就是误差(通常称为残差 residual)。
如果点在线的上方,代表模型低估 (underestimated) 了实际值。如果点在线的下方,则代表模型高估 (overestimated) 了实际值。
重点总结: “线”是数学上的最佳猜测;“点”则是真实发生的情况。
4. 线性模型 vs. 指数模型
SAT 希望你了解“以固定速率增长”的关系,与“增长得越来越快”的关系之间的区别。
线性增长 (Linear Growth)
形状: 一条直线。
规则: 每次都加上相同的数值。
例子: 你每周储蓄 \$10。(\(10, 20, 30, 40...\))
指数增长 (Exponential Growth)
形状: 一条越来越陡峭的曲线。
规则: 每次都乘以相同的百分比或倍数。
例子: 细菌数量每小时翻倍。(\(2, 4, 8, 16...\))
记忆小窍门:
Linear = Line(直线)
Exponential = Explosion(像爆炸一样,变得非常快!)
重点总结: 如果题目提到“固定速率 (constant rate)”或“固定金额 (fixed amount)”,请联想到线性 (Linear)。如果提到“百分比增长 (percent increase)”、“翻倍 (doubling)”或“三倍 (tripling)”,请联想到指数 (Exponential)。
5. 离群值:数据中的叛逆者
有时候你会看到一个点远离所有其他的点,这被称为离群值 (Outlier)。
类比: 如果你在测量小学五年级学生的身高,这时突然走进来一名 NBA 球员,那么这名球员的身高就是离群值。它不符合该群体其余部分的规律。
为什么这很重要: 离群值会把最佳拟合线往它们的方向“拉”,导致模型对其余数据的预测变得不那么准确。在辨认趋势时,我们通常会观察整体的“云状分布”而忽略个别奇特的点。
考试快速总结:
1. 看方向: 向上 = 正相关,向下 = 负相关。
2. 解读斜率: 它是“每单位”的变化量。
3. 检查 y 截距: 它是起始值(当 \(x = 0\) 时)。
4. 找差异: 点 = 实际,线 = 预测。
5. 线性 vs. 指数: 相加 vs. 相乘。
一开始觉得困难是很正常的!散点图的核心在于观察视觉规律。一旦你开始能“看见”点群中的隐形线条,你就会成为这方面的达人!