欢迎来到相关性与线性回归的世界!

你有没有想过,你花在社交媒体上的时间和你的考试分数之间是否存在真正的联系?或者个子较高的人脚真的比较大吗?在本章中,我们将探讨双变量数据(bivariate data)——这只是一个用来描述我们正在研究两个不同变量之间关系的高级说法。看完这些笔记后,你将学会如何识别规律、衡量它们的强弱,甚至(当然是从数学角度上)预测未来!

1. 散点图:观察规律

在我们接触任何公式之前,我们总是先观察数据。散点图(scatter diagram)是一种将数据点对 \((x, y)\) 绘制在坐标平面上的图表。

为什么要使用它?

我们使用散点图来判断是否存在合理的线性关系(plausible linear relationship)。简单来说:这些点看起来是否像是在尝试组成一条直线?

  • 正线性相关(Positive Linear Correlation): 当 \(x\) 增加时,\(y\) 也趋向于增加(点呈“上坡”趋势)。
  • 负线性相关(Negative Linear Correlation): 当 \(x\) 增加时,\(y\) 趋向于减少(点呈“下坡”趋势)。
  • 非线性关系(Non-linear Relationship): 点形成了一条曲线(例如“U”型)。
  • 无相关性(No Correlation): 点像撒落的胡椒粉一样散乱分布;没有明确的方向。

类比:将散点图想像成一个“连点成线”的拼图,只是点没有完全排成一条直线。你的工作是观察一把直线尺是否能大致覆盖其中的大部分点。

关键要点:

一定要先绘制散点图!这能防止你试图将直线强加在实际上是曲线的数据上。


2. 积差相关系数 (\(r\))

现在我们已经看到了规律,我们需要一种方法来衡量它。这就是 \(r\) 的用处。它告诉我们两件事:线性关系的强度方向

\(r\) 的数值范围

\(r\) 的值总是在 \(-1\)\(1\) 之间。

  • \(r = 1\): 完全正线性相关(一条完美的向上直线)。
  • \(r = -1\): 完全负线性相关(一条完美的向下直线)。
  • \(r = 0\): 完全没有线性关系。
  • \(r \approx 0.9\): 很强的正相关。
  • \(r \approx -0.3\): 微弱的负相关。

避免常见错误!

相关性并不代表因果关系(Correlation does NOT mean Causation)。 仅仅因为两件事相关(例如雪糕销量和鲨鱼袭击事件),并不代表其中一件事导致了另一件事!(在这个例子中,“原因”其实是炎热的夏天天气)。

快速回顾:

接近 1 或 -1: 强线性关系。
接近 0: 微弱或无线性关系。


3. 线性回归:寻找最佳拟合线

如果散点图看起来是线性的,我们就使用最小二乘法(Method of Least Squares)来求出“最佳”直线的方程。这条线称为回归线(Regression Line)

应该使用哪条线?

在 H2 数学中,我们通常处理两个变量:自变量(Independent Variable, \(x\))因变量(Dependent Variable, \(y\))

  • \(y\) 对 \(x\) 的回归线: 当你想要在给定 \(x\) 的值下预测 \(y\) 时使用。这是你最常使用的线,其形式为 \(y = a + bx\)。
  • \(x\) 对 \(y\) 的回归线: 当你想要在给定 \(y\) 的值下预测 \(x\) 时使用。其形式为 \(x = c + dy\)。

不用担心这看起来很棘手:你的图形计算器(GC)会帮你完成计算 \(a\) 和 \(b\) 值的繁重工作!只需确保你将数据正确输入列表即可。


4. 进行预测:内插法与外推法

一旦你有了回归方程,就可以代入数值进行估算。但要小心!

内插法(安全地带)

这是指对原始数据范围之内的数值进行预测。
例子:如果你的数据是关于 13 到 18 岁学生的,预测 15 岁学生的结果就是内插法(interpolation)。这通常是可靠的。

外推法(危险地带)

这是指对数据范围之外的数值进行预测。
例子:根据幼儿的数据预测 40 岁成年人的身高。这通常是不可靠的,因为线性趋势可能不会永远持续下去!

关键要点:

当相关性很强(\(r\) 接近 1 或 -1)且你正在进行内插法时,预测结果最为可靠。


5. 数据转换:处理曲线

如果散点图显示出曲线怎么办?我们可以使用变换(transformations)来将其“拉直”。课程要求你掌握如何使用平方、倒数或对数变换。

它是如何运作的:

与其绘制 \(y\) 对 \(x\),我们可能会绘制:

  • \(y\) 对 \(x^2\)
  • \(y\) 对 \(\frac{1}{x}\)
  • \(y\) 对 \(\ln x\)
  • \(\ln y\) 对 \(x\)

如何选择最佳模型?

当你在 GC 上尝试不同的变换时,最佳模型是那个 \(r\) 的绝对值最接近 1 的模型。这意味着该特定的变换使数据看起来最像一条直线。

逐步提示:
1. 观察散点图的形状。
2. 应用题目建议的变换。
3. 检查新的 \(r\) 值。
4. 使用新方程(例如 \(y = a + b(\ln x)\))进行预测。


考试总结清单

1. 散点图: 我有标记坐标轴吗?我有描述关系吗(线性/非线性,正相关/负相关)?
2. 相关系数 (\(r\)): 它是强还是弱?它是否支持使用线性模型?
3. 回归线: 我用对线了吗(用 \(y\) 对 \(x\) 来预测 \(y\))?
4. 可靠性: 预测是否属于内插?\(r\) 值是否足够高?(务必提到这两点!)
5. 变换: 我有记得将数值代入变换后的变量吗(例如 \(\ln x\) 而不是仅仅代入 \(x\))?

你一定没问题的! 相关性与回归是 H2 数学中较为“直观”的章节之一。熟练使用你的图形计算器,你会发现这些题目其实很容易应付。