欢迎来到相关与回归的世界!
你有没有想过你的复习时间与考试成绩之间是否有关联?或者长得高的人脚掌是否通常也比较大?在 S1 单元的这一章中,我们将学习如何用数学方法来衡量这些关系。我们将从观察单一组数据,进阶到观察双变量数据 (bivariate data)——这只是“包含两个变量的数据”的一种专业说法。
即使你还觉得自己在“数学方面天分不足”也不用担心。我们会将内容拆解成简单的步骤,从在图表上画点,到利用方程预测未来!
1. 基础知识:变量与散点图
在进行任何计算之前,我们需要知道自己正在看什么。当我们有两个变量时,通常会将它们标记为 x 和 y。
解释变量与反应变量
• 解释变量 (Explanatory Variable, x):这是自变量。我们认为它可能是导致变化的“原因”。我们总是将它画在横轴 (horizontal axis)上。
• 反应变量 (Response Variable, y):这是因变量。这是我们用来观察它如何随 x 变化的测量对象。我们将其画在纵轴 (vertical axis)上。
例子:如果你正在研究阳光如何影响植物生长,“阳光”就是解释变量 (x),而“植物高度”则是反应变量 (y)。
散点图 (Scatter Diagrams)
散点图就是将每一对数据点 \((x, y)\) 作为一个点画在图表上。它能帮助我们直观地看出关系的“形态”。
• 正相关 (Positive Correlation):点从左到右呈“上升”趋势。当 x 增加,y 也增加。
• 负相关 (Negative Correlation):点从左到右呈“下降”趋势。当 x 增加,y 减少。
• 无相关 (No Correlation):点像一群飞虫一样四处散落。没有明显的规律。
快速复习:
记得检查你的坐标轴!x 是用来解释的,y 是用来反应的。
重点总结:散点图是我们观察数据的第一步。它们能在视觉上展示关系的方向(正或负)及强弱。
2. 衡量相关性:积动差相关系数 (PMCC, r)
视觉观察固然好,但数学家更喜欢用数字说话。这个数字就是积动差相关系数 (Product Moment Correlation Coefficient),简称 r。
'r' 告诉我们什么?
r 的值总是落在 -1 到 +1 之间。
• \(r = +1\):完全正线性相关(所有点都在一条向上的直线上)。
• \(r = -1\):完全负线性相关(所有点都在一条向下的直线上)。
• \(r = 0\):完全没有线性相关。
• 越接近 1 或 -1,关系就越强。
记忆小撇步:把 r 看作“关系的紧密度”。
0.9 是“最好的朋友”(关系强),0.3 是“点头之交”(关系弱),而 0 则是“陌生人”(没有关联)。
常见陷阱:相关性 vs. 因果关系
你知道吗?仅仅因为两件事的 r 值很高,并不代表其中一件事导致了另一件事。例如,冰激凌销量和鲨鱼袭击次数在夏天都会增加。它们是相关的,但吃冰激凌并不会导致鲨鱼袭击!它们两者都是因为受到第三个因素影响:天气炎热。
重点总结:PMCC (r) 衡量的是线性(直线)关系的强弱和方向。它不能证明两者之间存在因果关系!
3. 线性回归:最佳拟合线
如果数据存在线性相关,我们可以在数据中画出一条直线。在 S1 中,我们使用最小二乘回归线 (Least Squares Regression Line)。其方程如下:
\(y = a + bx\)
'a' 和 'b' 代表什么?
• b(斜率):这告诉我们每当 x 增加 1 个单位时,y 会变化多少。如果 b 是 2,那么每当 x 增加 1,y 就会增加 2。
• a(截距):这是当 \(x = 0\) 时 y 的值。在现实情境中,这通常是“初始值”。
最小二乘法 (Method of Least Squares)
你不需要推导这些公式,但你需要学会如何从公式手册中使用它们。通常你需要先计算总结统计量:
\(S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n}\)
\(S_{xy} = \sum xy - \frac{(\sum x)(\sum y)}{n}\)
然后:
\(b = \frac{S_{xy}}{S_{xx}}\)
\(a = \bar{y} - b\bar{x}\)
(其中 \(\bar{x}\) 和 \(\bar{y}\) 分别是 x 和 y 的平均值)。
步骤说明:绘制回归线
1. 找出平均点 \((\bar{x}, \bar{y})\)。回归线永远会经过这个点。
2. 选取一个 x 的值(例如 \(x=0\) 来求 a),并计算对应的 y 值。
3. 将这两点标出并用尺连接起来。
重点总结:回归线 \(y = a + bx\) 是一个数学模型,用来根据解释变量 (x) 来预测反应变量 (y) 的值。
4. 进行预测:内插法 vs. 外推法
回归线的全部意义在于预测,但我们必须小心!
内插法 (Interpolation - 安全区)
当你利用回归线预测的 x 值位于你现有数据范围之内时,这就是内插法。通常这种预测非常可靠。
外推法 (Extrapolation - 危险区)
当你试图预测的 x 值位于数据范围之外时,这就是外推法。
比喻:如果你测量婴儿从 0 到 1 岁的成长数据,并用那条线去预测他们 50 岁时的身高,你的线可能会算出他们有 10 米高!
常见错误:学生经常盲目相信外推法。在考试中,如果题目问你预测是否可靠,且 x 值在数据范围外,请务必回答:“不可靠,这是外推法 (extrapolation),可能不准确。”
快速复习:
• 数据范围之内 = 内插法 = 可靠。
• 数据范围之外 = 外推法 = 不可靠。
重点总结:为了确保准确性,只应在原有数据的范围内使用你的回归模型。
5. 编码 (Coding / Change of Variable)
有时候数字太大或小数点太多,我们会使用编码来简化计算(例如 \(p = x - 100\))。
• 编码不会改变 PMCC (r)。 无论单位如何变化,关系的强弱保持不变。
• 如果你为编码后的数据计算了回归线,记得要代回原式,以便得出原始变量的最终答案。
重点总结:编码只是简化计算的捷径。它会影响回归方程中的 'a' 和 'b' 值,但绝不会改变相关系数 r。
成功小贴士
• 不要慌张:如果公式看起来很可怕,请记住它们都在公式手册里。你只需要知道将哪些数值代入即可。
• 检查正负号:负的 \(S_{xy}\) 意味着负相关。如果你的 r 是负的,但 b 是正的,那你一定计算出错了!
• 情境最重要:在最终解释时,请务必提到现实世界中的变量(例如“体重”和“身高”),而不仅仅是“x”和“y”。