Scatter diagrams

你好，IGCSE 统计达人！学习散点图 (C10.7 / E10.7)

欢迎来到统计学中最具直观性和实用性的课题之一！在这一章中，我们将学习如何观察数据，并探究两件不同的事物之间是否存在关联。例如，你的睡眠时间长短是否会影响考试成绩？或者冰淇淋的价格是否会随着气温的变化而改变？

散点图 (Scatter diagrams) 是强有力的工具，因为它们能让我们直观地判断两个变量之间是否存在关系（或是否存在缺失）。别担心，即使画图不是你的强项——这种图表的绘制非常直接明了！

第 1 节：绘制并解读散点图

什么是散点图？

散点图（或散点统计图）是一种展示双变量数据 (bivariate data) 的方式。双变量数据是指涉及两个变量的数据，例如身高与体重，或年龄与收入。

我们使用标准的坐标系（就像你在画线性函数图像时用到的那种）来展示这些成对的数据。

分步指南：如何绘制散点图

选择坐标轴： 两个变量通常会被放在一起进行对比。
- 自变量 (Independent Variable)（引起变化的那一个，或者你可以控制的那一个，例如复习时间）放在横轴 ($x$-axis)。
- 因变量 (Dependent Variable)（受到影响的那一个，例如你的考试分数）放在纵轴 ($y$-axis)。
标尺与标签： 清晰地标注你的坐标轴，并选择合适的比例尺，以便所有的数据点都能整齐地分布在坐标纸上。
描点： 对于每一对数据，在图表上标出一个点。
- 重要规则： 根据教学大纲要求，绘制的点必须清晰可见，通常使用小叉号 ($x$) 表示。避免使用大圆点，因为这会使读取图表变得不够精确。

类比：想象一下测量班里每个人的身高和鞋码。每个人都是一对数据，在图中表现为一个叉号 ($x$)。

核心要点（第 1 节）

散点图使用小叉号 ($x$) 来绘制双变量数据。自变量通常放在 $x$ 轴上。

第 2 节：理解相关性

当你把点都画好后，有趣的部分就开始了！这些点形成的形状告诉了我们两个变量之间的关系。这种关系被称为相关性 (correlation)。

第 3 节：最佳拟合线 (LOBF)

如果我们看到存在强或弱的线性相关（正或负），我们就可以画一条最能代表这种趋势的直线。这被称为最佳拟合线 (Line of Best Fit, LOBF)。

LOBF 用于进行预测。

绘制最佳拟合线（目测法）

你必须使用直尺画线。这是考试中考察的一项技能，为了确保画出的线准确，必须遵循特定规则：

1. 跟随趋势： 直线必须清晰地遵循点的走向（正相关向上斜，负相关向下斜）。

2. 平衡数据点： 你必须确保整条直线的上方和下方的点分布大致均匀。如果你有 10 个点，目标是线上 5 个点，线下 5 个点（或者 4/6 等）。

3. 充分延伸： 直线应贯穿整个数据集。不要画到一半就停下来。

你知道吗？ 从技术上讲，最佳拟合线应该通过平均点 $(\bar{x}, \bar{y})$（即 $x$ 坐标的平均值和 $y$ 坐标的平均值）。虽然通常你是靠目测画出来的，但保持点的平衡能确保它通过这个中心点附近！

使用最佳拟合线进行预测

一旦画好了 LOBF，你就可以用它来预估你没有数据的值。这被称为内插法 (interpolation) 或外推法 (extrapolation)。

1. 内插法 (Interpolation)

指利用你的直线在原始数据点的范围之内进行预测。

例子： 如果散点图显示了 10 岁到 15 岁儿童的身高，内插法就是估算 12 岁儿童的身高。
可靠性： 内插法通常很可靠，因为直线是基于该区域已有的数据。

2. 外推法 (Extrapolation)

指通过延伸你的直线（如果有必要）来对原始数据点范围之外的值进行预测。

例子： 利用 10 岁到 15 岁的数据去预测 25 岁成年人的身高。
可靠性： 外推法往往不可靠！在测量范围之外，关系可能会发生巨大变化（例如：人最终会停止生长）。

快速回顾：最佳拟合线规则

1. 使用直尺？ 是的，必须是直线。
2. 保持平衡？ 是的，线上方和下方点数大致相等。
3. 覆盖全面？ 是的，延伸并贯穿整个点群范围。

核心要点（第 3 节）

LOBF 是一条平衡了数据点的直线。在数据范围内使用它进行预测是可靠的（内插法），但在数据范围外进行预测（外推法）要保持谨慎。

第 4 节：扩展内容 (E10.7.4) – 线性回归

对于扩展课程 (Extended) 的学生（以及在实际应用中），目测绘制 LOBF 可能会带有主观性。为了得到最精确的直线，我们使用一种名为线性回归 (Linear Regression) 的计算方法。

使用图形计算器 (GDC) 求线性回归方程

GDC 可以帮你求出最佳拟合线的精确方程。该方程通常以以下形式给出：

$$y = ax + b$$

其中 $a$ 是斜率，$b$ 是 $y$ 轴截距。

使用 GDC，你输入所有成对的数据点 ($x$, $y$)，计算器会执行复杂的计算，得出 $a$ 和 $b$ 的值，从而生成统计学上最优的最佳拟合线。

为什么要使用这个方程？

一旦你有了方程 $y = ax + b$，你可以：

精确预测： 不再需要从手画的线上读数，你可以将 $x$ 值代入方程，得到最准确的预测值 $y$。
解读斜率 ($a$)： 如果 $a = 3$，这意味着 $x$ 每增加 1 个单位，$y$ 就会增加 3 个单位。

注意： 考试要求你使用 GDC 求出方程并进行预测。你不需要手动计算线性回归公式。

核心要点（第 4 节）

Extended 学生必须使用 GDC 求出线性回归方程 ($y = ax + b$)，这是统计学上最精准的最佳拟合线，并以此进行预测。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

你好，IGCSE 统计达人！学习散点图 (C10.7 / E10.7)

第 1 节：绘制并解读散点图

什么是散点图？

分步指南：如何绘制散点图

核心要点（第 1 节）

第 2 节：理解相关性

相关性的类型

相关性的强度

无障碍提示：常见误区

核心要点（第 2 节）