你好,IGCSE 统计达人!学习散点图 (C10.7 / E10.7)

欢迎来到统计学中最具直观性和实用性的课题之一!在这一章中,我们将学习如何观察数据,并探究两件不同的事物之间是否存在关联。例如,你的睡眠时间长短是否会影响考试成绩?或者冰淇淋的价格是否会随着气温的变化而改变?

散点图 (Scatter diagrams) 是强有力的工具,因为它们能让我们直观地判断两个变量之间是否存在关系(或是否存在缺失)。别担心,即使画图不是你的强项——这种图表的绘制非常直接明了!


第 1 节:绘制并解读散点图

什么是散点图?

散点图(或散点统计图)是一种展示双变量数据 (bivariate data) 的方式。双变量数据是指涉及两个变量的数据,例如身高与体重,或年龄与收入。

我们使用标准的坐标系(就像你在画线性函数图像时用到的那种)来展示这些成对的数据。

分步指南:如何绘制散点图
  1. 选择坐标轴: 两个变量通常会被放在一起进行对比。
    • 自变量 (Independent Variable)(引起变化的那一个,或者你可以控制的那一个,例如复习时间)放在横轴 (\(x\)-axis)
    • 因变量 (Dependent Variable)(受到影响的那一个,例如你的考试分数)放在纵轴 (\(y\)-axis)
  2. 标尺与标签: 清晰地标注你的坐标轴,并选择合适的比例尺,以便所有的数据点都能整齐地分布在坐标纸上。
  3. 描点: 对于每一对数据,在图表上标出一个点。
    • 重要规则: 根据教学大纲要求,绘制的点必须清晰可见,通常使用小叉号 (\(x\)) 表示。避免使用大圆点,因为这会使读取图表变得不够精确。

类比:想象一下测量班里每个人的身高和鞋码。每个人都是一对数据,在图中表现为一个叉号 (\(x\))。

核心要点(第 1 节)

散点图使用小叉号 (\(x\)) 来绘制双变量数据。自变量通常放在 \(x\) 轴上。


第 2 节:理解相关性

当你把点都画好后,有趣的部分就开始了!这些点形成的形状告诉了我们两个变量之间的关系。这种关系被称为相关性 (correlation)

相关性的类型

你需要识别并描述三种主要的相关性:

1. 正相关 (Positive Correlation)

  • 定义: 当一个变量增加时,另一个变量也趋向于增加
  • 视觉模式: 点大致聚集成一条向上的直线(从左下到右上)。
  • 例子: 你学习的小时数越多,你的考试成绩通常就越高。

2. 负相关 (Negative Correlation)

  • 定义: 当一个变量增加时,另一个变量趋向于减少
  • 视觉模式: 点大致聚集成一条向下的直线(从左上到右下)。
  • 例子: 车龄越大,其转售价值通常就越低。
  • 3. 零相关(或无相关) (Zero Correlation)

    • 定义: 两个变量之间没有明显的联系
    • 视觉模式: 点在图中随机分布,没有任何趋势或方向。
    • 例子: 学生的头发颜色与其数学成绩之间的对比。

    相关性的强度

    我们还需要描述这种关系的“强度”。这指的是数据点围绕那条虚构的“最佳拟合线”的密集程度。

    • 强相关: 点非常接近,几乎形成一条完美的直线。
    • 弱相关: 点分布较散,但仍然表现出大致的方向(向上或向下)。
    • 零相关: 完全没有方向。

    记忆小贴士: 想象一条笔直的公路。如果点是汽车:
    - 强相关:所有汽车都完美地行驶在各自的车道内。
    - 弱相关:汽车大多在路上,但有些车辆偏离到了路肩上。

    无障碍提示:常见误区

    千万不要把相关性与因果关系 (causation) 混淆!仅仅因为两个变量相关,并不意味着一个变量是另一个变量的“原因”。
    例子: 夏天冰淇淋销量增加的同时,鲨鱼袭击事件也在增加。这是一种强正相关,但冰淇淋并不会“导致”鲨鱼袭击。它们都是由第三个因素引起的:炎热的天气

    核心要点(第 2 节)

    相关性描述了变量间的关系:正相关(同增)、负相关(一增一减)或零相关(无规律)。相关性还可以分为强或弱。


    第 3 节:最佳拟合线 (LOBF)

    如果我们看到存在强或弱的线性相关(正或负),我们就可以画一条最能代表这种趋势的直线。这被称为最佳拟合线 (Line of Best Fit, LOBF)

    LOBF 用于进行预测。

    绘制最佳拟合线(目测法)

    你必须使用直尺画线。这是考试中考察的一项技能,为了确保画出的线准确,必须遵循特定规则:

    1. 跟随趋势: 直线必须清晰地遵循点的走向(正相关向上斜,负相关向下斜)。

    2. 平衡数据点: 你必须确保整条直线的上方和下方的点分布大致均匀。如果你有 10 个点,目标是线上 5 个点,线下 5 个点(或者 4/6 等)。

    3. 充分延伸: 直线应贯穿整个数据集。不要画到一半就停下来。

    你知道吗? 从技术上讲,最佳拟合线应该通过平均点 \((\bar{x}, \bar{y})\)(即 \(x\) 坐标的平均值和 \(y\) 坐标的平均值)。虽然通常你是靠目测画出来的,但保持点的平衡能确保它通过这个中心点附近!

    使用最佳拟合线进行预测

    一旦画好了 LOBF,你就可以用它来预估你没有数据的值。这被称为内插法 (interpolation)外推法 (extrapolation)

    1. 内插法 (Interpolation)

    指利用你的直线在原始数据点的范围之内进行预测。

    • 例子: 如果散点图显示了 10 岁到 15 岁儿童的身高,内插法就是估算 12 岁儿童的身高。
    • 可靠性: 内插法通常很可靠,因为直线是基于该区域已有的数据。
    2. 外推法 (Extrapolation)

    指通过延伸你的直线(如果有必要)来对原始数据点范围之外的值进行预测。

    • 例子: 利用 10 岁到 15 岁的数据去预测 25 岁成年人的身高。
    • 可靠性: 外推法往往不可靠!在测量范围之外,关系可能会发生巨大变化(例如:人最终会停止生长)。

    快速回顾:最佳拟合线规则

    1. 使用直尺? 是的,必须是直线。
    2. 保持平衡? 是的,线上方和下方点数大致相等。
    3. 覆盖全面? 是的,延伸并贯穿整个点群范围。

    核心要点(第 3 节)

    LOBF 是一条平衡了数据点的直线。在数据范围内使用它进行预测是可靠的(内插法),但在数据范围外进行预测(外推法)要保持谨慎。


    第 4 节:扩展内容 (E10.7.4) – 线性回归

    对于扩展课程 (Extended) 的学生(以及在实际应用中),目测绘制 LOBF 可能会带有主观性。为了得到最精确的直线,我们使用一种名为线性回归 (Linear Regression) 的计算方法。

    使用图形计算器 (GDC) 求线性回归方程

    GDC 可以帮你求出最佳拟合线的精确方程。该方程通常以以下形式给出:

    $$y = ax + b$$

    其中 \(a\) 是斜率,\(b\) 是 \(y\) 轴截距。

    使用 GDC,你输入所有成对的数据点 (\(x\), \(y\)),计算器会执行复杂的计算,得出 \(a\) 和 \(b\) 的值,从而生成统计学上最优的最佳拟合线。

    为什么要使用这个方程?

    一旦你有了方程 \(y = ax + b\),你可以:

    • 精确预测: 不再需要从手画的线上读数,你可以将 \(x\) 值代入方程,得到最准确的预测值 \(y\)。
    • 解读斜率 (\(a\)): 如果 \(a = 3\),这意味着 \(x\) 每增加 1 个单位,\(y\) 就会增加 3 个单位。

    注意: 考试要求你使用 GDC 求出方程并进行预测。你不需要手动计算线性回归公式。

    核心要点(第 4 节)

    Extended 学生必须使用 GDC 求出线性回归方程 (\(y = ax + b\)),这是统计学上最精准的最佳拟合线,并以此进行预测。