Summary measures - Mathematics B (MEI) - H640 - Cambridge OCR A Level

欢迎来到“总结度量”！

你有没有试过看着一大堆密密麻麻的数字表格，看到头昏眼花？这时候就是总结度量 (summary measures) 大显身手的时候了！在本章中，我们将学习如何将海量数据进行提炼，透过几个关键数字来解读数据背后的意义。我们主要集中于两大重点：数据的“中心”在哪里（集中趋势 central tendency），以及数据的离散程度（离散程度/变异度 variation）。

如果觉得统计学比起纯数 (Pure Maths) 显得“文字感”较重，不用担心——统计学核心在于诠释。读完这些笔记，你将能像专家一样描述任何数据集。

1. 集中趋势度量：寻找“中心”

我们利用这些指标来寻找一个能代表数据集“典型”结果的数值。课程大纲主要涵盖四种：

平均数 (Mean, \(\bar{x}\))

算术平均数就是一般大众所称的“平均值”。计算方法是将所有数据加总，再除以数据的个数。

公式： \(\bar{x} = \frac{\sum x}{n}\)

例子：若五位学生的测试成绩分别为 10, 12, 15, 18, 20，则平均数为 \(\frac{75}{5} = 15\)。

加权平均数 (Weighted Mean)：有时某些数据比其他数据更重要。例如，若要计算两个不同城市的人口平均身高，你必须根据每个城市的人口数量对平均值进行“加权”。

中位数 (Median)

中位数是将数据按顺序排列后，位于最中间的数值。若数据个数为偶数，则取中间两个数值的平均值。

类比：想象高速公路上的分隔岛——它正好位于路中间，将道路一分为二！

众数 (Mode)

众数是出现频率最高的数值。一个数据集可能有一个众数、没有众数，或呈现双众数 (bimodal)（有两个众数）。

全距中值 (Midrange)

这是一个简单直接的度量，透过取最大值和最小值的平均值获得：\(\frac{\text{max} + \text{min}}{2}\)。它非常简单，但极易受极端值影响。

快速回顾：我该用哪一个？
• 平均数：最适合没有极端值的对称数据。
• 中位数：最适合“偏态 (skewed)”数据（即含有少数极高或极低值的情况），因为它不会被极端值拉偏。
• 众数：最适合类别数据 (categorical data)（例如：“最受欢迎的汽车颜色是什么？”）。

2. 离散程度度量：数据有多“散”？

两个数据集可能拥有相同的平均数，但看起来却截然不同。想象两位射手：射手 A 射中靶心 5 次。射手 B 两次射偏在左侧 1 米处，三次射偏在右侧 1 米处。他们的“平均”表现相同，但射手 A 明显稳定得多！

全距 (Range)

最简单的度量：\(\text{最大值} - \text{最小值}\)。
常见错误：全距是一个单一数字（例如：“15”），而不是两个数字（例如：“10 到 25”）。

四分位数与四分位距 (IQR)

我们可以将数据分成四个等份：
• 下四分位数 (\(Q_1\))：第 25 百分位数（数据排列后的四分之一位置）。
• 中位数 (\(Q_2\))：第 50 百分位数（一半的位置）。
• 上四分位数 (\(Q_3\))：第 75 百分位数（数据排列后四分之三的位置）。
• 四分位距 (IQR)：即 \(Q_3 - Q_1\)。它告诉我们中间 50% 数据的离散程度。

你知道吗？IQR 非常好用，因为它忽略了双端那些“怪异”的极端值，专注于描述中间稳定的数据。

标准差 (Standard Deviation, \(s\)) 与方差 (Variance, \(s^2\))

标准差是最强大的离散程度度量。它告诉我们数据点距离平均值的“平均距离”。

OCR MEI H640 重要提醒：我们计算的是样本 (sample) 标准差。这意味着在计算平方距离的“平均值”时，我们除以的是 \(n-1\) 而不是 \(n\)。这是因为使用 \(n-1\) 对总体数据能提供更准确的估计。

公式：
1. 平方和 (\(S_{xx}\))： \(S_{xx} = \sum (x_i - \bar{x})^2\)
2. 样本方差 (\(s^2\))： \(s^2 = \frac{S_{xx}}{n-1}\)
3. 样本标准差 (\(s\))： \(s = \sqrt{\frac{S_{xx}}{n-1}}\)

计算器小撇步：别被长公式吓倒！你的科学计算器或绘图计算器都有统计模式 (Statistics Mode)。只需输入数据，它就会自动算出 \(\bar{x}\) 和 \(s\)。留意屏幕上的 \(s_x\) 或 \(\sigma_{n-1}\) 符号。

3. 识别离群值与清理数据

离群值 (outlier) 是指一个与其余数据集“格格不入”的数据点——就像小学班级里出现了一位 7 呎高的学生。

如何找出离群值（规则）

在 MEI 课程大纲中，有两种定义离群值的标准数学方法。题目通常会说明要使用哪一种：

规则 1 (1.5 × IQR 规则)：
小于 \(Q_1 - (1.5 \times \text{IQR})\)
或者
大于 \(Q_3 + (1.5 \times \text{IQR})\)

规则 2 (2倍标准差规则)：
任何距离平均值超过 2 个标准差的数据。
公式：\(\text{离群值} > \bar{x} + 2s\) 或 \(\text{离群值} < \bar{x} - 2s\)

清理数据

当你发现离群值时，不要直接删除！你必须清理数据 (clean the data)。这意味着要调查该离群值是否为：
1. 错误：（例如：有人把“15”误输入成“150”）。这种情况，请修正或删除它。
2. 真实存在的极端值：（例如：财富调查中出现了亿万富翁）。这种情况，应保留它，但改用中位数而非平均数来描述数据，以免结果失真。

重点总结：总结度量让我们能轻松比较两个群组。如果 A 组的平均数高于 B 组且标准差小于 B 组，意味着 A 组平均表现“较好”且更“稳定”。

总结清单

• 我知道如何计算平均数、中位数和众数吗？
• 我会使用计算器找出标准差 (\(s\)) 吗？
• 记得样本方差要除以 \(n-1\)！
• 我会应用 \(1.5 \times \text{IQR}\) 规则找出离群值吗？
• 我了解对于偏态数据，中位数/IQR 是更好的选择吗？

如果初看标准差公式觉得很复杂，别担心。多练习将数据输入计算器——这将是你本章最好的伙伴！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。