Averages and measures of spread

统计学第1章：平均数与离散程度的度量

欢迎来到平均数与离散程度的度量这一章！在统计学中，我们会收集海量的数据，但原始数据往往杂乱无章。本章将教你如何仅用几个强有力的数字来概括这些数据。

你可以把它想象成在读一本书的梗概，而不是去读整本书：

平均数（平均值、中位数、众数）告诉你数据的“典型值”或中心位置（也就是书的主线情节）。
离散程度的度量（极差、四分位距）告诉你数据的波动范围（即角色或事件的变化程度有多大）。

掌握这些概念对于准确比较不同的数据集至关重要。让我们开始吧！

第1节：集中趋势的度量（平均数）

三种主要的平均数（也称为集中趋势的度量）分别是众数、中位数和平均值。

1.1 众数 (Mode)

众数是数据集中出现频率最高的数值。
它是最容易找到的指标，且适用于任何类型的数据（甚至是像“最喜欢的颜色”这类非数值数据）。

如何寻找众数：找出出现次数（频数）最多的那个值。
例子：数据集：5, 8, 8, 10, 12。
众数是 8。

重要提示：

一个数据集可以有多个众数（双众数、三众数等）。
如果所有数值都只出现一次，则该数据集没有众数。

1.2 中位数 (Median)

中位数是数据按大小顺序排列后的中间数值。

离散数据计算步骤：

将数据排序（从小到大）。
统计数据的总个数，即 $n$。
利用公式计算中位数的位置：位置 $ = \frac{n + 1}{2} $。
在排序后的数据中找到对应位置的数值。

情况1：数据点个数为奇数 ($n$ 为奇数)

例子：数据集：12, 5, 10, 8, 15。($n=5$)
1. 排序后：5, 8, 10, 12, 15。
2. 位置：$\frac{5 + 1}{2} = 3$。
3. 中位数即第3个数值：10。

情况2：数据点个数为偶数 ($n$ 为偶数)

例子：数据集：5, 8, 10, 12。($n=4$)
1. 位置：$\frac{4 + 1}{2} = 2.5$。这意味着中位数位于第2个和第3个数值（8和10）之间。
2. 通过计算这两个中间值的平均数得到中位数：
中位数 $ = \frac{8 + 10}{2} = 9$。

1.3 平均值 (Mean)

平均值是所有数值的总和除以数值的个数。它是最常用的平均数，代表了数据的数学中心。

平均值 ($\bar{x}$) 的公式：
$$ \bar{x} = \frac{\text{所有数值之和}}{\text{数值的个数}} = \frac{\sum x}{n} $$

例子：数据集：5, 8, 10, 12。($n=4$)
$$ \bar{x} = \frac{5 + 8 + 10 + 12}{4} = \frac{35}{4} = 8.75 $$

小贴士：如何选择合适的平均数？

不同的平均数在不同场景下各有优劣：

平均值 (Mean)：利用了所有数据点。最适合数据分布均匀的情况，但容易被离群值（极端数值）拉高或拉低。
中位数 (Median)：不受离群值影响。最适合高度偏态的数据（例如房价或薪资）。
众数 (Mode)：最适合分类数据（例如哪种鞋码最畅销）。

记忆小窍门：Most Often（众数）、Middle（中位数）、Mathematical average（数学平均值）。

第2节：离散程度的度量（波动性）

离散程度的度量告诉我们数据值之间相互偏离的程度。两个数据集可能有相同的平均值，但如果一个数据集波动较小，而另一个波动很大，它们反映的情况将截然不同！

2.1 极差 (Range)

极差是衡量离散程度最简单的方法。

公式：
$$ \text{极差} = \text{最大值} - \text{最小值} $$

例子：数据集：5, 8, 10, 12, 15。
极差 $ = 15 - 5 = 10$。

缺点：极差完全由两个极端值决定，这意味着它对离群值非常敏感。

2.2 四分位数与四分位距 (IQR)

为了获得更稳健的离散程度度量（即忽略离群值的影响），我们使用四分位数。四分位数将有序数据分成四个相等的部分。

四分位数：

$Q_1$：下四分位数（25%的数据小于此值）。它是下半部分数据的中位数。
$Q_2$：中位数（50%的数据小于此值）。
$Q_3$：上四分位数（75%的数据小于此值）。它是上半部分数据的中位数。

四分位距 (IQR) 衡量的是中间50%数据的离散程度。

IQR 的公式：
$$ \text{IQR} = Q_3 - Q_1 $$

离散数据寻找四分位数的步骤：

1. 将数据排序。
2. 找到中位数 ($Q_2$)。
3. 数据现在被分为两个半部分（下半部分和上半部分）。
4. $Q_1$ 是下半部分数据的中位数。
5. $Q_3$ 是上半部分数据的中位数。

例子 1：数据集 ($n=7$): 2, 4, 6, 8, 10, 12, 14

$Q_2$ (中位数): 8
下半部分 (排除8): 2, 4, 6。$Q_1$ (下半部分的中间值) = 4。
上半部分 (排除8): 10, 12, 14。$Q_3$ (上半部分的中间值) = 12。
IQR $ = 12 - 4 = 8$。

例子 2：数据集 ($n=8$): 1, 3, 5, 7, 9, 11, 13, 15

$Q_2$ (中位数): 7和9之间。$Q_2 = 8$。
下半部分: 1, 3, 5, 7。$Q_1$ (3和5的平均值) = 4。
上半部分: 9, 11, 13, 15。$Q_3$ (11和13的平均值) = 12。
IQR $ = 12 - 4 = 8$。

⚠️ 常见错误警告 ⚠️

在计算四分位数时，一定要确保先将数据排序。如果你漏掉这一步，所有的四分位数和中位数计算都将是错误的！

第3节：使用频数表

当你拥有大量离散数据时，罗列每一个数值是不现实的。我们使用频数表，其中 $f$ 代表频数（数值出现的次数），$x$ 代表数据值。

3.1 通过频数表计算平均值、中位数和四分位数（离散数据）

1. 计算平均值：
我们不必加总每一个 $x$，而是使用总频数 $\sum f$ 和 (频数 $\times$ 数值) 的总和 $\sum fx$。

频数表平均值公式：
$$ \bar{x} = \frac{\sum fx}{\sum f} $$

计算平均值的步骤：

新建一列计算 $fx$（将 $f$ 与 $x$ 相乘）。
求 $fx$ 列的总和 ($\sum fx$)。
求 $f$ 列的总和 ($\sum f$，即 $n$)。
将两个总和相除。

2. 计算中位数和四分位数：
同样需要先确定位置：位置 $ = \frac{n + 1}{2}$。
使用累计频数（$f$ 的运行总和）在表中定位该位置对应的数值。

例子：若 $\sum f = 50$。
中位数位置：$\frac{50 + 1}{2} = 25.5$。我们需要找到涵盖第25个和第26个数据点的数值 $x$。
$Q_1$ 位置：$\frac{50 + 1}{4} \approx 12.75$。我们需要找到涵盖第13个数据点的数值 $x$。

第4节：处理分组数据（扩展内容）

有时数据被分到各个组中（例如 0-10, 10-20 等）。当数据分组后，我们丢失了确切的原始值，因此只能计算平均数的估计值。

4.1 估计分组数据的平均值

由于不知道确切值，我们假设每一组区间内的所有数据点都位于该区间的中点。

估计平均值的步骤：

求出每个组区间的中点 ($m$)：
$$ \text{中点} = \frac{\text{下边界} + \text{上边界}}{2} $$
计算每一组的估计总和：$fm$（频数 $\times$ 中点）。
使用平均值公式，用 $m$ 代替 $x$：
$$ \text{估计平均值} = \frac{\sum fm}{\sum f} $$

你知道吗？ 你的图形显示计算器 (GDC) 可以直接通过输入中点作为数据值、频数作为对应的权重来计算分组数据的平均值。(课程大纲 C10.5/E10.5)

4.2 识别众数类

当数据分组时，我们无法找到确切的众数，但可以识别众数类。

众数类即频数最高的组区间。

第5节：累计频数（扩展内容 E10.8）

累计频数可以帮助我们快速找到分组数据的中位数和四分位数。

5.1 什么是累计频数？

累计频数 (CF) 是频数的累加总和。它告诉你直到某个特定组区间结束时，数据点的总个数。

例子：如果第一组的频数是10，第二组的频数是15，那么第二组的累计频数就是 $10 + 15 = 25$。

5.2 绘制并解释累计频数曲线（累积频数多边形/Ogive）

累计频数图是绘制累计频数与数据值的图表。

至关重要的绘图规则：
必须将累计频数绘制在纵轴上，将每个组区间的上边界（或上限）绘制在横轴上。

连接点时，应使用平滑曲线。（记得从第一组的下边界处开始画，此时累计频数为0）。

5.3 通过累计频数曲线估计平均数和离散程度

如果 $N$ 是总频数，我们可以通过图表上的读取横纵坐标来估计关键值：

1. 中位数 ($Q_2$)：
位置：$\frac{N}{2}$。
寻找方法：在累计频数轴上找到 $\frac{N}{2}$，水平移动到曲线上，然后向下垂直到横轴读取数值。

2. 四分位数 ($Q_1$ 和 $Q_3$)：
$Q_1$ 位置：$\frac{N}{4}$（即 $N$ 的25%）。
$Q_3$ 位置：$\frac{3N}{4}$（即 $N$ 的75%）。
寻找方法：从累计频数轴上的这些位置水平读入曲线，再向下读取数据轴。

3. 四分位距 (IQR)：
计算 $ \text{IQR} = Q_3 - Q_1 $。

4. 百分位数：
百分位数代表某个特定比例以下的数值。
例子：要找到第80百分位数，先找到 $N$ 的80%所对应的位置：$0.80 \times N$。然后像之前一样水平和垂直读取数值。

核心总结：累计频数

累计频数曲线使我们无需使用复杂的插值公式即可估计中间数值（中位数、四分位数、百分位数）。

务必将累计频数与上边界对应绘图。
总个数 $N$ 是累计频数轴上的最高点。
通过累计频数曲线计算出的 IQR 比极差更具参考价值。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。