Averages and range

介绍：什么是平均数与极差，我们为什么需要它们？

欢迎来到统计学章节！别担心，如果数字让你感到头疼——这一章的目标就是教会你如何将庞大而杂乱的数据列表，通过几个简单的数字进行概括。

这些概括性的数字主要分为两大类：

1. 平均数（集中趋势度量）： 告诉你一个“典型值”是什么样的（例如：“这次考试的平均分是75%”）。
2. 极差（离散程度度量）： 告诉你数据的分布有多广（例如：“分数范围在10%到100%之间”）。

掌握这些概念，你就能分析并比较不同的数据集，这是现实生活中非常关键的一项技能！

第一部分：集中趋势的度量（平均数）

当人们谈论“平均值”时，通常指的是算术平均数（Mean）。但在数学中，有三种主要的平均指标：平均数 (Mean)、中位数 (Median) 和 众数 (Mode)。

1.1 众数 (The Mode) —— 最受欢迎的数值

众数是最容易找到的平均指标。它就是数据集中出现频率最高的那个数值。

关于众数的关键点：

它适用于非数值型数据（比如最喜欢的颜色或汽车类型）。
一个数据集可能没有众数（如果所有数值都只出现一次），也可能有两个或多个众数（双众数、多众数）。

例：鞋码列表：7, 8, 8, 9, 10, 10, 10, 11。
数字10出现了三次，比其他任何尺码都多。
众数 = 10

1.2 中位数 (The Median) —— 中间的位置

中位数是数据按大小排序后的中间值。它的优点是不受极端值（离群点/异常值）的影响。

步骤指南：寻找单组数据的中位数

对数据排序： 将所有数值从小到大排列。（如果漏掉这一步，答案一定会错！）
确定位置： 使用中位数位置公式：
\[\text{Position} = \frac{n+1}{2}\] 其中 \(n\) 是数据集中的数值总个数。
找出数值： 根据算出的位置，在排序后的列表中数出对应的数值。

情况 A：数据点个数为奇数 (n 为奇数)
例：分数：5, 2, 8, 1, 4 (n=5)
1. 排序：1, 2, 4, 5, 8
2. 位置：\(\frac{5+1}{2} = 3\)。
3. 数值：第3个数是4。
中位数 = 4

情况 B：数据点个数为偶数 (n 为偶数)
例：分数：10, 12, 16, 20 (n=4)
1. 排序：10, 12, 16, 20
2. 位置：\(\frac{4+1}{2} = 2.5\)。这意味着中位数在第2个和第3个数的中间。
3. 数值：中位数 = \(\frac{12+16}{2} = 14\)。
中位数 = 14

记忆小贴士： 中位数就像马路中间的“隔离带”——它永远在最中间！

1.3 平均数 (The Mean) —— 标准的平均值

平均数是最常见的平均指标。计算方法是将所有数值相加，然后除以数值的总个数。

平均数公式（单组数据）

\[\text{Mean} (\bar{x}) = \frac{\text{Sum of all values}}{\text{Number of values}}\]

使用你应该熟悉的数学符号表示： \[\bar{x} = \frac{\sum x}{n}\]

其中：
\(\sum x\) （读作“sigma x”）表示“所有数据值的总和”。
\(n\) 是数值的总个数。

例：记录的温度（单位：°C）：20, 25, 22, 21
1. 数值总和 (\(\sum x\))：\(20 + 25 + 22 + 21 = 88\)
2. 数值个数 (\(n\))：4
3. 平均数：\(\frac{88}{4} = 22\)
平均数 = 22 °C

1.4 区分不同平均指标的用途

为什么我们需要三个平均指标？因为它们反映了数据的不同侧面！

快速回顾：何时使用哪种平均指标

指标	用途/适用场景	对离群点敏感度
众数	当你需要知道最频繁出现的结果（例如：进货尺码）。最适合非数值型数据。	无
中位数	数据包含离群点（极端值）时。它能提供一个不受极端值影响的可靠中心点（例如：房价）。	低（鲁棒性强）
平均数	数据对称且为数值型，且你需要使用所有数据点进行计算（例如：科学测量）。	高（非常敏感）

你知道吗？ 如果你在计算一个小镇的平均收入，而比尔·盖茨突然搬到了这里，平均数收入会瞬间飙升，不再代表普通人的工资水平。此时，中位数收入会更具代表性！

第一部分要点总结： 平均数、中位数和众数都是描述数据中心的方法，但平均数是通过计算得出的，中位数基于位置，而众数基于频率。

第二部分：离散程度的度量（极差与四分位数）

平均指标告诉你数据的中心，但它们无法告诉你数据的分布有多广。为了有效地比较两组数据（这是考纲的要求），你需要度量离散程度的工具。

2.1 极差 (The Range)

极差是最简单的离散程度度量。它告诉你最大值和最小值之间的全部跨度。

极差公式

\[\text{Range} = \text{Maximum Value} - \text{Minimum Value}\]

例：分数：10, 45, 50, 52, 98
极差 = \(98 - 10 = 88\)

常见错误： 因为极差只使用两个数值（最大值和最小值），所以它极易受到离群点的影响。如果98实际上是150，极差会剧烈增加，尽管中间的分数根本没变。

2.2 四分位数与四分位距 (IQR)

为了获得一个不受极端离群点影响的离散程度度量，我们使用四分位数。四分位数将有序数据分为四个等份。

理解四分位数

\(Q_1\) (下四分位数)： 下半部分数据的中位数。有25%的数据在此值以下。
\(Q_2\) (中位数)： 整体数据的中位数（50%）。
\(Q_3\) (上四分位数)： 上半部分数据的中位数。有75%的数据在此值以下。

四分位距 (IQR)

四分位距 (IQR) 是中间50%数据的离散范围，即上四分位数与下四分位数之间的距离。

四分位距公式

\[\text{IQR} = Q_3 - Q_1\]

寻找四分位数的位置：
虽然计算方法略有差异，但对于IGCSE考试，如果你有 \(n\) 个独立数据，最简单的方法是：

\(Q_1\) 位置： \(\frac{1}{4} (n+1)\)
\(Q_3\) 位置： \(\frac{3}{4} (n+1)\)

例（计算IQR）： 数据：10, 12, 15, 16, 18, 20, 25, 30, 35 (n=9)
（数据已排序。）

1. 找中位数 (\(Q_2\))：位置 \(\frac{9+1}{2} = 5\)。中位数 = 18。

2. 找 \(Q_1\)：位置 \(\frac{1}{4} (9+1) = 2.5\)。这是第2个数(12)和第3个数(15)的中间。
\[Q_1 = \frac{12+15}{2} = 13.5\]

3. 找 \(Q_3\)：位置 \(\frac{3}{4} (9+1) = 7.5\)。这是第7个数(25)和第8个数(30)的中间。
\[Q_3 = \frac{25+30}{2} = 27.5\]

4. 计算IQR：
\[\text{IQR} = Q_3 - Q_1 = 27.5 - 13.5 = 14\]

类比： 把IQR想象成靶心的范围。它衡量的是最典型的一半数据聚集得有多紧密，同时忽略了外围的环（离群点）。

第二部分要点总结： 极差测量总跨度，但容易受离群点干扰。四分位距 (IQR) 测量中间50%的离散程度，在比较数据集时更为可靠。

第三部分：频率表中的平均指标

通常，数据会以频率表 (frequency table)的形式呈现，展示每个值出现的次数。处理频率表时，计算平均指标的方法会稍有不同。

3.1 频率表中的众数与中位数

寻找众数

对于频率表（其中 x 是数值，f 是频率），众数就是频率 \(f\) 最高的那个数值 \(x\)。

寻找中位数

处理频率表时，数据总个数 \(n\) 即总频率：\(n = \sum f\)。

1. 计算总频率 \(n = \sum f\)。
2. 寻找位置：\(\frac{n+1}{2}\)。
3. 使用累积频率（频率的逐项相加）来定位该位置落入哪个区间。对应位置的数值 \(x\) 即为中位数。

3.2 从频率表计算平均数

如果分数为10出现了5次，我们不需要逐个相加 \(10 + 10 + 10 + 10 + 10\)，而是直接算 \(10 \times 5 = 50\)。平均数公式也随之调整。

平均数公式（频率表）

\[\bar{x} = \frac{\sum fx}{\sum f}\]

步骤指南：
1. 在表格中增加一列 \(fx\)（数值 \(\times\) 频率）。
2. 计算 \(fx\) 列的每一个条目。
3. 将 \(fx\) 列求和（即 \(\sum fx\)）。
4. 将频率列求和（即 \(\sum f\)）。
5. 相除：\(\frac{\sum fx}{\sum f}\)。

例：分数 (x) 与频率 (f)

x (分数)	f (频率)	fx
1	3	3
2	5	10
3	2	6
总计	\(\sum f = 10\)	\(\sum fx = 19\)

平均数 = \(\frac{19}{10} = 1.9\)

3.3 估计分组数据的平均数（进阶概念）

如果数据是以类或组的形式呈现（例如：年龄 10-20岁，20-30岁），你不知道每一项的具体数值。因此，只能计算平均数的估计值。

不要被这一步吓到，底层逻辑和普通频率表平均数是一样的，只是多了一个关键步骤！

关键额外步骤：使用组中值

因为不知道具体数值，我们必须假设每组的数据都集中在该组的中心。我们使用组间距的中值 (midpoint, m) 作为该组的代表值 (\(x\))。

\[\text{Midpoint} (m) = \frac{\text{Lower Boundary} + \text{Upper Boundary}}{2}\]

估计平均数公式（分组数据）

\[\text{Estimated Mean} = \frac{\sum fm}{\sum f}\]

步骤指南：
1. 计算每一组的组中值 (m)。
2. 增加一列 \(fm\)（频率 \(\times\) 组中值）。
3. 计算每一条 \(fm\)。
4. 求 \(fm\) 列的总和 (\(\sum fm\))。
5. 求频率列的总和 (\(\sum f\))。
6. 相除：\(\frac{\sum fm}{\sum f}\)。

例：身高 (cm) 与频率 (f)

身高区间	f	m (中值)	fm
150 < h \(\leq\) 160	5	155	775
160 < h \(\leq\) 170	10	165	1650
170 < h \(\leq\) 180	5	175	875
总计	\(\sum f = 20\)		\(\sum fm = 3300\)

估计平均数 = \(\frac{3300}{20} = 165\) cm。

避免常见错误： 处理分组数据时，你只能找到众数类（频率最高的那个组），而不是准确的众数。同样，你也无法找到精确的极差，只能找到可能的最大极差（最大组上限 - 最小组下限）。

第三部分要点总结： 使用频率表时，相加前务必先将数值（或中值）乘以频率。计算结束后，一定要除以总频率 (\(\sum f\))。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。