介绍:什么是平均数与极差,我们为什么需要它们?
欢迎来到统计学章节!别担心,如果数字让你感到头疼——这一章的目标就是教会你如何将庞大而杂乱的数据列表,通过几个简单的数字进行概括。
这些概括性的数字主要分为两大类:
1. 平均数(集中趋势度量): 告诉你一个“典型值”是什么样的(例如:“这次考试的平均分是75%”)。
2. 极差(离散程度度量): 告诉你数据的分布有多广(例如:“分数范围在10%到100%之间”)。
掌握这些概念,你就能分析并比较不同的数据集,这是现实生活中非常关键的一项技能!
第一部分:集中趋势的度量(平均数)
当人们谈论“平均值”时,通常指的是算术平均数(Mean)。但在数学中,有三种主要的平均指标:平均数 (Mean)、中位数 (Median) 和 众数 (Mode)。
1.1 众数 (The Mode) —— 最受欢迎的数值
众数是最容易找到的平均指标。它就是数据集中出现频率最高的那个数值。
关于众数的关键点:
- 它适用于非数值型数据(比如最喜欢的颜色或汽车类型)。
- 一个数据集可能没有众数(如果所有数值都只出现一次),也可能有两个或多个众数(双众数、多众数)。
例: 鞋码列表:7, 8, 8, 9, 10, 10, 10, 11。
数字10出现了三次,比其他任何尺码都多。
众数 = 10
1.2 中位数 (The Median) —— 中间的位置
中位数是数据按大小排序后的中间值。它的优点是不受极端值(离群点/异常值)的影响。
步骤指南:寻找单组数据的中位数
- 对数据排序: 将所有数值从小到大排列。(如果漏掉这一步,答案一定会错!)
- 确定位置: 使用中位数位置公式:
\[\text{Position} = \frac{n+1}{2}\] 其中 \(n\) 是数据集中的数值总个数。 - 找出数值: 根据算出的位置,在排序后的列表中数出对应的数值。
情况 A:数据点个数为奇数 (n 为奇数)
例: 分数:5, 2, 8, 1, 4 (n=5)
1. 排序:1, 2, 4, 5, 8
2. 位置:\(\frac{5+1}{2} = 3\)。
3. 数值:第3个数是4。
中位数 = 4
情况 B:数据点个数为偶数 (n 为偶数)
例: 分数:10, 12, 16, 20 (n=4)
1. 排序:10, 12, 16, 20
2. 位置:\(\frac{4+1}{2} = 2.5\)。这意味着中位数在第2个和第3个数的中间。
3. 数值:中位数 = \(\frac{12+16}{2} = 14\)。
中位数 = 14
记忆小贴士: 中位数就像马路中间的“隔离带”——它永远在最中间!
1.3 平均数 (The Mean) —— 标准的平均值
平均数是最常见的平均指标。计算方法是将所有数值相加,然后除以数值的总个数。
平均数公式(单组数据)
\[\text{Mean} (\bar{x}) = \frac{\text{Sum of all values}}{\text{Number of values}}\]
使用你应该熟悉的数学符号表示: \[\bar{x} = \frac{\sum x}{n}\]
其中:
\(\sum x\) (读作“sigma x”)表示“所有数据值的总和”。
\(n\) 是数值的总个数。
例: 记录的温度(单位:°C):20, 25, 22, 21
1. 数值总和 (\(\sum x\)):\(20 + 25 + 22 + 21 = 88\)
2. 数值个数 (\(n\)):4
3. 平均数:\(\frac{88}{4} = 22\)
平均数 = 22 °C
1.4 区分不同平均指标的用途
为什么我们需要三个平均指标?因为它们反映了数据的不同侧面!
快速回顾:何时使用哪种平均指标
| 指标 | 用途/适用场景 | 对离群点敏感度 |
| 众数 | 当你需要知道最频繁出现的结果(例如:进货尺码)。最适合非数值型数据。 | 无 |
| 中位数 | 数据包含离群点(极端值)时。它能提供一个不受极端值影响的可靠中心点(例如:房价)。 | 低(鲁棒性强) |
| 平均数 | 数据对称且为数值型,且你需要使用所有数据点进行计算(例如:科学测量)。 | 高(非常敏感) |
你知道吗? 如果你在计算一个小镇的平均收入,而比尔·盖茨突然搬到了这里,平均数收入会瞬间飙升,不再代表普通人的工资水平。此时,中位数收入会更具代表性!
第一部分要点总结: 平均数、中位数和众数都是描述数据中心的方法,但平均数是通过计算得出的,中位数基于位置,而众数基于频率。
第二部分:离散程度的度量(极差与四分位数)
平均指标告诉你数据的中心,但它们无法告诉你数据的分布有多广。为了有效地比较两组数据(这是考纲的要求),你需要度量离散程度的工具。
2.1 极差 (The Range)
极差是最简单的离散程度度量。它告诉你最大值和最小值之间的全部跨度。
极差公式
\[\text{Range} = \text{Maximum Value} - \text{Minimum Value}\]
例: 分数:10, 45, 50, 52, 98
极差 = \(98 - 10 = 88\)
常见错误: 因为极差只使用两个数值(最大值和最小值),所以它极易受到离群点的影响。如果98实际上是150,极差会剧烈增加,尽管中间的分数根本没变。
2.2 四分位数与四分位距 (IQR)
为了获得一个不受极端离群点影响的离散程度度量,我们使用四分位数。四分位数将有序数据分为四个等份。
理解四分位数
- \(Q_1\) (下四分位数): 下半部分数据的中位数。有25%的数据在此值以下。
- \(Q_2\) (中位数): 整体数据的中位数(50%)。
- \(Q_3\) (上四分位数): 上半部分数据的中位数。有75%的数据在此值以下。
四分位距 (IQR)
四分位距 (IQR) 是中间50%数据的离散范围,即上四分位数与下四分位数之间的距离。
四分位距公式
\[\text{IQR} = Q_3 - Q_1\]
寻找四分位数的位置:
虽然计算方法略有差异,但对于IGCSE考试,如果你有 \(n\) 个独立数据,最简单的方法是:
- \(Q_1\) 位置: \(\frac{1}{4} (n+1)\)
- \(Q_3\) 位置: \(\frac{3}{4} (n+1)\)
例(计算IQR): 数据:10, 12, 15, 16, 18, 20, 25, 30, 35 (n=9)
(数据已排序。)
1. 找中位数 (\(Q_2\)):位置 \(\frac{9+1}{2} = 5\)。中位数 = 18。
2. 找 \(Q_1\):位置 \(\frac{1}{4} (9+1) = 2.5\)。这是第2个数(12)和第3个数(15)的中间。
\[Q_1 = \frac{12+15}{2} = 13.5\]
3. 找 \(Q_3\):位置 \(\frac{3}{4} (9+1) = 7.5\)。这是第7个数(25)和第8个数(30)的中间。
\[Q_3 = \frac{25+30}{2} = 27.5\]
4. 计算IQR:
\[\text{IQR} = Q_3 - Q_1 = 27.5 - 13.5 = 14\]
类比: 把IQR想象成靶心的范围。它衡量的是最典型的一半数据聚集得有多紧密,同时忽略了外围的环(离群点)。
第二部分要点总结: 极差测量总跨度,但容易受离群点干扰。四分位距 (IQR) 测量中间50%的离散程度,在比较数据集时更为可靠。
第三部分:频率表中的平均指标
通常,数据会以频率表 (frequency table)的形式呈现,展示每个值出现的次数。处理频率表时,计算平均指标的方法会稍有不同。
3.1 频率表中的众数与中位数
寻找众数
对于频率表(其中 x 是数值,f 是频率),众数就是频率 \(f\) 最高的那个数值 \(x\)。
寻找中位数
处理频率表时,数据总个数 \(n\) 即总频率:\(n = \sum f\)。
1. 计算总频率 \(n = \sum f\)。
2. 寻找位置:\(\frac{n+1}{2}\)。
3. 使用累积频率(频率的逐项相加)来定位该位置落入哪个区间。对应位置的数值 \(x\) 即为中位数。
3.2 从频率表计算平均数
如果分数为10出现了5次,我们不需要逐个相加 \(10 + 10 + 10 + 10 + 10\),而是直接算 \(10 \times 5 = 50\)。平均数公式也随之调整。
平均数公式(频率表)
\[\bar{x} = \frac{\sum fx}{\sum f}\]
步骤指南:
1. 在表格中增加一列 \(fx\)(数值 \(\times\) 频率)。
2. 计算 \(fx\) 列的每一个条目。
3. 将 \(fx\) 列求和(即 \(\sum fx\))。
4. 将频率列求和(即 \(\sum f\))。
5. 相除:\(\frac{\sum fx}{\sum f}\)。
例: 分数 (x) 与 频率 (f)
| x (分数) | f (频率) | fx |
| 1 | 3 | 3 |
| 2 | 5 | 10 |
| 3 | 2 | 6 |
| 总计 | \(\sum f = 10\) | \(\sum fx = 19\) |
平均数 = \(\frac{19}{10} = 1.9\)
3.3 估计分组数据的平均数(进阶概念)
如果数据是以类或组的形式呈现(例如:年龄 10-20岁,20-30岁),你不知道每一项的具体数值。因此,只能计算平均数的估计值。
不要被这一步吓到,底层逻辑和普通频率表平均数是一样的,只是多了一个关键步骤!
关键额外步骤:使用组中值
因为不知道具体数值,我们必须假设每组的数据都集中在该组的中心。我们使用组间距的中值 (midpoint, m) 作为该组的代表值 (\(x\))。
\[\text{Midpoint} (m) = \frac{\text{Lower Boundary} + \text{Upper Boundary}}{2}\]
估计平均数公式(分组数据)
\[\text{Estimated Mean} = \frac{\sum fm}{\sum f}\]
步骤指南:
1. 计算每一组的组中值 (m)。
2. 增加一列 \(fm\)(频率 \(\times\) 组中值)。
3. 计算每一条 \(fm\)。
4. 求 \(fm\) 列的总和 (\(\sum fm\))。
5. 求频率列的总和 (\(\sum f\))。
6. 相除:\(\frac{\sum fm}{\sum f}\)。
例: 身高 (cm) 与 频率 (f)
| 身高区间 | f | m (中值) | fm |
| 150 < h \(\leq\) 160 | 5 | 155 | 775 |
| 160 < h \(\leq\) 170 | 10 | 165 | 1650 |
| 170 < h \(\leq\) 180 | 5 | 175 | 875 |
| 总计 | \(\sum f = 20\) | \(\sum fm = 3300\) |
估计平均数 = \(\frac{3300}{20} = 165\) cm。
避免常见错误: 处理分组数据时,你只能找到众数类(频率最高的那个组),而不是准确的众数。同样,你也无法找到精确的极差,只能找到可能的最大极差(最大组上限 - 最小组下限)。
第三部分要点总结: 使用频率表时,相加前务必先将数值(或中值)乘以频率。计算结束后,一定要除以总频率 (\(\sum f\))。