统计学第1章:平均数与离散程度的度量
欢迎来到平均数与离散程度的度量这一章!在统计学中,我们会收集海量的数据,但原始数据往往杂乱无章。本章将教你如何仅用几个强有力的数字来概括这些数据。
你可以把它想象成在读一本书的梗概,而不是去读整本书:
- 平均数(平均值、中位数、众数)告诉你数据的“典型值”或中心位置(也就是书的主线情节)。
- 离散程度的度量(极差、四分位距)告诉你数据的波动范围(即角色或事件的变化程度有多大)。
第1节:集中趋势的度量(平均数)
三种主要的平均数(也称为集中趋势的度量)分别是众数、中位数和平均值。
1.1 众数 (Mode)
众数是数据集中出现频率最高的数值。
它是最容易找到的指标,且适用于任何类型的数据(甚至是像“最喜欢的颜色”这类非数值数据)。
如何寻找众数:找出出现次数(频数)最多的那个值。
例子:数据集:5, 8, 8, 10, 12。
众数是 8。
重要提示:
- 一个数据集可以有多个众数(双众数、三众数等)。
- 如果所有数值都只出现一次,则该数据集没有众数。
1.2 中位数 (Median)
中位数是数据按大小顺序排列后的中间数值。
离散数据计算步骤:
- 将数据排序(从小到大)。
- 统计数据的总个数,即 \(n\)。
- 利用公式计算中位数的位置:位置 \( = \frac{n + 1}{2} \)。
- 在排序后的数据中找到对应位置的数值。
情况1:数据点个数为奇数 (\(n\) 为奇数)
例子:数据集:12, 5, 10, 8, 15。(\(n=5\))
1. 排序后:5, 8, 10, 12, 15。
2. 位置:\(\frac{5 + 1}{2} = 3\)。
3. 中位数即第3个数值:10。
情况2:数据点个数为偶数 (\(n\) 为偶数)
例子:数据集:5, 8, 10, 12。(\(n=4\))
1. 位置:\(\frac{4 + 1}{2} = 2.5\)。这意味着中位数位于第2个和第3个数值(8和10)之间。
2. 通过计算这两个中间值的平均数得到中位数:
中位数 \( = \frac{8 + 10}{2} = 9\)。
1.3 平均值 (Mean)
平均值是所有数值的总和除以数值的个数。它是最常用的平均数,代表了数据的数学中心。
平均值 (\(\bar{x}\)) 的公式:
$$ \bar{x} = \frac{\text{所有数值之和}}{\text{数值的个数}} = \frac{\sum x}{n} $$
例子:数据集:5, 8, 10, 12。(\(n=4\))
$$ \bar{x} = \frac{5 + 8 + 10 + 12}{4} = \frac{35}{4} = 8.75 $$
小贴士:如何选择合适的平均数?
不同的平均数在不同场景下各有优劣:
- 平均值 (Mean):利用了所有数据点。最适合数据分布均匀的情况,但容易被离群值(极端数值)拉高或拉低。
- 中位数 (Median):不受离群值影响。最适合高度偏态的数据(例如房价或薪资)。
- 众数 (Mode):最适合分类数据(例如哪种鞋码最畅销)。
记忆小窍门:Most Often(众数)、Middle(中位数)、Mathematical average(数学平均值)。
第2节:离散程度的度量(波动性)
离散程度的度量告诉我们数据值之间相互偏离的程度。两个数据集可能有相同的平均值,但如果一个数据集波动较小,而另一个波动很大,它们反映的情况将截然不同!
2.1 极差 (Range)
极差是衡量离散程度最简单的方法。
公式:
$$ \text{极差} = \text{最大值} - \text{最小值} $$
例子:数据集:5, 8, 10, 12, 15。
极差 \( = 15 - 5 = 10\)。
缺点:极差完全由两个极端值决定,这意味着它对离群值非常敏感。
2.2 四分位数与四分位距 (IQR)
为了获得更稳健的离散程度度量(即忽略离群值的影响),我们使用四分位数。四分位数将有序数据分成四个相等的部分。
四分位数:
- \(Q_1\):下四分位数(25%的数据小于此值)。它是下半部分数据的中位数。
- \(Q_2\):中位数(50%的数据小于此值)。
- \(Q_3\):上四分位数(75%的数据小于此值)。它是上半部分数据的中位数。
四分位距 (IQR) 衡量的是中间50%数据的离散程度。
IQR 的公式:
$$ \text{IQR} = Q_3 - Q_1 $$
离散数据寻找四分位数的步骤:
1. 将数据排序。
2. 找到中位数 (\(Q_2\))。
3. 数据现在被分为两个半部分(下半部分和上半部分)。
4. \(Q_1\) 是下半部分数据的中位数。
5. \(Q_3\) 是上半部分数据的中位数。
例子 1:数据集 (\(n=7\)): 2, 4, 6, 8, 10, 12, 14
- \(Q_2\) (中位数): 8
- 下半部分 (排除8): 2, 4, 6。\(Q_1\) (下半部分的中间值) = 4。
- 上半部分 (排除8): 10, 12, 14。\(Q_3\) (上半部分的中间值) = 12。
- IQR \( = 12 - 4 = 8\)。
例子 2:数据集 (\(n=8\)): 1, 3, 5, 7, 9, 11, 13, 15
- \(Q_2\) (中位数): 7和9之间。\(Q_2 = 8\)。
- 下半部分: 1, 3, 5, 7。\(Q_1\) (3和5的平均值) = 4。
- 上半部分: 9, 11, 13, 15。\(Q_3\) (11和13的平均值) = 12。
- IQR \( = 12 - 4 = 8\)。
⚠️ 常见错误警告 ⚠️
在计算四分位数时,一定要确保先将数据排序。如果你漏掉这一步,所有的四分位数和中位数计算都将是错误的!
第3节:使用频数表
当你拥有大量离散数据时,罗列每一个数值是不现实的。我们使用频数表,其中 \(f\) 代表频数(数值出现的次数),\(x\) 代表数据值。
3.1 通过频数表计算平均值、中位数和四分位数(离散数据)
1. 计算平均值:
我们不必加总每一个 \(x\),而是使用总频数 \(\sum f\) 和 (频数 \(\times\) 数值) 的总和 \(\sum fx\)。
频数表平均值公式:
$$ \bar{x} = \frac{\sum fx}{\sum f} $$
计算平均值的步骤:
- 新建一列计算 \(fx\)(将 \(f\) 与 \(x\) 相乘)。
- 求 \(fx\) 列的总和 (\(\sum fx\))。
- 求 \(f\) 列的总和 (\(\sum f\),即 \(n\))。
- 将两个总和相除。
2. 计算中位数和四分位数:
同样需要先确定位置:位置 \( = \frac{n + 1}{2}\)。
使用累计频数(\(f\) 的运行总和)在表中定位该位置对应的数值。
例子:若 \(\sum f = 50\)。
中位数位置:\(\frac{50 + 1}{2} = 25.5\)。我们需要找到涵盖第25个和第26个数据点的数值 \(x\)。
\(Q_1\) 位置:\(\frac{50 + 1}{4} \approx 12.75\)。我们需要找到涵盖第13个数据点的数值 \(x\)。
第4节:处理分组数据(扩展内容)
有时数据被分到各个组中(例如 0-10, 10-20 等)。当数据分组后,我们丢失了确切的原始值,因此只能计算平均数的估计值。
4.1 估计分组数据的平均值
由于不知道确切值,我们假设每一组区间内的所有数据点都位于该区间的中点。
估计平均值的步骤:
- 求出每个组区间的中点 (\(m\)):
$$ \text{中点} = \frac{\text{下边界} + \text{上边界}}{2} $$ - 计算每一组的估计总和:\(fm\)(频数 \(\times\) 中点)。
- 使用平均值公式,用 \(m\) 代替 \(x\):
$$ \text{估计平均值} = \frac{\sum fm}{\sum f} $$
你知道吗? 你的图形显示计算器 (GDC) 可以直接通过输入中点作为数据值、频数作为对应的权重来计算分组数据的平均值。(课程大纲 C10.5/E10.5)
4.2 识别众数类
当数据分组时,我们无法找到确切的众数,但可以识别众数类。
众数类即频数最高的组区间。
第5节:累计频数(扩展内容 E10.8)
累计频数可以帮助我们快速找到分组数据的中位数和四分位数。
5.1 什么是累计频数?
累计频数 (CF) 是频数的累加总和。它告诉你直到某个特定组区间结束时,数据点的总个数。
例子:如果第一组的频数是10,第二组的频数是15,那么第二组的累计频数就是 \(10 + 15 = 25\)。
5.2 绘制并解释累计频数曲线(累积频数多边形/Ogive)
累计频数图是绘制累计频数与数据值的图表。
至关重要的绘图规则:
必须将累计频数绘制在纵轴上,将每个组区间的上边界(或上限)绘制在横轴上。
连接点时,应使用平滑曲线。(记得从第一组的下边界处开始画,此时累计频数为0)。
5.3 通过累计频数曲线估计平均数和离散程度
如果 \(N\) 是总频数,我们可以通过图表上的读取横纵坐标来估计关键值:
1. 中位数 (\(Q_2\)):
位置:\(\frac{N}{2}\)。
寻找方法:在累计频数轴上找到 \(\frac{N}{2}\),水平移动到曲线上,然后向下垂直到横轴读取数值。
2. 四分位数 (\(Q_1\) 和 \(Q_3\)):
\(Q_1\) 位置:\(\frac{N}{4}\)(即 \(N\) 的25%)。
\(Q_3\) 位置:\(\frac{3N}{4}\)(即 \(N\) 的75%)。
寻找方法:从累计频数轴上的这些位置水平读入曲线,再向下读取数据轴。
3. 四分位距 (IQR):
计算 \( \text{IQR} = Q_3 - Q_1 \)。
4. 百分位数:
百分位数代表某个特定比例以下的数值。
例子:要找到第80百分位数,先找到 \(N\) 的80%所对应的位置:\(0.80 \times N\)。然后像之前一样水平和垂直读取数值。
核心总结:累计频数
累计频数曲线使我们无需使用复杂的插值公式即可估计中间数值(中位数、四分位数、百分位数)。
- 务必将累计频数与上边界对应绘图。
- 总个数 \(N\) 是累计频数轴上的最高点。
- 通过累计频数曲线计算出的 IQR 比极差更具参考价值。