统计学第1章:平均数与离散程度的度量

欢迎来到平均数与离散程度的度量这一章!在统计学中,我们会收集海量的数据,但原始数据往往杂乱无章。本章将教你如何仅用几个强有力的数字来概括这些数据。

你可以把它想象成在读一本书的梗概,而不是去读整本书:

  • 平均数(平均值、中位数、众数)告诉你数据的“典型值”或中心位置(也就是书的主线情节)。
  • 离散程度的度量(极差、四分位距)告诉你数据的波动范围(即角色或事件的变化程度有多大)。
掌握这些概念对于准确比较不同的数据集至关重要。让我们开始吧!

第1节:集中趋势的度量(平均数)

三种主要的平均数(也称为集中趋势的度量)分别是众数、中位数和平均值。

1.1 众数 (Mode)

众数是数据集中出现频率最高的数值。
它是最容易找到的指标,且适用于任何类型的数据(甚至是像“最喜欢的颜色”这类非数值数据)。

如何寻找众数:找出出现次数(频数)最多的那个值。
例子:数据集:5, 8, 8, 10, 12。
众数是 8

重要提示:

  • 一个数据集可以有多个众数(双众数、三众数等)。
  • 如果所有数值都只出现一次,则该数据集没有众数。

1.2 中位数 (Median)

中位数是数据按大小顺序排列后的中间数值

离散数据计算步骤:

  1. 将数据排序(从小到大)。
  2. 统计数据的总个数,即 \(n\)。
  3. 利用公式计算中位数的位置:位置 \( = \frac{n + 1}{2} \)。
  4. 在排序后的数据中找到对应位置的数值。

情况1:数据点个数为奇数 (\(n\) 为奇数)

例子:数据集:12, 5, 10, 8, 15。(\(n=5\))
1. 排序后:5, 8, 10, 12, 15。
2. 位置:\(\frac{5 + 1}{2} = 3\)。
3. 中位数即第3个数值:10

情况2:数据点个数为偶数 (\(n\) 为偶数)

例子:数据集:5, 8, 10, 12。(\(n=4\))
1. 位置:\(\frac{4 + 1}{2} = 2.5\)。这意味着中位数位于第2个和第3个数值(8和10)之间。
2. 通过计算这两个中间值的平均数得到中位数:
中位数 \( = \frac{8 + 10}{2} = 9\)。

1.3 平均值 (Mean)

平均值是所有数值的总和除以数值的个数。它是最常用的平均数,代表了数据的数学中心。

平均值 (\(\bar{x}\)) 的公式:
$$ \bar{x} = \frac{\text{所有数值之和}}{\text{数值的个数}} = \frac{\sum x}{n} $$

例子:数据集:5, 8, 10, 12。(\(n=4\))
$$ \bar{x} = \frac{5 + 8 + 10 + 12}{4} = \frac{35}{4} = 8.75 $$

小贴士:如何选择合适的平均数?

不同的平均数在不同场景下各有优劣:

  • 平均值 (Mean):利用了所有数据点。最适合数据分布均匀的情况,但容易被离群值(极端数值)拉高或拉低。
  • 中位数 (Median):不受离群值影响。最适合高度偏态的数据(例如房价或薪资)。
  • 众数 (Mode):最适合分类数据(例如哪种鞋码最畅销)。

记忆小窍门:Most Often(众数)、Middle(中位数)、Mathematical average(数学平均值)。

第2节:离散程度的度量(波动性)

离散程度的度量告诉我们数据值之间相互偏离的程度。两个数据集可能有相同的平均值,但如果一个数据集波动较小,而另一个波动很大,它们反映的情况将截然不同!

2.1 极差 (Range)

极差是衡量离散程度最简单的方法。

公式:
$$ \text{极差} = \text{最大值} - \text{最小值} $$

例子:数据集:5, 8, 10, 12, 15。
极差 \( = 15 - 5 = 10\)。

缺点:极差完全由两个极端值决定,这意味着它对离群值非常敏感。

2.2 四分位数与四分位距 (IQR)

为了获得更稳健的离散程度度量(即忽略离群值的影响),我们使用四分位数。四分位数将有序数据分成四个相等的部分。

四分位数:

  • \(Q_1\):下四分位数(25%的数据小于此值)。它是下半部分数据的中位数。
  • \(Q_2\):中位数(50%的数据小于此值)。
  • \(Q_3\):上四分位数(75%的数据小于此值)。它是上半部分数据的中位数。

四分位距 (IQR) 衡量的是中间50%数据的离散程度。

IQR 的公式:
$$ \text{IQR} = Q_3 - Q_1 $$

离散数据寻找四分位数的步骤:

1. 将数据排序。
2. 找到中位数 (\(Q_2\))。
3. 数据现在被分为两个半部分(下半部分和上半部分)。
4. \(Q_1\) 是下半部分数据的中位数。
5. \(Q_3\) 是上半部分数据的中位数。

例子 1:数据集 (\(n=7\)): 2, 4, 6, 8, 10, 12, 14

  • \(Q_2\) (中位数): 8
  • 下半部分 (排除8): 2, 4, 6。\(Q_1\) (下半部分的中间值) = 4
  • 上半部分 (排除8): 10, 12, 14。\(Q_3\) (上半部分的中间值) = 12
  • IQR \( = 12 - 4 = 8\)。

例子 2:数据集 (\(n=8\)): 1, 3, 5, 7, 9, 11, 13, 15

  • \(Q_2\) (中位数): 7和9之间。\(Q_2 = 8\)。
  • 下半部分: 1, 3, 5, 7。\(Q_1\) (3和5的平均值) = 4
  • 上半部分: 9, 11, 13, 15。\(Q_3\) (11和13的平均值) = 12
  • IQR \( = 12 - 4 = 8\)。

⚠️ 常见错误警告 ⚠️

在计算四分位数时,一定要确保先将数据排序。如果你漏掉这一步,所有的四分位数和中位数计算都将是错误的!

第3节:使用频数表

当你拥有大量离散数据时,罗列每一个数值是不现实的。我们使用频数表,其中 \(f\) 代表频数(数值出现的次数),\(x\) 代表数据值。

3.1 通过频数表计算平均值、中位数和四分位数(离散数据)

1. 计算平均值:
我们不必加总每一个 \(x\),而是使用总频数 \(\sum f\) 和 (频数 \(\times\) 数值) 的总和 \(\sum fx\)。

频数表平均值公式:
$$ \bar{x} = \frac{\sum fx}{\sum f} $$

计算平均值的步骤:

  1. 新建一列计算 \(fx\)(将 \(f\) 与 \(x\) 相乘)。
  2. 求 \(fx\) 列的总和 (\(\sum fx\))。
  3. 求 \(f\) 列的总和 (\(\sum f\),即 \(n\))。
  4. 将两个总和相除。

2. 计算中位数和四分位数:
同样需要先确定位置:位置 \( = \frac{n + 1}{2}\)。
使用累计频数(\(f\) 的运行总和)在表中定位该位置对应的数值。

例子:若 \(\sum f = 50\)。
中位数位置:\(\frac{50 + 1}{2} = 25.5\)。我们需要找到涵盖第25个和第26个数据点的数值 \(x\)。
\(Q_1\) 位置:\(\frac{50 + 1}{4} \approx 12.75\)。我们需要找到涵盖第13个数据点的数值 \(x\)。

第4节:处理分组数据(扩展内容)

有时数据被分到各个组中(例如 0-10, 10-20 等)。当数据分组后,我们丢失了确切的原始值,因此只能计算平均数的估计值

4.1 估计分组数据的平均值

由于不知道确切值,我们假设每一组区间内的所有数据点都位于该区间的中点

估计平均值的步骤:

  1. 求出每个组区间的中点 (\(m\)):
    $$ \text{中点} = \frac{\text{下边界} + \text{上边界}}{2} $$
  2. 计算每一组的估计总和:\(fm\)(频数 \(\times\) 中点)。
  3. 使用平均值公式,用 \(m\) 代替 \(x\):
    $$ \text{估计平均值} = \frac{\sum fm}{\sum f} $$

你知道吗? 你的图形显示计算器 (GDC) 可以直接通过输入中点作为数据值、频数作为对应的权重来计算分组数据的平均值。(课程大纲 C10.5/E10.5)

4.2 识别众数类

当数据分组时,我们无法找到确切的众数,但可以识别众数类

众数类即频数最高的组区间。

第5节:累计频数(扩展内容 E10.8)

累计频数可以帮助我们快速找到分组数据的中位数和四分位数。

5.1 什么是累计频数?

累计频数 (CF) 是频数的累加总和。它告诉你直到某个特定组区间结束时,数据点的总个数。

例子:如果第一组的频数是10,第二组的频数是15,那么第二组的累计频数就是 \(10 + 15 = 25\)。

5.2 绘制并解释累计频数曲线(累积频数多边形/Ogive)

累计频数图是绘制累计频数与数据值的图表。

至关重要的绘图规则:
必须将累计频数绘制在纵轴上,将每个组区间的上边界(或上限)绘制在横轴上。

连接点时,应使用平滑曲线。(记得从第一组的下边界处开始画,此时累计频数为0)。

5.3 通过累计频数曲线估计平均数和离散程度

如果 \(N\) 是总频数,我们可以通过图表上的读取横纵坐标来估计关键值:

1. 中位数 (\(Q_2\)):
位置:\(\frac{N}{2}\)。
寻找方法:在累计频数轴上找到 \(\frac{N}{2}\),水平移动到曲线上,然后向下垂直到横轴读取数值。

2. 四分位数 (\(Q_1\) 和 \(Q_3\)):
\(Q_1\) 位置:\(\frac{N}{4}\)(即 \(N\) 的25%)。
\(Q_3\) 位置:\(\frac{3N}{4}\)(即 \(N\) 的75%)。
寻找方法:从累计频数轴上的这些位置水平读入曲线,再向下读取数据轴。

3. 四分位距 (IQR):
计算 \( \text{IQR} = Q_3 - Q_1 \)。

4. 百分位数:
百分位数代表某个特定比例以下的数值。
例子:要找到第80百分位数,先找到 \(N\) 的80%所对应的位置:\(0.80 \times N\)。然后像之前一样水平和垂直读取数值。

核心总结:累计频数

累计频数曲线使我们无需使用复杂的插值公式即可估计中间数值(中位数、四分位数、百分位数)。

  • 务必将累计频数与上边界对应绘图。
  • 总个数 \(N\) 是累计频数轴上的最高点。
  • 通过累计频数曲线计算出的 IQR 比极差更具参考价值。