📊 第 10 章:统计学(扩展内容)
累积频数图 (Cumulative Frequency Diagrams)
各位数学达人大家好!本章将带你把数据可视化水平提升到一个新的高度。我们之前已经学习过频数表和条形图,但有时我们需要了解数据是如何随着数值变化而不断累积的。这时候,累积频数图就派上用场了!
如果听起来有点复杂,别担心——它其实就是一种画在图表上的“累计总额”。掌握这一课题对于处理大规模分组数据,并快速准确地计算出离散程度和平均值(如中位数)至关重要。
1. 理解累积频数 (CF)
1.1 什么是累积频数?
频数 (Frequency):告诉你某个数值或某组数据出现了多少次。
累积频数 (Cumulative Frequency, CF):是频数的逐项累加总和。它告诉你截至某个特定数值之前,数据点的总个数。
类比:想象你在记录每天骑行的公里数。当天的公里数就是“频数”,而你从第一天开始骑行至今的总路程就是“累积频数”。
1.2 创建累积频数表
累积频数通常用于分组的连续型数据。
要制作这张表,你需要两列:组距(数据分组)和频数。然后,计算出每一组的 CF。
计算 CF 的步骤:
- 从第一组的频数开始,这就是你的第一个累积频数。
- 对于第二组,将其频数与之前的累积频数相加。
- 重复此过程,直到完成最后一组。
快速自测: 累积频数栏中的最后一个数值必须等于整个数据集的总频数 (\(N\))。
🔑 关键概念:描点
绘制累积频数图时,需要将 CF 值对应到每一组的上限边界 (Upper Class Boundary)。
原因:累积频数表示的是“小于或等于”某组上限的数据点的总个数。
例子:如果分组是 \(10 < t \leq 20\),且该组的 CF 为 15,意味着有 15 个数据点小于 20。因此,我们绘制的点坐标为 \((20, 15)\)。
2. 绘制累积频数图(累积频数曲线,Ogive)
这种图表通常被称为 Ogive(累积频数曲线)。能准确地画出它是一项考试必备技能。
2.1 设置坐标轴
- X 轴(横轴): 表示数据本身(例如:身高、时间、分数)。请务必清晰地标注该轴。
- Y 轴(纵轴): 表示累积频数 (CF)。其范围必须从 0 到总频数 (\(N\))。
2.2 绘图过程
- 起始点: 曲线必须从可能的最小值开始,此时 CF 为 0。如果你的第一组数据是 \(10 < x \leq 20\),你必须先画出 \((10, 0)\)。这确保了图表涵盖了所有数据。
- 描点: 将计算出的累积频数对应上限边界进行描点(使用细小的叉号 \(x\))。
- 连线: 用平滑的曲线将各点连接起来(应该是流畅的线条,而不是折线)。这一点非常重要,因为我们处理的是连续型数据,数值的变化应该是平滑过渡的。
⚠️ 常见错误提醒!
千万不要用直尺连接各点(画成一连串的折线)。累积频数代表的是平滑累加的分布。使用直尺会导致画图部分不得分!
此外,记得要对应上限边界描点,而不是中点或下限(除了起始点 \((0, 0)\) 或第一个组的下限)。
3. 解读图表:寻找平均值与离散程度
绘制好平滑的累积频数曲线后,我们就可以用它来估计关键的统计量。这些估计值都是直接从图表上读取出来的。
3.1 中位数 (\(Q_2\))
中位数是数据按顺序排列后的中间值。
寻找中位数的方法:
- 计算位置:中位数位置 = \(\frac{N}{2}\),其中 \(N\) 是总频数。
- 在 CF(纵轴)上找到这个位置。
- 画一条水平线与曲线相交。
- 再从交点向下画一条垂直线到 数据(横轴)上。
- 读取数据轴上的值。这就是估计出的中位数。
3.2 四分位数 (\(Q_1\) 和 \(Q_3\))
四分位数将数据分成四等份。
- 下四分位数 (\(Q_1\)): 25% 位置处的值。
位置:\(\frac{1}{4} \times N\) 或 \(0.25 \times N\)。 - 上四分位数 (\(Q_3\)): 75% 位置处的值。
位置:\(\frac{3}{4} \times N\) 或 \(0.75 \times N\)。
记忆小贴士:\(Q_1, Q_2\)(中位数), \(Q_3\) 分别对应四分之几:即数据的 25%, 50%, 75%。
3.3 四分位距 (IQR)
IQR 是衡量离散程度的指标,它表示中间 50% 数据的跨度。
公式:
$$IQR = Q_3 - Q_1$$
IQR 较小意味着中间 50% 的数据非常集中;IQR 较大则意味着中间 50% 的数据分布很广。
3.4 百分位数
百分位数将数据分成 100 等份。如果你想找到特定的基准点(例如前 10% 的分数),这就很有用。
寻找 \(P\) 百分位数的方法:
- 计算位置:\(\frac{P}{100} \times N\)。
- 从数据轴读取对应的数值。
例子:要寻找第 80 百分位数,在 CF 轴上找到 \(0.80 \times N\) 的位置并读取横轴数值即可。
✅ 复习回顾:图表解读
- CF 图有什么用? 用于估计分组连续数据的中位数、四分位数和百分位数。
- 如何找到数据值? 从 CF 轴出发,横向画到曲线,再向下画到数据轴。
- 如果题目问:“有多少学生得分低于 70 分?” 在数据轴 (x轴)上找到 70,向上画到曲线,再横向读取对应的 CF (y轴) 数值。
- 准确性: 始终根据 x 轴提供的刻度读取最终答案,通常保留到合适的精度(除非另有说明,一般保留 3 位有效数字)。
冷知识:
虽然 CF 图非常适合求中位数和四分位数,但它无法用来寻找众数 (Mode)。若要寻找众数,通常需要使用频数折线图或直方图。
继续练习你的绘图和读图技巧——你可以做到的!