📊 欢迎来到直方图的世界!
你好,数学爱好者们!这一章我们要学习一种特殊的数据展示方式——直方图(Histogram)。如果你已经学过条形图(Bar chart),你可能会觉得它们看起来很像,但直方图有一个至关重要的区别,这使得它在处理大量连续性数据(Continuous data)时不可或缺。
如果一开始觉得有点难,别担心。核心概念其实很简单:面积。只要你明白直方图柱子的面积代表频数(Frequency),一切就都迎刃而解了!
导言要点
你将学习绘制并解读直方图,其中柱子的“面积”(不仅仅是高度)代表频数。在处理分组区间宽度不等且数据连续的情况下,这一点至关重要。
1. 条形图 vs 直方图:为什么要区分?
在深入了解直方图之前,让我们先快速回顾一下我们使用的数据类型:
-
离散型数据(Discrete Data): 只能取特定、固定值的数据(例如:兄弟姐妹的人数、鞋码)。
条形图非常适合表示离散型数据。 - 连续型数据(Continuous Data): 在特定范围内可以取任意值的数据(例如:身高、时间、重量)。连续型数据通常会被分成若干组(类)。
什么是直方图?
直方图是一种用于表示分组连续数据的统计图表。
条形图的柱子之间有间隙(代表不同的类别或离散值),而直方图的柱子之间没有间隙,这直观地表明了数据是连续的。
核心差异:不等的组距(Class Width)
当我们对连续数据进行分组时,区间的大小(即组的宽度)可能各不相同。这些区间大小被称为组距(Class Width)。
如果所有组距都相等,普通的条形图完全可以胜任。但在现实生活中(以及考试题目中!),组距常常是不等的。这就是直方图核心规则的用武之地:
在直方图中,柱子的面积与该组的频数成正比。
想象一下测量学习时间(连续数据)。一组是 0-5 小时(组距为 5),另一组是 5-25 小时(组距为 20)。如果仅仅用柱子的高度来代表频数,那么 5-25 小时这组看起来会非常巨大且具有误导性,即使它里面的人数可能更少!因此,我们使用面积来确保展示的公平性。
2. 计算:频数密度(Frequency Density)
由于面积必须代表频数,我们需要对纵轴进行特殊计算。我们不能直接在 y 轴上标出频数,因为那样会让较宽的柱子显得过于重要。
引入频数密度(FD)
直方图的纵轴称为频数密度(Frequency Density, 简称 FD)。
FD 是一个衡量指标,它确保了每个矩形柱的面积能够正确地表示该组的频数。
柱子的面积(即频数)计算方式为:
\( \text{Area} = \text{Class Width} \times \text{Height} \)
因此,高度(频数密度)的计算方式为:
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)
分步说明:如何从频数表计算 FD
绘制直方图的第一步,永远是计算每个组区间的 FD。
示例设置: 学生身高 (cm)。
| 组区间(身高, \( h \)) | 频数 (F) | 1. 计算组距 (W) | 2. 计算频数密度 (FD) |
|---|---|---|---|
| \( 150 < h \le 160 \) | 10 | \( 160 - 150 = 10 \) | \( \text{FD} = 10 / 10 = 1 \) |
| \( 160 < h \le 175 \) | 30 | \( 175 - 160 = 15 \) | \( \text{FD} = 30 / 15 = 2 \) |
| \( 175 < h \le 180 \) | 25 | \( 180 - 175 = 5 \) | \( \text{FD} = 25 / 5 = 5 \) |
💡 小贴士:为什么在这里 FD 很重要
请注意最后一个区间(\( 175 < h \le 180 \)),它的组距很小(5),但频数密度很高(5)。这确保了它的面积(\( 5 \times 5 = 25 \))得到了正确的表示;相比之下,第二个区间虽然组距很大(15),但高度较低(FD=2),其面积为 \( 15 \times 2 = 30 \)。
3. 绘制直方图
准确绘制直方图需要根据你的连续数据和计算出的频数密度正确设置坐标轴。
绘图步骤指南
-
确定组边界(横轴):
对于连续数据,确保柱子之间没有空隙。组边界对于确定组距 (W) 至关重要。如果表格中给出 10-19 和 20-29,则需要闭合边界间的缺口(将组变为 9.5 到 19.5,以及 19.5 到 29.5)。
提示:如果区间已经以数学方式定义好(例如 \( 150 < h \le 160 \)),那么边界直接就是 150 和 160。 -
设置坐标轴:
- 横轴 (x-axis): 必须标注变量名称(例如:身高、时间),并使用组边界(150, 160, 175, 180 等)进行刻度标注。确保刻度能够覆盖可能不等的组距。
- 纵轴 (y-axis): 必须标注为频数密度 (Frequency Density)。刻度应能容纳你计算出的最高 FD 值。
-
绘制柱子:
对于每一组:
- 柱子的宽度对应横轴上的组距。
- 柱子的高度对应计算出的该组频数密度。
⚠️ 常见错误提醒:组边界
如果你的数据是取整后的(例如,年龄是整数:10-14, 15-19),请记住找出精确的边界(组与组之间的中点)。14 和 15 之间的边界是 14.5。因此,真实的第一个组区间应该是 \( 9.5 \le \text{Age} < 14.5 \)。
4. 解读直方图:求频数
考试中最常见的问题是要求你反向操作:利用图形(面积)求频数(即该组包含的数量)。
请记住这个基本关系:
\( \mathbf{\text{Frequency} = \text{Class Width} \times \text{Frequency Density}} \)
情况 1:求整个柱子的频数
这很简单。找到对应的柱子,从横轴读出其宽度,从纵轴读出其高度 (FD),然后相乘。
示例: 一个柱子跨度从 20 到 35(宽度 = 15)。高度 (FD) 为 4。
\( \text{Frequency} = 15 \times 4 = 60 \)。
情况 2:求部分柱子的频数
有时题目会要求计算仅仅覆盖柱子“一部分”区域的频数。你只需要计算该特定部分的面积即可。
分步说明:求部分频数
- 确定相关的 FD: 读取包含该特定部分的柱子的高度 (FD)。
- 计算所需的部分宽度: 确定你感兴趣的那部分具体的宽度。
- 计算频数: 将 FD 乘以部分宽度。
示例: 一个柱子范围是从 10 到 30(FD = 2)。题目要求计算 25 到 30 之间的数据点的频数。
- 相关 FD = 2。
- 部分宽度 = \( 30 - 25 = 5 \)。
- 频数 = \( 5 \times 2 = 10 \)。
情况 3:利用频数求未知的 FD(比例缩放)
如果题目给出了某组柱子的总频数,但 FD 轴上缺少刻度,你可以利用已知的总面积来求出缺失的比例因子。
直方图的总面积必须等于总频数。
如果图表显示面积为 X,但你知道总频数为 Y,那么 FD 轴所需的比例因子就是 \( \frac{\text{实际总频数 (Y)}}{\text{基于当前刻度计算的总面积 (X)}} \)。然后将此因子应用于 y 轴刻度即可。
总结与快速检查
你现在已经准备好应对直方图了!记住这些关键点:
- 直方图适用于分组连续数据。
- 面积 = 频数。(这是最重要的规则!)
- 纵轴是频数密度。
- 公式:\( \text{FD} = \frac{F}{W} \)(其中 F = 频数,W = 组距)。
- 从直方图读数时,使用 \( F = W \times FD \)。
你知道吗? “直方图”(Histogram)这个词最早是由卡尔·皮尔逊(Karl Pearson)在 1895 年提出的。他根据希腊语词汇 histos(直立的事物,如柱子)和 gramma(图画或记录)组合创造了这个词。