欢迎来到数据呈现的世界!
你有没有想过,公司是如何决定哪种口味的薯片应该多进货?医生又是如何追踪婴儿的成长状况的呢?这一切都始于数据呈现 (data presentation)。在这个章节中,我们不仅仅是处理一堆冷冰冰的数字,而是要学习如何将这些数字转化为任何人都能读懂的故事。
如果你以前觉得统计学很「枯燥」,请不用担心——我们会把它拆解成简单且直观的步骤,让你一眼就能看出数据背后的规律!
1. 基本构件:数据类型
在绘制任何图表之前,我们必须先了解我们所使用的「砖块」是什么。在数学 B (MEI) 中,我们将数据分为四大类:
- 分类数据 (Categorical Data): 这些是非数值的标签。例如:眼睛颜色、汽车品牌或你最喜欢的披萨配料。
- 离散数据 (Discrete Data): 只能取特定数值(通常是整数)的数值数据。这些数据是可以「数」出来的。例如:班级人数或一场比赛中的入球数。
- 连续数据 (Continuous Data): 在一定范围内可以取任何数值的数值数据。这些数据是透过「测量」获得的。例如:你的身高、苹果的重量或跑完 100 米所需的时间。
- 排名数据 (Ranked Data): 已按顺序排列或给予名次的数据。例如:比赛中的第一名、第二名和第三名。
快速复习: 如果你可以用「数」的,那通常是离散数据。如果你必须使用工具(如尺或秒表)来「测量」,那通常是连续数据。
总结: 识别数据类型是选择正确图表的第一步。你总不会用直方图来统计你最喜欢的颜色吧!
2. 未分组数据的可视化
当我们的数据没有被归入大型范围(组别)时,我们通常会使用几种标准图表。以下是你需要掌握的类型:
条形图 (Bar Charts) 与垂直线图 (Vertical Line Charts)
这些非常适合分类数据或离散数据。在垂直线图中,线段的高度代表频数。 类比:你可以把条形图想象成一排建筑物;建筑物越高,代表住在那里的人(数据点)就越多!
点图 (Dot Plots)
点图与条形图类似,但它使用堆叠的点来表示频数。对于快速查看小型数据集的「形状」非常有用。
圆形图 (Pie Charts)
用于显示整体中各部分的比例。 你知道吗? 要计算每个扇形的角度,请使用以下公式:\( \text{Angle} = \frac{\text{Frequency}}{\text{Total Frequency}} \times 360^\circ \)。
茎叶图 (Stem-and-Leaf Diagrams)
这是一种能显示每一笔数据,同时又能看出整体分布形状的巧妙方法。 记忆小撇步: 把图表想象成植物。茎 (stem) 是主要部分(例如:「十位数」),而叶 (leaves) 则是生长出来的部分(「个位数」)。别忘了加上键值 (key)(例如:2 | 1 代表 21)!
总结: 这些图表既保留了原始数据,又将其整理得井井有条,让我们能轻松看出哪些数值最常见。
3. 直方图 (Histograms):宏观视野
直方图用于分组连续数据。它们看起来像条形图,但有一个巨大的区别:长条的面积代表频数,而不是高度!
这是大多数学生最容易弄错的地方,请记住这个秘密公式:
\[ \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \]
操作步骤:如何处理直方图
1. 找出组宽 (Class Width)(组别上限与下限之间的差值)。
2. 使用上述公式计算每组的频数密度 (Frequency Density)。
3. 绘制坐标轴:x 轴为数据(例如:重量),y 轴必须标示为频数密度。
4. 绘制长条。因为数据是连续的,所以长条之间不应留有空隙!
避免常见错误: 如果组宽不一致,切勿直接在 y 轴绘制频数。如果你这样做,较宽的长条看起来会比实际更重要,造成误导!
总结: 在直方图中,面积 = 频数。如果一个长条的宽度是另一个的两倍,但代表的数值相同,那么它的高度就必须是另一条的一半。
4. 累计频数 (Cumulative Frequency) 与箱形图 (Box Plots)
有时候,我们想了解数据的「累计总和」,这就是累计频数。
累计频数图
绘制时,你需要随着组别不断累加频数。记得要在每个组别的上限 (upper bound) 绘点,并用平滑的 S 形曲线(称为累计频数曲线或 ogive)连接它们。
箱线图 (Box-and-Whisker Diagrams / Box Plots)
这对于观察数据的分散程度 (spread) 非常理想。箱线图展示了五个关键数值:
- 最小值 (Minimum): 数据中最小的数值。
- 下四分位数 (Lower Quartile, LQ): 25% 的位置。
- 中位数 (Median): 中间的数值(50% 的位置)。
- 上四分位数 (Upper Quartile, UQ): 75% 的位置。
- 最大值 (Maximum): 数据中最大的数值。
总结: 累计频数帮助我们找到中位数和四分位数,进而绘制箱线图,方便我们比较不同的数据集。
5. 描述形状(分布)
图表绘制完成后,你需要使用特定的数学术语来描述它:
- 单峰 (Unimodal): 数据有一个明显的「高峰」(一个众数)。
- 双峰 (Bimodal): 数据有两个明显的高峰。类比:就像骆驼背上的两个驼峰!
- 对称 (Symmetrical): 左侧是右侧的镜像。
- 偏态 (Skewed): 数据「倾斜」向某一侧。
如何记忆偏态:
看看图表的「尾巴」指向哪里:
- 正偏态 (Positive Skew): 「尾巴」指向右侧(朝向正数方向)。大部分数据集中在低数值端。
- 负偏态 (Negative Skew): 「尾巴」指向左侧(朝向负数或较低数值方向)。大部分数据集中在高数值端。
如果不确定也不要紧! 只要看「尾巴」在哪里。如果图表往右拖长,就是正偏态;如果往左拖长,就是负偏态。
总结: 描述分布有助于我们理解数据是否平衡,还是严重向某一端「倾斜」。
6. 极端值 (Outliers) 与数据清理
有时候,数据会出现异常。极端值是指与其余数据不一致的数据点。它可能是测量错误,也可能只是一个非常罕见的事件。
如何识别极端值(1.5 × IQR 规则):
一个数值通常被视为极端值,如果它是:
- 高于上四分位数 \( 1.5 \times \text{IQR} \)。
- 低于下四分位数 \( 1.5 \times \text{IQR} \)。
另外,有时题目会规定:超出平均值 2 个标准差的数据即为极端值。
数据清理 (Cleaning Data): 在进行最终分析之前,这是一个处理缺失值、错误,或决定是否保留或删除极端值的过程。
重点提示: 务必寻找那些不符合规律的数值。它们可能是你数据中最有趣的部分,也可能是一个需要「清理」的错误!