欢迎来到数据可视化的世界!

在本章中,我们将学习如何将杂乱无章的数字转换成清晰、美观的图表。为什么呢?因为相比于一长串的数据,我们的大脑更能轻易地从图表中看出规律。无论你是通过人口金字塔来了解国家的未来,还是利用散点图来观察冰淇淋销量是否随温度上升,这些工具都能帮助我们解读这个世界。

如果有些图表起初看起来有点复杂,不用担心。我们会从基础开始,逐步拆解,最后带你掌握专业级的图表绘制技巧!

1. 整理数据:表格与计数

在画图之前,我们必须先整理数据,这称为制表 (tabulation)

计数表与频率分布表

计数 (tally) 是一种在观察时快速记录数值的方法。针对每一项数据,画一条小竖线,每到第五条时斜着划过前四条(即“正”字计数法或“门”型计数法)。这样能让你以五个为一组,非常容易统计。

小贴士:务必再次检查总频率(所有计数的总和)是否与你最初拥有的数据数量一致!

双向表 (Two-Way Tables)

有时候数据同时属于两个不同的类别。例如,“性别”与“运动选择”。双向表能显示这些类别是如何重叠的。

例子:一张显示班上男生与女生分别参与足球或橄榄球运动的人数统计表。你可以横向读取一个类别,纵向读取另一个类别。

重点总结:

表格是所有统计学的基础。如果表格做错了,图表也会跟着错!请务必在行与列中包含总计 (totals)

2. 简单的图像表示法

象形图 (Pictograms)

象形图使用符号或图片来代表特定数量的项目。
重要:每个象形图必须附有图例 (key)。例如,一个圆圈 = 4 人。如果你只看到半个圆圈,就代表 2 人。

茎叶图 (Stem and Leaf Diagrams)

这类图表非常实用,因为它们既能整理数据,又能保留原始数字。
- 茎 (Stem) 是前面的位数。
- 叶 (Leaf) 是最后一位数。
关键步骤:最后呈现时,叶的部分必须按数值大小排序。你还需要提供一个图例(例如:1 | 2 代表 12)。

3. 棒形图 (Bar Charts):类别比较

棒形图用于定性 (qualitative)(类别/文字)或离散 (discrete)(整数)数据。

1. 简单棒形图:每个类别对应一条柱。
2. 复式棒形图:将不同组别(如“2022年”与“2023年”)的柱子并排,以便直接比较。
3. 合成(堆叠)棒形图:一条柱被分成不同部分,以显示整体的组成部分。百分比合成图会将所有柱的高度调整至一致(100%),以便比较比例。

常见错误:忘记在棒形图的柱子之间留空隙!(我们之后会提到的直方图是没有空隙的)。

4. 圆形图 (Pie Charts):整体的一部分

圆形图显示总数是如何分配的。要绘制圆形图,你需要计算每个“扇形”的圆心角。

公式: \( \text{圆心角} = \frac{\text{频率}}{\text{总频率}} \times 360^\circ \)

比较性圆形图(高级程度)

当比较两个不同总人口的数据时,我们不能只看圆心角。我们使用圆形的面积来代表总频率。
如果组别 A 的总频率是组别 B 的两倍,那么圆形 A 的面积也必须是圆形 B 的两倍。
记忆小撇步:半径与总数的平方根有关。
\( \frac{r_1}{r_2} = \sqrt{\frac{\text{Total}_1}{\text{Total}_2}} \)

5. 连续数据的呈现

直方图 (Histograms)

直方图看起来像棒形图,但因为数据是连续的(例如时间或高度),所以没有空隙

基础程度:你只需要了解组距相等 (equal class widths) 的直方图。在这里,柱的高度直接代表频率。

高级程度(组距不等):当组别的大小不同时,我们在纵轴上使用频率密度 (Frequency Density)。此时,柱子的面积代表频率。
公式: \( \text{频率密度} = \frac{\text{频率}}{\text{组距}} \)

累积频率图 (Cumulative Frequency Diagrams)

这是一种“累积总和”图。你将频率随着数值增加而累加起来。
- 务必将点绘制在组界上限 (upper class boundary) 上。
- 用平滑曲线或直线(多边形)连接这些点。
- 它通常会形成一个“S”型!

箱形图 (Box Plots / Box and Whisker)

这些图表使用五个关键数值来概括数据:最小值、下四分位数 (LQ)、中位数、上四分位数 (UQ) 以及最大值。
- “箱”的部分从 LQ 到 UQ。
- “须”的部分延伸至最小值和最大值。
- 它们非常适合用来比较两组不同数据集的分散程度

6. 关系与趋势

散点图 (Scatter Diagrams)

用于双变量数据 (bivariate data)(每个对象有两个变量)。
- 解释变量 (Explanatory variable)(可能引起变化的变量)放在 x 轴
- 响应变量 (Response variable)(结果变量)放在 y 轴
- 观察相关性 (Correlation):正相关(两者同时上升)、负相关(一个上升,另一个下降)或零相关(无规律)。

时间序列 (Time Series)

一种折线图,其中 x 轴始终是时间。我们观察趋势 (trends)(总体方向)和季节性变化 (seasonal variations)(每天、每周或每年重复出现的规律)。
- 你可以凭眼力画出趋势线,或使用移动平均数 (moving averages) 来平滑数据中的“杂讯”。

7. 特殊呈现工具

人口金字塔 (Population Pyramids)

这是一种背对背的棒形图,显示人口的年龄和性别分布。基部宽代表有很多新生儿(人口增长型);基部窄则代表人口老化。

等值区域图 (Choropleth Maps)

地图上不同的区域以不同的颜色或图案阴影表示数值(例如人口密度)。通常颜色越深,数值越高。

8. 偏态 (Skewness):数据是否歪斜?

偏态告诉我们数据是否“堆积”在某一侧。

正偏态 (Positive Skew):大多数数据集中在较低的一端(尾部指向右侧)。
检查: \( \text{平均值} > \text{中位数} > \text{众数} \)

负偏态 (Negative Skew):大多数数据集中在较高的一端(尾部指向左侧)。
检查: \( \text{平均值} < \text{中位数} < \text{众数} \)

高级程度公式: \( \text{偏度} = \frac{3(\text{平均值} - \text{中位数})}{\text{标准差}} \)

快速回顾:辨识错误的图表

请务必检查是否有“统计欺骗”或错误:
1. 截断轴: y 轴不是从零开始,导致微小的差异看起来非常巨大。
2. 不均匀的刻度: 轴上的数值间距不等。
3. 3D 失真: 3D 圆形图会使前面的扇形看起来比实际大得多。
4. 缺少标签: 没有标题,或轴上没有单位。

你知道吗? “统计学”(Statistics) 这个词源自拉丁语“Status”,意为“国家”,因为它最初是被政府用于记录人口和税收的!

如果觉得这些内容很多,不必担心。你练习绘制和解读这些图表的次数越多,就会觉得越自然。记住:务必标注你的坐标轴,务必包含图例,并始终留意刻度!