Tabulation, diagrams and representation - Statistics (1ST0) - Pearson Edexcel GCSE (9-1)

欢迎来到数据可视化的世界！

在本章中，我们将学习如何将杂乱无章的数字转换成清晰、美观的图表。为什么呢？因为相比于一长串的数据，我们的大脑更能轻易地从图表中看出规律。无论你是通过人口金字塔来了解国家的未来，还是利用散点图来观察冰淇淋销量是否随温度上升，这些工具都能帮助我们解读这个世界。

如果有些图表起初看起来有点复杂，不用担心。我们会从基础开始，逐步拆解，最后带你掌握专业级的图表绘制技巧！

1. 整理数据：表格与计数

在画图之前，我们必须先整理数据，这称为制表 (tabulation)。

计数表与频率分布表

计数 (tally) 是一种在观察时快速记录数值的方法。针对每一项数据，画一条小竖线，每到第五条时斜着划过前四条（即“正”字计数法或“门”型计数法）。这样能让你以五个为一组，非常容易统计。

小贴士：务必再次检查总频率（所有计数的总和）是否与你最初拥有的数据数量一致！

双向表 (Two-Way Tables)

有时候数据同时属于两个不同的类别。例如，“性别”与“运动选择”。双向表能显示这些类别是如何重叠的。

例子：一张显示班上男生与女生分别参与足球或橄榄球运动的人数统计表。你可以横向读取一个类别，纵向读取另一个类别。

重点总结：

表格是所有统计学的基础。如果表格做错了，图表也会跟着错！请务必在行与列中包含总计 (totals)。

2. 简单的图像表示法

象形图 (Pictograms)

象形图使用符号或图片来代表特定数量的项目。
重要：每个象形图必须附有图例 (key)。例如，一个圆圈 = 4 人。如果你只看到半个圆圈，就代表 2 人。

茎叶图 (Stem and Leaf Diagrams)

这类图表非常实用，因为它们既能整理数据，又能保留原始数字。
- 茎 (Stem) 是前面的位数。
- 叶 (Leaf) 是最后一位数。
关键步骤：最后呈现时，叶的部分必须按数值大小排序。你还需要提供一个图例（例如：1 | 2 代表 12）。

3. 棒形图 (Bar Charts)：类别比较

棒形图用于定性 (qualitative)（类别/文字）或离散 (discrete)（整数）数据。

1. 简单棒形图：每个类别对应一条柱。
2. 复式棒形图：将不同组别（如“2022年”与“2023年”）的柱子并排，以便直接比较。
3. 合成（堆叠）棒形图：一条柱被分成不同部分，以显示整体的组成部分。百分比合成图会将所有柱的高度调整至一致（100%），以便比较比例。

常见错误：忘记在棒形图的柱子之间留空隙！（我们之后会提到的直方图是没有空隙的）。

4. 圆形图 (Pie Charts)：整体的一部分

圆形图显示总数是如何分配的。要绘制圆形图，你需要计算每个“扇形”的圆心角。

公式： \( \text{圆心角} = \frac{\text{频率}}{\text{总频率}} \times 360^\circ \)

比较性圆形图（高级程度）

当比较两个不同总人口的数据时，我们不能只看圆心角。我们使用圆形的面积来代表总频率。
如果组别 A 的总频率是组别 B 的两倍，那么圆形 A 的面积也必须是圆形 B 的两倍。
记忆小撇步：半径与总数的平方根有关。
\( \frac{r_1}{r_2} = \sqrt{\frac{\text{Total}_1}{\text{Total}_2}} \)

5. 连续数据的呈现

直方图 (Histograms)

直方图看起来像棒形图，但因为数据是连续的（例如时间或高度），所以没有空隙。

基础程度：你只需要了解组距相等 (equal class widths) 的直方图。在这里，柱的高度直接代表频率。

高级程度（组距不等）：当组别的大小不同时，我们在纵轴上使用频率密度 (Frequency Density)。此时，柱子的面积代表频率。
公式： \( \text{频率密度} = \frac{\text{频率}}{\text{组距}} \)

累积频率图 (Cumulative Frequency Diagrams)

这是一种“累积总和”图。你将频率随着数值增加而累加起来。
- 务必将点绘制在组界上限 (upper class boundary) 上。
- 用平滑曲线或直线（多边形）连接这些点。
- 它通常会形成一个“S”型！

箱形图 (Box Plots / Box and Whisker)

这些图表使用五个关键数值来概括数据：最小值、下四分位数 (LQ)、中位数、上四分位数 (UQ) 以及最大值。
- “箱”的部分从 LQ 到 UQ。
- “须”的部分延伸至最小值和最大值。
- 它们非常适合用来比较两组不同数据集的分散程度。

6. 关系与趋势

散点图 (Scatter Diagrams)

用于双变量数据 (bivariate data)（每个对象有两个变量）。
- 解释变量 (Explanatory variable)（可能引起变化的变量）放在 x 轴。
- 响应变量 (Response variable)（结果变量）放在 y 轴。
- 观察相关性 (Correlation)：正相关（两者同时上升）、负相关（一个上升，另一个下降）或零相关（无规律）。

时间序列 (Time Series)

一种折线图，其中 x 轴始终是时间。我们观察趋势 (trends)（总体方向）和季节性变化 (seasonal variations)（每天、每周或每年重复出现的规律）。
- 你可以凭眼力画出趋势线，或使用移动平均数 (moving averages) 来平滑数据中的“杂讯”。

7. 特殊呈现工具

人口金字塔 (Population Pyramids)

这是一种背对背的棒形图，显示人口的年龄和性别分布。基部宽代表有很多新生儿（人口增长型）；基部窄则代表人口老化。

等值区域图 (Choropleth Maps)

地图上不同的区域以不同的颜色或图案阴影表示数值（例如人口密度）。通常颜色越深，数值越高。

8. 偏态 (Skewness)：数据是否歪斜？

偏态告诉我们数据是否“堆积”在某一侧。

正偏态 (Positive Skew)：大多数数据集中在较低的一端（尾部指向右侧）。
检查： \( \text{平均值} > \text{中位数} > \text{众数} \)

负偏态 (Negative Skew)：大多数数据集中在较高的一端（尾部指向左侧）。
检查： \( \text{平均值} < \text{中位数} < \text{众数} \)

高级程度公式： \( \text{偏度} = \frac{3(\text{平均值} - \text{中位数})}{\text{标准差}} \)

快速回顾：辨识错误的图表

请务必检查是否有“统计欺骗”或错误：
1. 截断轴： y 轴不是从零开始，导致微小的差异看起来非常巨大。
2. 不均匀的刻度： 轴上的数值间距不等。
3. 3D 失真： 3D 圆形图会使前面的扇形看起来比实际大得多。
4. 缺少标签： 没有标题，或轴上没有单位。

你知道吗？ “统计学”(Statistics) 这个词源自拉丁语“Status”，意为“国家”，因为它最初是被政府用于记录人口和税收的！

如果觉得这些内容很多，不必担心。你练习绘制和解读这些图表的次数越多，就会觉得越自然。记住：务必标注你的坐标轴，务必包含图例，并始终留意刻度！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。