Data presentation for single variable - Mathematics B (MEI) - H640 - Cambridge OCR A Level

欢迎来到数据呈现的世界！

你有没有想过，公司是如何决定哪种口味的薯片应该多进货？医生又是如何追踪婴儿的成长状况的呢？这一切都始于数据呈现 (data presentation)。在这个章节中，我们不仅仅是处理一堆冷冰冰的数字，而是要学习如何将这些数字转化为任何人都能读懂的故事。

如果你以前觉得统计学很「枯燥」，请不用担心——我们会把它拆解成简单且直观的步骤，让你一眼就能看出数据背后的规律！

1. 基本构件：数据类型

在绘制任何图表之前，我们必须先了解我们所使用的「砖块」是什么。在数学 B (MEI) 中，我们将数据分为四大类：

分类数据 (Categorical Data)： 这些是非数值的标签。例如：眼睛颜色、汽车品牌或你最喜欢的披萨配料。
离散数据 (Discrete Data)： 只能取特定数值（通常是整数）的数值数据。这些数据是可以「数」出来的。例如：班级人数或一场比赛中的入球数。
连续数据 (Continuous Data)： 在一定范围内可以取任何数值的数值数据。这些数据是透过「测量」获得的。例如：你的身高、苹果的重量或跑完 100 米所需的时间。
排名数据 (Ranked Data)： 已按顺序排列或给予名次的数据。例如：比赛中的第一名、第二名和第三名。

快速复习： 如果你可以用「数」的，那通常是离散数据。如果你必须使用工具（如尺或秒表）来「测量」，那通常是连续数据。

总结： 识别数据类型是选择正确图表的第一步。你总不会用直方图来统计你最喜欢的颜色吧！

2. 未分组数据的可视化

当我们的数据没有被归入大型范围（组别）时，我们通常会使用几种标准图表。以下是你需要掌握的类型：

条形图 (Bar Charts) 与垂直线图 (Vertical Line Charts)

这些非常适合分类数据或离散数据。在垂直线图中，线段的高度代表频数。 类比：你可以把条形图想象成一排建筑物；建筑物越高，代表住在那里的人（数据点）就越多！

点图 (Dot Plots)

点图与条形图类似，但它使用堆叠的点来表示频数。对于快速查看小型数据集的「形状」非常有用。

圆形图 (Pie Charts)

用于显示整体中各部分的比例。 你知道吗？ 要计算每个扇形的角度，请使用以下公式：\( \text{Angle} = \frac{\text{Frequency}}{\text{Total Frequency}} \times 360^\circ \)。

茎叶图 (Stem-and-Leaf Diagrams)

这是一种能显示每一笔数据，同时又能看出整体分布形状的巧妙方法。 记忆小撇步： 把图表想象成植物。茎 (stem) 是主要部分（例如：「十位数」），而叶 (leaves) 则是生长出来的部分（「个位数」）。别忘了加上键值 (key)（例如：2 | 1 代表 21）！

总结： 这些图表既保留了原始数据，又将其整理得井井有条，让我们能轻松看出哪些数值最常见。

3. 直方图 (Histograms)：宏观视野

直方图用于分组连续数据。它们看起来像条形图，但有一个巨大的区别：长条的面积代表频数，而不是高度！

这是大多数学生最容易弄错的地方，请记住这个秘密公式：

\[ \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \]

操作步骤：如何处理直方图
1. 找出组宽 (Class Width)（组别上限与下限之间的差值）。
2. 使用上述公式计算每组的频数密度 (Frequency Density)。
3. 绘制坐标轴：x 轴为数据（例如：重量），y 轴必须标示为频数密度。
4. 绘制长条。因为数据是连续的，所以长条之间不应留有空隙！

避免常见错误： 如果组宽不一致，切勿直接在 y 轴绘制频数。如果你这样做，较宽的长条看起来会比实际更重要，造成误导！

总结： 在直方图中，面积 = 频数。如果一个长条的宽度是另一个的两倍，但代表的数值相同，那么它的高度就必须是另一条的一半。

4. 累计频数 (Cumulative Frequency) 与箱形图 (Box Plots)

有时候，我们想了解数据的「累计总和」，这就是累计频数。

累计频数图

绘制时，你需要随着组别不断累加频数。记得要在每个组别的上限 (upper bound) 绘点，并用平滑的 S 形曲线（称为累计频数曲线或 ogive）连接它们。

箱线图 (Box-and-Whisker Diagrams / Box Plots)

这对于观察数据的分散程度 (spread) 非常理想。箱线图展示了五个关键数值：

最小值 (Minimum)： 数据中最小的数值。
下四分位数 (Lower Quartile, LQ)： 25% 的位置。
中位数 (Median)： 中间的数值（50% 的位置）。
上四分位数 (Upper Quartile, UQ)： 75% 的位置。
最大值 (Maximum)： 数据中最大的数值。

「箱子」代表中间 50% 的数据，而箱子的宽度即为四分位距 (Interquartile Range, IQR)，计算方式为 \( \text{UQ} - \text{LQ} \)。

总结： 累计频数帮助我们找到中位数和四分位数，进而绘制箱线图，方便我们比较不同的数据集。

5. 描述形状（分布）

图表绘制完成后，你需要使用特定的数学术语来描述它：

单峰 (Unimodal)： 数据有一个明显的「高峰」（一个众数）。
双峰 (Bimodal)： 数据有两个明显的高峰。类比：就像骆驼背上的两个驼峰！
对称 (Symmetrical)： 左侧是右侧的镜像。
偏态 (Skewed)： 数据「倾斜」向某一侧。

如何记忆偏态：

看看图表的「尾巴」指向哪里：
- 正偏态 (Positive Skew)： 「尾巴」指向右侧（朝向正数方向）。大部分数据集中在低数值端。
- 负偏态 (Negative Skew)： 「尾巴」指向左侧（朝向负数或较低数值方向）。大部分数据集中在高数值端。

如果不确定也不要紧！ 只要看「尾巴」在哪里。如果图表往右拖长，就是正偏态；如果往左拖长，就是负偏态。

总结： 描述分布有助于我们理解数据是否平衡，还是严重向某一端「倾斜」。

6. 极端值 (Outliers) 与数据清理

有时候，数据会出现异常。极端值是指与其余数据不一致的数据点。它可能是测量错误，也可能只是一个非常罕见的事件。

如何识别极端值（1.5 × IQR 规则）：
一个数值通常被视为极端值，如果它是：
- 高于上四分位数 \( 1.5 \times \text{IQR} \)。
- 低于下四分位数 \( 1.5 \times \text{IQR} \)。

另外，有时题目会规定：超出平均值 2 个标准差的数据即为极端值。

数据清理 (Cleaning Data)： 在进行最终分析之前，这是一个处理缺失值、错误，或决定是否保留或删除极端值的过程。

重点提示： 务必寻找那些不符合规律的数值。它们可能是你数据中最有趣的部分，也可能是一个需要「清理」的错误！

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。