Single variable data - Mathematics A - H230 - Cambridge OCR AS Level

欢迎来到单变量数据的世界！

在这个章节中，我们将学习如何将一堆杂乱无章的数字，转化为有意义的信息。无论是班上同学的身高，还是剑桥每天的降雨量，统计学都能帮助我们洞察其中的规律。我们将探讨如何绘制数据图表、如何找出数据的“中间值”，以及如何测量数据的“分散程度”。别担心如果你之前觉得统计学很难，我们会一步一步来带你掌握！

1. 数据可视化表达

比起一长串的数字，图表通常更容易理解。根据你的数据性质，选择合适的图表会让结果更清晰。

茎叶图 (Stem-and-Leaf Diagrams)

你可以把它想象成一种整理数据的方式，同时还能保留原始数值。“茎”是前面的位数，“叶”是最后一位数。
例子：如果你有数字 21、23 和 35：
茎是 2，叶是 1 和 3。
茎是 3，叶是 5。
记忆小撇步：就像真的植物一样，叶子从茎长出来。记得一定要加上图例 (key)（例如：2 | 1 代表 21），这样大家才会知道你的单位是什么！

盒须图 (Box-and-Whisker Plots)

这类图表非常适合展示数据的“分散程度”。它们运用了五个关键数字：
1. 最小值 (minimum)（最低数值）
2. 下四分位数 (Q1)（位于数据 25% 的位置）
3. 中位数 (Q2)（位于中间的位置）
4. 上四分位数 (Q3)（位于数据 75% 的位置）
5. 最大值 (maximum)（最高数值）
类比：想象一把尺。盒子代表了排队人群中间 50% 的人。如果盒子很宽，代表中间这群人的差异很大；如果盒子很窄，代表他们非常相似。

直方图 (Histograms)

直方图看起来像柱状图，但有一个非常重要的规则：面积代表频数 (Frequency)。
这对于组距 (class width) 不同的数据至关重要。我们不再单纯在纵轴绘制“频数”，而是绘制频数密度 (Frequency Density)。
\( \text{频数密度} = \frac{\text{频数}}{\text{组距}} \)
常见错误：如果组距不同，千万不要只根据频数来画高度。一定要先计算密度！

重点总结：根据你想呈现的重点来选择图表。使用盒须图来比较数据的分散程度，使用直方图来展示数据分布的“形状”。

2. 集中趋势测量（即“平均值”）

当我们想用一个数字来描述整个群体时，我们会使用平均值。

算术平均数 (Mean, \( \bar{x} \))

这是最“公平”的平均值。将所有数值加总，然后除以数据的总个数。
\( \bar{x} = \frac{\sum x}{n} \)
你知道吗？平均数非常容易受极值 (outliers)（异常数值）影响。如果一个亿万富翁走进一间教室，即使其他人都身无分文，整间教室的“平均”财富也会瞬间变成数百万！

中位数 (Median)

真正的中间值。将数字由小到大排列，找出最中间的那个点。
简单技巧：如果数据个数是奇数，中位数就是最中间那个；如果是偶数，则取中间两个数的平均值。

众数 (Mode)

出现次数最多的数值。这是唯一可以用于非数值数据（如“最喜欢的颜色”）的平均值。

关键总结：如果数据中含有极值，请使用中位数，因为它不会被那些突兀的极大或极小数值给“拉走”。

3. 离散程度测量（即“分散程度”）

只知道平均值是不够的。我们还需要知道数据是聚在一起，还是四散分布。

全距与四分位距 (Range and Inter-quartile Range, IQR)

全距：最大值 - 最小值。（极易受极值影响）。
四分位距 (IQR)： \( Q_3 - Q_1 \)。这代表了中间 50% 数据的分散情况，因为忽略了两端的极值，所以它更可靠。

方差与标准差 (Variance and Standard Deviation, \( \sigma \))

标准差是“平均距离平均值的距离”。如果标准差很小，代表数据都非常接近平均值。
课程定义标准差为与平均值偏差的平方根平均值 (root mean square deviation from the mean)。你可以使用以下公式：
\( \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \) 或计算用公式： \( \sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \)
方差 (Variance) 则是标准差的平方 (\( \sigma^2 \))。

如果这看起来很复杂，别担心！你的计算器有“统计模式 (Statistics mode)”可以帮你完成大部分繁重的计算。多练习使用 \(\sum x\) 和 \(\sum x^2\) 按钮吧！

关键总结：标准差运用了每一个数据点，因此非常强大；但如果数据非常“混乱”且包含大量极值，四分位距 (IQR) 会是更好的选择。

4. 极值与数据清理

有时数据本身就是错的——也许有人打错了字，或者传感器坏了。我们称这些为极值 (outliers)。

如何找出极值

在考试中，你通常会使用以下两种数学“栅栏”来找出极值：
1. IQR 规则：任何高于 \( Q_3 + 1.5 \times IQR \) 或低于 \( Q_1 - 1.5 \times IQR \) 的数值。
2. 标准差规则：任何距离平均值超过 \( 2 \times \sigma \) 的数值。
类比：把这些规则想成“保安”。如果某个数据点离群体太远，保安就会把它标记出来进行检查！

数据清理 (Cleaning Data)

当你找到一个极值时，必须做出判断：它是真实存在（但很奇怪）的数据，还是一个错误？清理数据的过程就是识别这些错误，并决定在开始计算前应该删除还是修正它们。

快速回顾：
• 检查有无输入错误。
• 计算使用 \( 1.5 \times IQR \) 的“栅栏”。
• 决定根据实际情境，该极值是保留还是删除。

关键词汇总结

总体 (Population)：你所感兴趣的完整群体。
样本 (Sample)：你实际测量的一小部分总体。
频数密度 (Frequency Density)：直方图中柱状的高度。
集中趋势 (Central Tendency)：“平均值”的专业说法（算术平均数、中位数、众数）。
离散程度 (Variation)：“分散程度”的专业说法（四分位距、标准差）。
估计值 (Estimates)：当数据被分组时（例如“10-20 分钟”），我们不知道确切数值，因此计算出的平均值只能是基于组中点的估计值。

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。