简介:为什么要整理数据?

想象一下你正在统计 1,000 名学生的身高。如果有人问你:“你们学校的学生身高如何?”,你肯定不会把每一个测量结果都读出来吧!相反地,你会使用几个数字来描述整组数据。这就是平均数(measures of average)(用来显示中心位置)和离差(measures of spread)(用来显示变异程度)派上用场的时候。这些工具能帮助我们比较不同的数据集,并解读这个世界,从天气模式到考试成绩,无一不可。

1. 平均数(集中趋势)

“平均数”是一个单一数值,试图通过识别数据中的中心位置来描述一组数据。在 H240 课程大纲中,你需要熟练掌握三种主要的类型。

平均值(Mean,\(\bar{x}\))

平均值是大多数人提到“平均”时所指的概念。计算方法是将所有数值相加,然后除以数值的总数。

公式: \(\bar{x} = \frac{\sum x}{n}\)
其中 \(\sum x\) 代表“所有数值的总和”,而 \(n\) 是数值的数量。

优点: 它运用了每一个数据点。
缺点: 它容易被一两个极高或极低的数值(离群值)“拉偏”,从而远离真正的中心。

中位数(Median)

中位数是将数据按顺序排列后,处于正中间的数值。如果数据的数量是偶数,中位数就是中间两个数值的平均值。

类比: 想象马路中间的“中央分隔带”(median strip)——它将道路精确地一分为二。

众数(Mode)

众数是出现次数最多的数值。你可以拥有超过一个众数(双峰或多峰),如果所有数值都是独一无二的,则该组数据没有众数。

快速回顾:
- 平均值: “平衡者”(将总量平均分配)。
- 中位数: “中间点”(50% 的数据在其上,50% 在其下)。
- 众数: “受欢迎者”(出现频率最高)。

2. 离差(变异程度)

平均数告诉我们中心在哪里,但离差告诉我们数据的稳定性。身高的差异是都很接近,还是最矮与最高的学生之间有巨大的落差?

四分位数与四分位距(Inter-Quartile Range,IQR)

正如中位数将数据分成两半,四分位数将数据分成四个等分。

- 下四分位数(\(Q_1\)): 第 25 个百分位数(即四分之一处)。
- 上四分位数(\(Q_3\)): 第 75 个百分位数(即四分之三处)。
- 四分位距(IQR): \(Q_3 - Q_1\)。

为什么要用 IQR? 与全距(Range)不同,IQR 忽略了数据两端的极端值,只关注中间的 50%。如果你的数据中包含奇怪的离群值,IQR 会可靠得多。

变异数与标准差(Standard Deviation,\(\sigma\))

标准差是 A Level 数学中衡量离差的“黄金标准”。它衡量的是每个数据点平均距离平均值有多远。

标准差的“步骤”:
如果这看起来很复杂,别担心!你的计算器会处理大部分繁重的计算,但你必须理解这个公式:

\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

记忆小撇步: 一个常见的记忆方法是“平方根之(平方的平均减去平均的平方)”

变异数(Variance): 这就是标准差的平方(\(\sigma^2\))。它是你在进行最后开根号运算“之前”的数值。

常见错误: 忘了在计算最后开根号!如果你的离差答案看起来比原始数据大得多,你很可能算成了变异数,而不是标准差。

3. 处理分组数据(Grouped Data)

有时数据以组别形式给出(例如:“5 名学生的身高在 140cm 到 150cm 之间”)。因为我们不知道确切的身高,我们使用每组的组中值(midpoint)作为 \(x\) 的估计值。

估计平均值: \(\bar{x} \approx \frac{\sum fx}{\sum f}\)
(将每个频率 \(f\) 乘以其组中值 \(x\),相加后除以总频率)。

估计标准差: \(\sigma \approx \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2}\)

你知道吗? 因为我们使用了组中值,所以从分组数据中得出的任何计算结果都只是估计值,而不是精确值。

4. 离群值(Outliers)与数据清理

离群值是距离其他数据非常遥远的点,它可能是一个误差,也可能是一个非常罕见的案例。在 H240 课程中,识别离群值有两条常用规则:

1. IQR 规则: 任何大于 \(Q_3 + 1.5 \times \text{IQR}\) 或小于 \(Q_1 - 1.5 \times \text{IQR}\) 的数值。
2. 标准差规则: 任何距离平均值超过 \(2\) 个标准差的数值。

数据清理: 这涉及到决定是否要移除离群值(如果是错误造成的)或者保留它们(如果是真实存在的极端案例)。

5. 比较分布

当考试题目要求你“比较两个分布”时,你必须在语境下提及两件事:

1. 比较平均数: 使用平均值或中位数。(例如:“A 班的中位数分数比 B 班高,说明他们平均表现较好。”)
2. 比较离差: 使用标准差或 IQR。(例如:“B 班的标准差较小,说明他们的成绩更稳定。”)

关键总结:
- 高离差 = 数据不稳定。
- 低离差 = 数据稳定/可靠。

总结检查清单

- 你会用计算器计算平均值和标准差吗?(检查你的说明书!)
- 你知道变异数和标准差之间的区别吗?
- 你能使用 \(1.5 \times \text{IQR}\) 规则找出离群值吗?
- 当比较数据时,你是否同时提到了平均数离差