欢迎来到数据离散程度的世界!

在之前的课堂中,我们学习了“平均值”(集中趋势的度量)。但平均值只能反映部分事实。试想象有两个城市,平均气温皆为 20°C。在城市 A,每天气温都是 20°C;但在城市 B,下午气温高达 40°C,夜晚却跌至 0°C!虽然它们的平均值相同,但实际感受却截然不同。

这就是我们需要离散程度的度量(Measures of Dispersion)的原因。它们能告诉我们数据有多么“分散”或“稳定”。让我们深入探讨吧!

1. 全距(Range):最简单的度量

全距是一组数据中最大值与最小值之间的差额。它能让我们快速了解数据的整体分布范围。

计算方法:
\( \text{Range} = \text{Highest Value} - \text{Lowest Value} \)

例子:如果一位学生的考试分数分别是 55、60、72 和 90,那么全距就是 \( 90 - 55 = 35 \)。

常见错误:学生经常会写出两个数字作为全距(例如:“全距是 55 至 90”)。在统计学中,全距必须是一个单一数字(即两者的差额)!

重点总结:全距越大,代表数据分布越分散;全距越小,代表数据越稳定。

2. 四分位数与四分位距(IQR)

有时全距会误导我们,因为一个极高或极低的数值(离群值)会令全距看起来比实际情况大得多。为了修正这个问题,我们会观察位于中间的 50% 数据。

什么是四分位数?

如果你将数据平均分成四等份,这些分界线就称为四分位数
下四分位数(\(Q_1\)):位于数据 25% 位置的数值。
中位数(\(Q_2\)):位于数据中间(50%)位置的数值。
上四分位数(\(Q_3\)):位于数据 75% 位置的数值。

四分位距(Interquartile Range, IQR)

IQR 用于衡量中间 50% 数据的离散程度。它的优点在于不受离群值的影响

公式:
\( \text{IQR} = Q_3 - Q_1 \)

计算 IQR 的步骤:

1. 将数据由小到大排列。
2. 找出中位数(\(Q_2\))。
3. 在数据的下半部分找出中间值,即为下四分位数(\(Q_1\))。
4. 在数据的上半部分找出中间值,即为上四分位数(\(Q_3\))。
5. 用 \(Q_3\) 减去 \(Q_1\)。

如果中位数落在两个数字之间也不用担心!只需计算这两个数字的平均值即可,就像你在“平均值”章节学到的一样。

3. 百分位数与十分位数(高阶试卷适用)

如果四分位数将数据分成 4 等份,那么百分位数(Percentiles)就是将数据分成 100 等份,而十分位数(Deciles)则分成 10 等份。

百分位距(Interpercentile Range):两个特定百分位数之间的差额(例如:第 10 百分位数至第 90 百分位数之间的距离)。
十分位距(Interdecile Range):两个十分位数之间的差额(通常指第 1 十分位数与第 9 十分位数)。

为什么要用这些?它们比 IQR 更精确。它们能帮助我们观察离散程度,同时剔除数据两端的极端值。

4. 离群值(Outliers):数据中的“叛逆分子”

离群值是指远高于或远低于其余数据的数值。你或许能透过肉眼观察(检视法)发现它们,但在考试中,你可能需要透过计算来找出它们。

如何计算离群值的边界(高阶试卷适用)

若数值符合以下条件,通常视为离群值:
小于: \( Q_1 - (1.5 \times \text{IQR}) \)
大于: \( Q_3 + (1.5 \times \text{IQR}) \)
或者: 超出平均值 3 个标准差的范围(\( \mu \pm 3\sigma \))。

发现离群值后该怎么办?

当你找到离群值时,应检查它属于哪种情况:
1. 输入错误: 例如将学生的年龄“15”误输入为“150”。这些数据应该被修正或移除。
2. 真正异常的数值: 例如在一般办公室职位的薪金清单中出现职业运动员的薪酬。这些数据应予以保留并注明,因为它们会影响平均值和全距。

5. 标准差(Standard Deviation,高阶试卷适用)

标准差是衡量离散程度最精密的指标。它告诉我们每个数据点距离平均值的“平均距离”。

标准差较小:数据点非常接近平均值(非常稳定)。
标准差较大:数据点距离平均值较远(不稳定)。

公式

公式看起来很可怕,但考试时会提供给你!你只需要知道如何运用在数据列表或次数分布表中:

\( \sigma = \sqrt{\frac{\sum f(x - \bar{x})^2}{\sum f}} \) 或 \( \sigma = \sqrt{\frac{\sum fx^2}{\sum f} - (\frac{\sum fx}{\sum f})^2} \)

记忆小贴士:你可以将标准差想象成“离散程度的平均值”。

6. 标准分数(Standardised Scores,高阶试卷适用)

你有没有想过如何比较数学难题与英文简单测验的表现?你不能只比较分数,你需要的是标准分数(Standardised Scores)(也称为 Z-score)。

标准分数代表一个数值与平均值相差多少个标准差。

公式:
\( \text{Standardised Score} = \frac{x - \mu}{\sigma} \)

其中 \(x\) 是你的分数,\(\mu\) 是平均值,\(\sigma\) 是标准差。正数代表你的表现高于平均,负数代表你的表现低于平均。

7. 比较数据集

在考试中,你经常会被要求比较两组数据(例如:“比较 A 班与 B 班的分数”)。要准确做到这一点,你必须遵守以下规则:

比较的黄金法则:正确的离散程度度量必须配搭正确的平均值度量!

1. 如果你使用中位数(Median),就必须使用四分位距(IQR)来描述离散程度。
2. 如果你使用平均值(Mean),就必须使用标准差(Standard Deviation)(或全距)来描述离散程度。

答案范例:“A 班的中位数分数(65%)比 B 班(58%)高,显示他们的平均表现较好。然而,A 班的 IQR(20%)比 B 班(10%)大,意味着 A 班的分数分布较广,稳定性较低。”

重点复习箱

全距(Range):最大值 - 最小值(最简单,受离群值影响)。
四分位距(IQR):\(Q_3 - Q_1\)(中间 50% 的数据,不受离群值影响)。
标准差(Standard Deviation):距离平均值的平均距离(最准确)。
离群值(Outlier):数值与四分位数距离超过 \(1.5 \times \text{IQR}\)。
标准分数(Standardised Score):用于公平地比较不同的数据集。