离群值与数据清洗简介

欢迎来到统计学中最实用的章节之一!在现实世界中,数据很少是完美的。数据可能会显得杂乱、包含错误,或者出现一些与整体格格不入的数值。在本章中,你将学习如何找出这些“古怪”的数值(称为离群值,Outliers),并学习如何“清洗”数据,以确保最终分析的准确性。试着把自己想象成一名“数据侦探”——在破解谜题之前,你必须先确保手上的线索是可靠的!

1. 什么是离群值?

离群值是指数据集中那些明显不同于其他数值的数据点。
想象一下,你正在测量一组 10 岁儿童的身高,大多数人的身高都在 130cm 到 150cm 之间。如果你的数据集中突然出现了一个 210cm 的身高,这就是一个离群值
为什么会出现离群值?
1. 错误: 也许有人把“120”误打成了“210”。
2. 实验误差: 设备可能出现了瞬间的读数异常。
3. 自然变异: 有时候,数值确实是天然极端的(就像在一群平均身高的人中出现了一位真正的巨人)。

重点总结

离群值是那些远离数据“大部队”的极端数值。

2. 如何以数学方式识别离群值

在你的 OCR A Level 课程中,你不仅仅是凭直觉猜测某个数字是否为离群值,而是会使用两条特定的“经验法则”。考试题目通常会指定你使用哪一种。

方法 A:四分位距 (IQR) 法

这是最常用的方法,特别是在使用盒须图 (Box Plots) 时。如果一个数值距离最近的四分位数超过 1.5 倍的 IQR,它就是一个离群值。

步骤:
1. 找出下四分位数 \( (Q_1) \) 和上四分位数 \( (Q_3) \)。
2. 计算四分位距 (IQR): \( IQR = Q_3 - Q_1 \)。
3. 计算“围栏”(fences):
- 下围栏 = \( Q_1 - 1.5 \times IQR \)
- 上围栏 = \( Q_3 + 1.5 \times IQR \)
4. 任何小于下围栏或大于上围栏的数值均为离群值

例子: 若 \( Q_1 = 20 \), \( Q_3 = 30 \),则 \( IQR = 10 \)。
上围栏 = \( 30 + (1.5 \times 10) = 45 \)。
数值 50 就是一个离群值

方法 B:标准差法

此方法通常用于数据呈常态分布 (Normal Distribution) 的情况。如果一个数值距离平均值超过 2 个标准差,它就是一个离群值。

步骤:
1. 找出平均值 \( (\mu) \) 和标准差 \( (\sigma) \)。
2. 计算边界:
- 下边界 = \( \mu - 2\sigma \)
- 上边界 = \( \mu + 2\sigma \)
3. 任何位于这些边界之外的数值均为离群值

快速复习:
- 使用四分位数时,搭配 1.5 × IQR
- 使用平均值时,搭配 2 × 标准差

3. 数据清洗

数据清洗是在开始计算前修复或移除“错误”数据的过程。如果你在数据中保留了错误,你的平均值和标准差将会出错——这通常被称为“垃圾进,垃圾出”(Garbage In, Garbage Out)!

处理缺失数据

有时候,数据会直接缺失。在大型数据集 (Large Data Set)(如你所学习的气象数据)中,你可能会看到代表降雨量的“tr”。这代表 "trace"(微量),意指有极少量的雨,但不足以测量到 0.05mm。通常在计算时,我们将“微量”视为 0

处理错误与离群值

一旦发现离群值,你有三种选择:
1. 修正: 如果你知道这是输入错误(例如有人把 50 写成了 500),修正它!
2. 移除: 如果这显然是个错误且无法修复,请将其从数据集中删除。这称为排除 (excluding) 该数据点。
3. 保留: 如果该数值虽然极端,但可能是真实的,你应该保留它,并在报告中加以说明。这可能是研究中最有趣的部分!

常见错误(要避开!)

- 不要只因为图表看起来乱就删除离群值。 你必须有正当理由!
- 检查单位! 离群值的常见成因是混用了单位(例如一人用米测量,其他人却用厘米)。

重点总结

数据清洗涉及识别缺失值错误离群值,并根据具体情况决定是修复、移除还是忽略它们。

4. 批判性地分析数据展示

你可能会被要求观察图表或表格,并解释为什么离群值可能会导致误导。

盒须图: 在盒须图上,离群值通常用小“x”或圆点标记。如果须线 (whiskers) 很长,表示数据分布非常广。如果移除离群值,须线会变短,盒体看起来会更“集中”。
直方图: 离群值可能会在你的直方图中造成一个“缺口”,在极右或极左边出现孤零零的柱状。这会使数据呈现偏态 (skewed)
平均值 vs. 中位数: 请记住,平均值容易受离群值影响,而中位数则不会。如果数据中有严重的离群值,中位数通常是更“公平”的平均指标。

你知道吗?
1.5 × IQR 规则是由著名统计学家 John Tukey 发明的。他选择 1.5 是因为 1.0 太小(导致过多离群值),而 2.0 又太大(导致离群值太少)。这简直是统计学规则里的“金发女孩原则”(Goldilocks principle)!

重点总结

请务必考虑背景因素。医院心率监测器中的离群值可能代表医疗紧急状况;而关于个人兄弟姐妹数量调查中的离群值,可能只是一个有趣的事实!

总结清单

- 我会计算 IQR 离群值的边界吗? ( \( Q_1 - 1.5IQR \) 和 \( Q_3 + 1.5IQR \) )
- 我会计算平均值/标准差的离群值边界吗? ( \( \mu \pm 2\sigma \) )
- 我知道如何处理大型数据集中的“微量”(tr) 吗? (视为 0)
- 我能解释为什么离群值可能会被移除或保留吗? (关键在于背景因素!)
- 我了解离群值如何影响平均值吗? (它们会将平均值拉向自己!)