Outliers and cleaning data - Mathematics A - H240 - Cambridge OCR A Level

离群值与数据清洗简介

欢迎来到统计学中最实用的章节之一！在现实世界中，数据很少是完美的。数据可能会显得杂乱、包含错误，或者出现一些与整体格格不入的数值。在本章中，你将学习如何找出这些“古怪”的数值（称为离群值，Outliers），并学习如何“清洗”数据，以确保最终分析的准确性。试着把自己想象成一名“数据侦探”——在破解谜题之前，你必须先确保手上的线索是可靠的！

1. 什么是离群值？

离群值是指数据集中那些明显不同于其他数值的数据点。
想象一下，你正在测量一组 10 岁儿童的身高，大多数人的身高都在 130cm 到 150cm 之间。如果你的数据集中突然出现了一个 210cm 的身高，这就是一个离群值！
为什么会出现离群值？
1. 错误： 也许有人把“120”误打成了“210”。
2. 实验误差： 设备可能出现了瞬间的读数异常。
3. 自然变异： 有时候，数值确实是天然极端的（就像在一群平均身高的人中出现了一位真正的巨人）。

重点总结

离群值是那些远离数据“大部队”的极端数值。

2. 如何以数学方式识别离群值

在你的 OCR A Level 课程中，你不仅仅是凭直觉猜测某个数字是否为离群值，而是会使用两条特定的“经验法则”。考试题目通常会指定你使用哪一种。

方法 A：四分位距 (IQR) 法

这是最常用的方法，特别是在使用盒须图 (Box Plots) 时。如果一个数值距离最近的四分位数超过 1.5 倍的 IQR，它就是一个离群值。

步骤：
1. 找出下四分位数 \( (Q_1) \) 和上四分位数 \( (Q_3) \)。
2. 计算四分位距 (IQR)： \( IQR = Q_3 - Q_1 \)。
3. 计算“围栏”(fences)：
- 下围栏 = \( Q_1 - 1.5 \times IQR \)
- 上围栏 = \( Q_3 + 1.5 \times IQR \)
4. 任何小于下围栏或大于上围栏的数值均为离群值。

例子： 若 \( Q_1 = 20 \)， \( Q_3 = 30 \)，则 \( IQR = 10 \)。
上围栏 = \( 30 + (1.5 \times 10) = 45 \)。
数值 50 就是一个离群值。

方法 B：标准差法

此方法通常用于数据呈常态分布 (Normal Distribution) 的情况。如果一个数值距离平均值超过 2 个标准差，它就是一个离群值。

步骤：
1. 找出平均值 \( (\mu) \) 和标准差 \( (\sigma) \)。
2. 计算边界：
- 下边界 = \( \mu - 2\sigma \)
- 上边界 = \( \mu + 2\sigma \)
3. 任何位于这些边界之外的数值均为离群值。

快速复习：
- 使用四分位数时，搭配 1.5 × IQR。
- 使用平均值时，搭配 2 × 标准差。

3. 数据清洗

数据清洗是在开始计算前修复或移除“错误”数据的过程。如果你在数据中保留了错误，你的平均值和标准差将会出错——这通常被称为“垃圾进，垃圾出”(Garbage In, Garbage Out)！

处理缺失数据

有时候，数据会直接缺失。在大型数据集 (Large Data Set)（如你所学习的气象数据）中，你可能会看到代表降雨量的“tr”。这代表 "trace"（微量），意指有极少量的雨，但不足以测量到 0.05mm。通常在计算时，我们将“微量”视为 0。

处理错误与离群值

一旦发现离群值，你有三种选择：
1. 修正： 如果你知道这是输入错误（例如有人把 50 写成了 500），修正它！
2. 移除： 如果这显然是个错误且无法修复，请将其从数据集中删除。这称为排除 (excluding) 该数据点。
3. 保留： 如果该数值虽然极端，但可能是真实的，你应该保留它，并在报告中加以说明。这可能是研究中最有趣的部分！

常见错误（要避开！）

- 不要只因为图表看起来乱就删除离群值。 你必须有正当理由！
- 检查单位！ 离群值的常见成因是混用了单位（例如一人用米测量，其他人却用厘米）。

重点总结

数据清洗涉及识别缺失值、错误和离群值，并根据具体情况决定是修复、移除还是忽略它们。

4. 批判性地分析数据展示

你可能会被要求观察图表或表格，并解释为什么离群值可能会导致误导。

盒须图： 在盒须图上，离群值通常用小“x”或圆点标记。如果须线 (whiskers) 很长，表示数据分布非常广。如果移除离群值，须线会变短，盒体看起来会更“集中”。
直方图： 离群值可能会在你的直方图中造成一个“缺口”，在极右或极左边出现孤零零的柱状。这会使数据呈现偏态 (skewed)。
平均值 vs. 中位数： 请记住，平均值容易受离群值影响，而中位数则不会。如果数据中有严重的离群值，中位数通常是更“公平”的平均指标。

你知道吗？
1.5 × IQR 规则是由著名统计学家 John Tukey 发明的。他选择 1.5 是因为 1.0 太小（导致过多离群值），而 2.0 又太大（导致离群值太少）。这简直是统计学规则里的“金发女孩原则”(Goldilocks principle)！

重点总结

请务必考虑背景因素。医院心率监测器中的离群值可能代表医疗紧急状况；而关于个人兄弟姐妹数量调查中的离群值，可能只是一个有趣的事实！

总结清单

- 我会计算 IQR 离群值的边界吗？ ( \( Q_1 - 1.5IQR \) 和 \( Q_3 + 1.5IQR \) )
- 我会计算平均值/标准差的离群值边界吗？ ( \( \mu \pm 2\sigma \) )
- 我知道如何处理大型数据集中的“微量”(tr) 吗？ (视为 0)
- 我能解释为什么离群值可能会被移除或保留吗？ (关键在于背景因素！)
- 我了解离群值如何影响平均值吗？ (它们会将平均值拉向自己！)

* thinka提供的内容由AI生成，可能并非总是准确或最新。请将其用作辅助资源，并与官方材料进行核实。

离群值与数据清洗简介

1. 什么是离群值？

重点总结

2. 如何以数学方式识别离群值

方法 A：四分位距 (IQR) 法

方法 B：标准差法

3. 数据清洗

处理缺失数据

处理错误与离群值

常见错误（要避开！）

重点总结

4. 批判性地分析数据展示

重点总结

总结清单

立即实践所学