欢迎来到数据清理的世界!
在你的统计学之旅中,你已经学会了如何找出平均值和衡量数据离散程度的方法。但如果你的数据看起来有点……怪怪的呢?例如,你在测量学生的身高时,发现有人竟然有 12 英尺高,或者列表中漏掉了一些数值。
在这章节中,我们将学习如何找出这些“局外人”(称为离群值 Outliers),以及如何“清理”数据,以确保我们的统计结果准确且可靠。如果刚开始觉得这些概念有点技术性,别担心;其实这只是遵循一些简单的规则,让你的数据保持真实!
1. 什么是离群值 (Outliers)?
离群值是指那些与数据集中其余部分显著不同的数据点。想象一下,你正在记录停车场里的汽车价格,大多数车辆的价格都在 20,000 港元到 120,000 港元之间,但突然出现了一辆价值 8,000,000 港元的镀金超级跑车。那辆超级跑车就是一个离群值。
为什么会出现离群值?
离群值通常来自三个方面: 1. 错误 (Errors): 有人不小心多输入了一个零(例如:把 10 写成 100)。 2. 自然变异 (Natural Variation): 有时世界本身就会产生极端结果(例如奥运选手的跑步速度)。 3. 抽样问题 (Sampling Issues): 你不小心测量到了一些本不应出现在该群体中的数据。
重点总结: 离群值就是数据中的“叛逆者”——它们不符合整体的规律。
2. 如何识别离群值(数学规则)
在 OCR 考试中,你不能只看着数字说“这看起来太大了吧”。你需要通过数学方法证明它。在 H230 教学大纲中,定义离群值有两种主要方法。
方法 A:四分位数规则 (The Quartile Rule)
这是配合箱线图 (Box plots) 使用时最常用的方法。它利用四分位距 (Interquartile Range, IQR),即数据中间 50% 的范围。
任何符合以下条件的数值均为离群值:
• 小于 \( Q_1 - (1.5 \times \text{IQR}) \)
• 大于 \( Q_3 + (1.5 \times \text{IQR}) \)
分步示例:
假设你有:\( Q_1 = 20 \),\( Q_3 = 30 \)。
1. 计算 IQR:\( 30 - 20 = 10 \)。
2. 计算 “1.5 倍数值”:\( 1.5 \times 10 = 15 \)。
3. 找出 下界 (Lower Bound):\( 20 - 15 = 5 \)。
4. 找出 上界 (Upper Bound):\( 30 + 15 = 45 \)。
任何低于 5 或高于 45 的数值都被正式定义为离群值!
方法 B:标准差规则 (The Standard Deviation Rule)
当数据遵循更“常态”或对称的模式时,通常会使用此方法。
离群值是指任何距离平均值超过 2 个标准差的数值。
边界公式为:\( \text{mean} \pm (2 \times \sigma) \)
快速回顾:
• \( \sigma \) (sigma) = 标准差 (Standard Deviation)
• \( \mu \) (mu) 或 \( \bar{x} \) = 平均值 (Mean)
如果平均值是 100,标准差是 10,你的“安全区”就是 \( 100 \pm 20 \)。因此,任何低于 80 或高于 120 的数值都是离群值。
关键总结: 一定要看题目要求你使用哪种规则。如果题目给你四分位数,就用“1.5 x IQR”规则;如果题目给你平均值和标准差,就用“2 x 标准差”规则。
3. 数据清理 (Cleaning Data)
一旦我们找到了离群值,或者发现数据“杂乱无章”,我们就需要对其进行清理。这就像你在提交论文前先进行校对一样。
“清理”包含什么?
数据清理(也称为数据清洗 Data scrubbing)涉及处理三个主要问题:
1. 离群值: 决定保留还是移除。如果是输入错误,就删除或更正;如果是真实但极端的数值,你可能需要保留它,但要注明其影响。
2. 缺失数据: 有时参与者忘记回答问题。你必须决定是完全忽略这个人,还是试图估计缺失的数值。
3. 错误: 找出不可能的数值,例如记录的“体重”为“负 5 公斤”或“出生日期”在 2099 年。
你知道吗?在现实的数据科学中,统计学家花在“清理”上的时间往往占了 80%!
4. 批判性评估数据呈现
作为 AS Level 的学生,你需要检视数据呈现的方式(如直方图或散点图),并判断其呈现效果是否妥当。这称为批判性评估 (Critiquing)。
常见的注意事项:
• 离群值是否破坏了比例? 如果你有一个巨大的离群值,其余的数据可能会在图表的一个小角落里显得十分拥挤。
• 图表是否有误导性? Y 轴是否从零开始?如果不是,长条之间的差异看起来可能比实际大得多。
• 平均值的选择: 如果存在严重的离群值,平均值 (Mean) 会被“拉向”离群值的一方。在这种情况下,中位数 (Median) 通常是衡量“平均”程度更好的指标。
避免常见错误: 不要只说图表“很差”。请使用统计学术语,例如:“由于存在显著的离群值,平均值出现了偏斜,使其无法代表数据的集中趋势。”
总结:快速回顾箱
1. 离群值(四分位数规则): \( < Q_1 - 1.5\text{IQR} \) 或 \( > Q_3 + 1.5\text{IQR} \)。
2. 离群值(标准差规则): 距离平均值超过 2 个标准差。
3. 清理: 移除错误、修正错字,并决定如何处理缺失值。
4. 选择平均数: 如果有极端离群值,请使用中位数,因为它对离群值具有“抗干扰性”!
继续练习这些计算!一旦掌握了“1.5 x IQR”的步骤,你就能在睡梦中识别出离群值了。你可以做到的!