離群值與數據清洗簡介

歡迎來到統計學中最實用的章節之一!在現實世界中,數據很少是完美的。數據可能會顯得雜亂、包含錯誤,或者出現一些與整體格格不入的數值。在本章中,你將學習如何找出這些「古怪」的數值(稱為離群值,Outliers),並學習如何「清洗」數據,以確保最終分析的準確性。試著將自己想像成一名「數據偵探」——在破解謎題之前,你必須先確保手上的線索是可靠的!

1. 什麼是離群值?

離群值是指數據集中那些明顯不同於其他數值的數據點。
想像一下,你正在測量一組 10 歲兒童的身高,大多數人的身高都在 130cm 到 150cm 之間。如果你的數據集中突然出現了一個 210cm 的身高,這就是一個離群值
為什麼會出現離群值?
1. 錯誤: 也許有人把「120」誤打成了「210」。
2. 實驗誤差: 設備可能出現了瞬間的讀數異常。
3. 自然變異: 有時候,數值確實是天然極端的(就像在一群平均身高的人中出現了一位真正的巨人)。

重點總結

離群值是那些遠離數據「大部隊」的極端數值。

2. 如何以數學方式識別離群值

在你的 OCR A Level 課程中,你不僅僅是憑直覺猜測某個數字是否為離群值,而是會使用兩條特定的「經驗法則」。考試題目通常會指定你使用哪一種。

方法 A:四分位距 (IQR) 法

這是最常用的方法,特別是在使用盒鬚圖 (Box Plots) 時。如果一個數值距離最近的四分位數超過 1.5 倍的 IQR,它就是一個離群值。

步驟:
1. 找出下四分位數 \( (Q_1) \) 和上四分位數 \( (Q_3) \)。
2. 計算四分位距 (IQR): \( IQR = Q_3 - Q_1 \)。
3. 計算「圍欄」(fences):
- 下圍欄 = \( Q_1 - 1.5 \times IQR \)
- 上圍欄 = \( Q_3 + 1.5 \times IQR \)
4. 任何小於下圍欄或大於上圍欄的數值均為離群值

例子: 若 \( Q_1 = 20 \), \( Q_3 = 30 \),則 \( IQR = 10 \)。
上圍欄 = \( 30 + (1.5 \times 10) = 45 \)。
數值 50 就是一個離群值

方法 B:標準差法

此方法通常用於數據呈常態分佈 (Normal Distribution) 的情況。如果一個數值距離平均值超過 2 個標準差,它就是一個離群值。

步驟:
1. 找出平均值 \( (\mu) \) 和標準差 \( (\sigma) \)。
2. 計算邊界:
- 下邊界 = \( \mu - 2\sigma \)
- 上邊界 = \( \mu + 2\sigma \)
3. 任何位於這些邊界之外的數值均為離群值

快速複習:
- 使用四分位數時,搭配 1.5 × IQR
- 使用平均值時,搭配 2 × 標準差

3. 數據清洗

數據清洗是在開始計算前修復或移除「錯誤」數據的過程。如果你在數據中保留了錯誤,你的平均值和標準差將會出錯——這通常被稱為「垃圾進,垃圾出」(Garbage In, Garbage Out)!

處理缺失數據

有時候,數據會直接缺失。在大型數據集 (Large Data Set)(如你所學習的氣象數據)中,你可能會看到代表降雨量的「tr」。這代表 "trace"(微量),意指有極少量的雨,但不足以測量到 0.05mm。通常在計算時,我們將「微量」視為 0

處理錯誤與離群值

一旦發現離群值,你有三種選擇:
1. 修正: 如果你知道這是輸入錯誤(例如有人把 50 寫成了 500),修正它!
2. 移除: 如果這顯然是個錯誤且無法修復,請將其從數據集中刪除。這稱為排除 (excluding) 該數據點。
3. 保留: 如果該數值雖然極端,但可能是真實的,你應該保留它,並在報告中加以說明。這可能是研究中最有趣的部分!

常見錯誤(要避開!)

- 不要只因為圖表看起來亂就刪除離群值。 你必須有正當理由!
- 檢查單位! 離群值的常見成因是混用了單位(例如一人用米測量,其他人卻用厘米)。

重點總結

數據清洗涉及識別缺失值錯誤離群值,並根據具體情況決定是修復、移除還是忽略它們。

4. 批判性地分析數據展示

你可能會被要求觀察圖表或表格,並解釋為什麼離群值可能會導致誤導。

盒鬚圖: 在盒鬚圖上,離群值通常用小「x」或圓點標記。如果鬚線 (whiskers) 很長,表示數據分佈非常廣。如果移除離群值,鬚線會變短,盒體看起來會更「集中」。
直方圖: 離群值可能會在你的直方圖中造成一個「缺口」,在極右或極左邊出現孤零零的柱狀。這會使數據呈現偏態 (skewed)
平均值 vs. 中位數: 請記住,平均值容易受離群值影響,而中位數則不會。如果數據中有嚴重的離群值,中位數通常是更「公平」的平均指標。

你知道嗎?
1.5 × IQR 規則是由著名統計學家 John Tukey 發明的。他選擇 1.5 是因為 1.0 太小(導致過多離群值),而 2.0 又太大(導致離群值太少)。這簡直是統計學規則裡的「金髮女孩原則」(Goldilocks principle)!

重點總結

請務必考慮背景因素。醫院心率監測器中的離群值可能代表醫療緊急狀況;而關於個人兄弟姐妹數量調查中的離群值,可能只是一個有趣的事實!

總結清單

- 我會計算 IQR 離群值的邊界嗎? ( \( Q_1 - 1.5IQR \) 和 \( Q_3 + 1.5IQR \) )
- 我會計算平均值/標準差的離群值邊界嗎? ( \( \mu \pm 2\sigma \) )
- 我知道如何處理大型數據集中的「微量」(tr) 嗎? (視為 0)
- 我能解釋為什麼離群值可能會被移除或保留嗎? (關鍵在於背景因素!)
- 我了解離群值如何影響平均值嗎? (它們會將平均值拉向自己!)