Outliers and cleaning data - Mathematics A - H240 - Cambridge OCR A Level

離群值與數據清洗簡介

歡迎來到統計學中最實用的章節之一！在現實世界中，數據很少是完美的。數據可能會顯得雜亂、包含錯誤，或者出現一些與整體格格不入的數值。在本章中，你將學習如何找出這些「古怪」的數值（稱為離群值，Outliers），並學習如何「清洗」數據，以確保最終分析的準確性。試著將自己想像成一名「數據偵探」——在破解謎題之前，你必須先確保手上的線索是可靠的！

1. 什麼是離群值？

離群值是指數據集中那些明顯不同於其他數值的數據點。
想像一下，你正在測量一組 10 歲兒童的身高，大多數人的身高都在 130cm 到 150cm 之間。如果你的數據集中突然出現了一個 210cm 的身高，這就是一個離群值！
為什麼會出現離群值？
1. 錯誤： 也許有人把「120」誤打成了「210」。
2. 實驗誤差： 設備可能出現了瞬間的讀數異常。
3. 自然變異： 有時候，數值確實是天然極端的（就像在一群平均身高的人中出現了一位真正的巨人）。

重點總結

離群值是那些遠離數據「大部隊」的極端數值。

2. 如何以數學方式識別離群值

在你的 OCR A Level 課程中，你不僅僅是憑直覺猜測某個數字是否為離群值，而是會使用兩條特定的「經驗法則」。考試題目通常會指定你使用哪一種。

方法 A：四分位距 (IQR) 法

這是最常用的方法，特別是在使用盒鬚圖 (Box Plots) 時。如果一個數值距離最近的四分位數超過 1.5 倍的 IQR，它就是一個離群值。

步驟：
1. 找出下四分位數 \( (Q_1) \) 和上四分位數 \( (Q_3) \)。
2. 計算四分位距 (IQR)： \( IQR = Q_3 - Q_1 \)。
3. 計算「圍欄」(fences)：
- 下圍欄 = \( Q_1 - 1.5 \times IQR \)
- 上圍欄 = \( Q_3 + 1.5 \times IQR \)
4. 任何小於下圍欄或大於上圍欄的數值均為離群值。

例子： 若 \( Q_1 = 20 \)， \( Q_3 = 30 \)，則 \( IQR = 10 \)。
上圍欄 = \( 30 + (1.5 \times 10) = 45 \)。
數值 50 就是一個離群值。

方法 B：標準差法

此方法通常用於數據呈常態分佈 (Normal Distribution) 的情況。如果一個數值距離平均值超過 2 個標準差，它就是一個離群值。

步驟：
1. 找出平均值 \( (\mu) \) 和標準差 \( (\sigma) \)。
2. 計算邊界：
- 下邊界 = \( \mu - 2\sigma \)
- 上邊界 = \( \mu + 2\sigma \)
3. 任何位於這些邊界之外的數值均為離群值。

快速複習：
- 使用四分位數時，搭配 1.5 × IQR。
- 使用平均值時，搭配 2 × 標準差。

3. 數據清洗

數據清洗是在開始計算前修復或移除「錯誤」數據的過程。如果你在數據中保留了錯誤，你的平均值和標準差將會出錯——這通常被稱為「垃圾進，垃圾出」(Garbage In, Garbage Out)！

處理缺失數據

有時候，數據會直接缺失。在大型數據集 (Large Data Set)（如你所學習的氣象數據）中，你可能會看到代表降雨量的「tr」。這代表 "trace"（微量），意指有極少量的雨，但不足以測量到 0.05mm。通常在計算時，我們將「微量」視為 0。

處理錯誤與離群值

一旦發現離群值，你有三種選擇：
1. 修正： 如果你知道這是輸入錯誤（例如有人把 50 寫成了 500），修正它！
2. 移除： 如果這顯然是個錯誤且無法修復，請將其從數據集中刪除。這稱為排除 (excluding) 該數據點。
3. 保留： 如果該數值雖然極端，但可能是真實的，你應該保留它，並在報告中加以說明。這可能是研究中最有趣的部分！

常見錯誤（要避開！）

- 不要只因為圖表看起來亂就刪除離群值。 你必須有正當理由！
- 檢查單位！ 離群值的常見成因是混用了單位（例如一人用米測量，其他人卻用厘米）。

重點總結

數據清洗涉及識別缺失值、錯誤和離群值，並根據具體情況決定是修復、移除還是忽略它們。

4. 批判性地分析數據展示

你可能會被要求觀察圖表或表格，並解釋為什麼離群值可能會導致誤導。

盒鬚圖： 在盒鬚圖上，離群值通常用小「x」或圓點標記。如果鬚線 (whiskers) 很長，表示數據分佈非常廣。如果移除離群值，鬚線會變短，盒體看起來會更「集中」。
直方圖： 離群值可能會在你的直方圖中造成一個「缺口」，在極右或極左邊出現孤零零的柱狀。這會使數據呈現偏態 (skewed)。
平均值 vs. 中位數： 請記住，平均值容易受離群值影響，而中位數則不會。如果數據中有嚴重的離群值，中位數通常是更「公平」的平均指標。

你知道嗎？
1.5 × IQR 規則是由著名統計學家 John Tukey 發明的。他選擇 1.5 是因為 1.0 太小（導致過多離群值），而 2.0 又太大（導致離群值太少）。這簡直是統計學規則裡的「金髮女孩原則」(Goldilocks principle)！

重點總結

請務必考慮背景因素。醫院心率監測器中的離群值可能代表醫療緊急狀況；而關於個人兄弟姐妹數量調查中的離群值，可能只是一個有趣的事實！

總結清單

- 我會計算 IQR 離群值的邊界嗎？ ( \( Q_1 - 1.5IQR \) 和 \( Q_3 + 1.5IQR \) )
- 我會計算平均值/標準差的離群值邊界嗎？ ( \( \mu \pm 2\sigma \) )
- 我知道如何處理大型數據集中的「微量」(tr) 嗎？ (視為 0)
- 我能解釋為什麼離群值可能會被移除或保留嗎？ (關鍵在於背景因素！)
- 我了解離群值如何影響平均值嗎？ (它們會將平均值拉向自己！)

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。

離群值與數據清洗簡介

1. 什麼是離群值？

重點總結

2. 如何以數學方式識別離群值

方法 A：四分位距 (IQR) 法

方法 B：標準差法

3. 數據清洗

處理缺失數據

處理錯誤與離群值

常見錯誤（要避開！）

重點總結

4. 批判性地分析數據展示

重點總結

總結清單

立即實踐所學