歡迎來到數據清理的世界!
在你的統計學之旅中,你已經學會了如何找出平均值和衡量數據離散程度的方法。但如果你的數據看起來有點……怪怪的呢?例如,你在測量學生的身高時,發現有人竟然有 12 英尺高,或者列表中漏掉了一些數值。
在這章節中,我們將學習如何找出這些「局外人」(稱為離群值 Outliers),以及如何「清理」數據,以確保我們的統計結果準確且可靠。如果剛開始覺得這些概念有點技術性,別擔心;其實這只是遵循一些簡單的規則,讓你的數據保持真實!
1. 什麼是離群值 (Outliers)?
離群值是指那些與數據集中其餘部分顯著不同的數據點。想像一下,你正在記錄停車場裡的汽車價格,大多數車輛的價格都在 20,000 港元到 120,000 港元之間,但突然出現了一輛價值 8,000,000 港元的鍍金超級跑車。那輛超級跑車就是一個離群值。
為什麼會出現離群值?
離群值通常來自三個方面: 1. 錯誤 (Errors): 有人不小心多輸入了一個零(例如:把 10 寫成 100)。 2. 自然變異 (Natural Variation): 有時世界本身就會產生極端結果(例如奧運選手的跑步速度)。 3. 抽樣問題 (Sampling Issues): 你不小心測量到了一些本不應出現在該群體中的數據。
重點總結: 離群值就是數據中的「叛逆者」——它們不符合整體的規律。
2. 如何識別離群值(數學規則)
在 OCR 考試中,你不能只看著數字說「這看起來太大了吧」。你需要透過數學方法證明它。在 H230 教學大綱中,定義離群值有兩種主要方法。
方法 A:四分位數規則 (The Quartile Rule)
這是配合箱線圖 (Box plots) 使用時最常見的方法。它利用四分位距 (Interquartile Range, IQR),即數據中間 50% 的範圍。
任何符合以下條件的數值均為離群值:
• 小於 \( Q_1 - (1.5 \times \text{IQR}) \)
• 大於 \( Q_3 + (1.5 \times \text{IQR}) \)
分步範例:
假設你有:\( Q_1 = 20 \),\( Q_3 = 30 \)。
1. 計算 IQR:\( 30 - 20 = 10 \)。
2. 計算 「1.5 倍數值」:\( 1.5 \times 10 = 15 \)。
3. 找出 下界 (Lower Bound):\( 20 - 15 = 5 \)。
4. 找出 上界 (Upper Bound):\( 30 + 15 = 45 \)。
任何低於 5 或高於 45 的數值都被正式定義為離群值!
方法 B:標準差規則 (The Standard Deviation Rule)
當數據遵循更「常態」或對稱的模式時,通常會使用此方法。
離群值是指任何距離平均值超過 2 個標準差的數值。
邊界公式為:\( \text{mean} \pm (2 \times \sigma) \)
快速回顧:
• \( \sigma \) (sigma) = 標準差 (Standard Deviation)
• \( \mu \) (mu) 或 \( \bar{x} \) = 平均值 (Mean)
如果平均值是 100,標準差是 10,你的「安全區」就是 \( 100 \pm 20 \)。因此,任何低於 80 或高於 120 的數值都是離群值。
關鍵總結: 一定要看題目要求你使用哪種規則。如果題目給你四分位數,就用「1.5 x IQR」規則;如果題目給你平均值和標準差,就用「2 x 標準差」規則。
3. 數據清理 (Cleaning Data)
一旦我們找到了離群值,或者發現數據「雜亂無章」,我們就需要對其進行清理。這就像你在提交論文前先進行校對一樣。
「清理」包含什麼?
數據清理(也稱為數據清洗 Data scrubbing)涉及處理三個主要問題:
1. 離群值: 決定保留還是移除。如果是輸入錯誤,就刪除或更正;如果是真實但極端的數值,你可能需要保留它,但要註明其影響。
2. 缺失數據: 有時參與者忘記回答問題。你必須決定是完全忽略這個人,還是試圖估計缺失的數值。
3. 錯誤: 找出不可能的數值,例如記錄的「體重」為「負 5 公斤」或「出生日期」在 2099 年。
你知道嗎?在現實的數據科學中,統計學家花在「清理」上的時間往往佔了 80%!
4. 批判性評估數據呈現
作為 AS Level 的學生,你需要檢視數據呈現的方式(如直方圖或散點圖),並判斷其呈現效果是否妥當。這稱為批判性評估 (Critiquing)。
常見的注意事項:
• 離群值是否破壞了比例? 如果你有一個巨大的離群值,其餘的數據可能會在圖表的一個小角落裡顯得十分擁擠。
• 圖表是否有誤導性? Y 軸是否從零開始?如果不是,長條之間的差異看起來可能比實際大得多。
• 平均值的選擇: 如果存在嚴重的離群值,平均值 (Mean) 會被「拉向」離群值的一方。在這種情況下,中位數 (Median) 通常是衡量「平均」程度更好的指標。
避免常見錯誤: 不要只說圖表「很差」。請使用統計學用語,例如:「由於存在顯著的離群值,平均值出現了偏斜,使其無法代表數據的集中趨勢。」
總結:快速回顧箱
1. 離群值(四分位數規則): \( < Q_1 - 1.5\text{IQR} \) 或 \( > Q_3 + 1.5\text{IQR} \)。
2. 離群值(標準差規則): 距離平均值超過 2 個標準差。
3. 清理: 移除錯誤、修正錯字,並決定如何處理缺失值。
4. 選擇平均數: 如果有極端離群值,請使用中位數,因為它對離群值具有「抗干擾性」!
繼續練習這些計算!一旦掌握了「1.5 x IQR」的步驟,你就能在睡夢中識別出離群值了。你可以做到的!