歡迎來到數據離散程度的世界!
在之前的課堂中,我們學習了「平均值」(集中趨勢的度量)。但平均值只能反映部分事實。試想像有兩個城市,平均氣溫皆為 20°C。在城市 A,每天氣溫都是 20°C;但在城市 B,下午氣溫高達 40°C,夜晚卻跌至 0°C!雖然它們的平均值相同,但實際感受卻截然不同。
這就是我們需要離散程度的度量(Measures of Dispersion)的原因。它們能告訴我們數據有多麼「分散」或「穩定」。讓我們深入探討吧!
1. 全距(Range):最簡單的度量
全距是一組數據中最大值與最小值之間的差額。它能讓我們快速了解數據的整體分佈範圍。
計算方法:
\( \text{Range} = \text{Highest Value} - \text{Lowest Value} \)
例子:如果一位學生的考試分數分別是 55、60、72 和 90,那麼全距就是 \( 90 - 55 = 35 \)。
常見錯誤:學生經常會寫出兩個數字作為全距(例如:「全距是 55 至 90」)。在統計學中,全距必須是一個單一數字(即兩者的差額)!
重點總結:全距越大,代表數據分佈越分散;全距越小,代表數據越穩定。
2. 四分位數與四分位距(IQR)
有時全距會誤導我們,因為一個極高或極低的數值(離群值)會令全距看起來比實際情況大得多。為了修正這個問題,我們會觀察位於中間的 50% 數據。
什麼是四分位數?
如果你將數據平均分成四等份,這些分界線就稱為四分位數:
• 下四分位數(\(Q_1\)):位於數據 25% 位置的數值。
• 中位數(\(Q_2\)):位於數據中間(50%)位置的數值。
• 上四分位數(\(Q_3\)):位於數據 75% 位置的數值。
四分位距(Interquartile Range, IQR)
IQR 用於衡量中間 50% 數據的離散程度。它的優點在於不受離群值的影響。
公式:
\( \text{IQR} = Q_3 - Q_1 \)
計算 IQR 的步驟:
1. 將數據由小到大排列。
2. 找出中位數(\(Q_2\))。
3. 在數據的下半部分找出中間值,即為下四分位數(\(Q_1\))。
4. 在數據的上半部分找出中間值,即為上四分位數(\(Q_3\))。
5. 用 \(Q_3\) 減去 \(Q_1\)。
如果中位數落在兩個數字之間也不用擔心!只需計算這兩個數字的平均值即可,就像你在「平均值」章節學到的一樣。
3. 百分位數與十分位數(高階試卷適用)
如果四分位數將數據分成 4 等份,那麼百分位數(Percentiles)就是將數據分成 100 等份,而十分位數(Deciles)則分成 10 等份。
• 百分位距(Interpercentile Range):兩個特定百分位數之間的差額(例如:第 10 百分位數至第 90 百分位數之間的距離)。
• 十分位距(Interdecile Range):兩個十分位數之間的差額(通常指第 1 十分位數與第 9 十分位數)。
為什麼要用這些?它們比 IQR 更精確。它們能幫助我們觀察離散程度,同時剔除數據兩端的極端值。
4. 離群值(Outliers):數據中的「叛逆分子」
離群值是指遠高於或遠低於其餘數據的數值。你或許能透過肉眼觀察(檢視法)發現它們,但在考試中,你可能需要透過計算來找出它們。
如何計算離群值的邊界(高階試卷適用)
若數值符合以下條件,通常視為離群值:
• 小於: \( Q_1 - (1.5 \times \text{IQR}) \)
• 大於: \( Q_3 + (1.5 \times \text{IQR}) \)
• 或者: 超出平均值 3 個標準差的範圍(\( \mu \pm 3\sigma \))。
發現離群值後該怎麼辦?
當你找到離群值時,應檢查它屬於哪種情況:
1. 輸入錯誤: 例如將學生的年齡「15」誤輸入為「150」。這些數據應該被修正或移除。
2. 真正異常的數值: 例如在一般辦公室職位的薪金清單中出現職業運動員的薪酬。這些數據應予以保留並註明,因為它們會影響平均值和全距。
5. 標準差(Standard Deviation,高階試卷適用)
標準差是衡量離散程度最精密的指標。它告訴我們每個數據點距離平均值的「平均距離」。
• 標準差較小:數據點非常接近平均值(非常穩定)。
• 標準差較大:數據點距離平均值較遠(不穩定)。
公式
公式看起來很可怕,但考試時會提供給你!你只需要知道如何運用在數據列表或次數分佈表中:
\( \sigma = \sqrt{\frac{\sum f(x - \bar{x})^2}{\sum f}} \) 或 \( \sigma = \sqrt{\frac{\sum fx^2}{\sum f} - (\frac{\sum fx}{\sum f})^2} \)
記憶小貼士:你可以將標準差想像成「離散程度的平均值」。
6. 標準分數(Standardised Scores,高階試卷適用)
你有沒有想過如何比較數學難題與英文簡單測驗的表現?你不能只比較分數,你需要的是標準分數(Standardised Scores)(也稱為 Z-score)。
標準分數代表一個數值與平均值相差多少個標準差。
公式:
\( \text{Standardised Score} = \frac{x - \mu}{\sigma} \)
其中 \(x\) 是你的分數,\(\mu\) 是平均值,\(\sigma\) 是標準差。正數代表你的表現高於平均,負數代表你的表現低於平均。
7. 比較數據集
在考試中,你經常會被要求比較兩組數據(例如:「比較 A 班與 B 班的分數」)。要準確做到這一點,你必須遵守以下規則:
比較的黃金法則:正確的離散程度度量必須配搭正確的平均值度量!
1. 如果你使用中位數(Median),就必須使用四分位距(IQR)來描述離散程度。
2. 如果你使用平均值(Mean),就必須使用標準差(Standard Deviation)(或全距)來描述離散程度。
答案範例:「A 班的中位數分數(65%)比 B 班(58%)高,顯示他們的平均表現較好。然而,A 班的 IQR(20%)比 B 班(10%)大,意味著 A 班的分數分佈較廣,穩定性較低。」
重點複習箱
全距(Range):最大值 - 最小值(最簡單,受離群值影響)。
四分位距(IQR):\(Q_3 - Q_1\)(中間 50% 的數據,不受離群值影響)。
標準差(Standard Deviation):距離平均值的平均距離(最準確)。
離群值(Outlier):數值與四分位數距離超過 \(1.5 \times \text{IQR}\)。
標準分數(Standardised Score):用於公平地比較不同的數據集。