歡迎來到「總結度量」!

你有沒有試過看著一大堆密密麻麻的數字表格,看到頭昏眼花?這時候就是總結度量 (summary measures) 大顯身手的時候了!在本章中,我們將學習如何將海量數據進行提煉,透過幾個關鍵數字來解讀數據背後的意義。我們主要集中於兩大重點:數據的「中心」在哪裡(集中趨勢 central tendency),以及數據的離散程度(離散程度/變異度 variation)。

如果覺得統計學比起純數 (Pure Maths) 顯得「文字感」較重,不用擔心——統計學的核心在於詮釋。讀完這些筆記,你將能像專家一樣描述任何數據集。


1. 集中趨勢度量:尋找「中心」

我們利用這些指標來找尋一個能代表數據集「典型」結果的數值。課程大綱主要涵蓋四種:

平均數 (Mean, \(\bar{x}\))

算術平均數就是一般大眾所稱的「平均值」。計算方法是將所有數據加總,再除以數據的個數。

公式: \(\bar{x} = \frac{\sum x}{n}\)

例子:若五位學生的測試成績分別為 10, 12, 15, 18, 20,則平均數為 \(\frac{75}{5} = 15\)。

加權平均數 (Weighted Mean):有時某些數據比其他數據更重要。例如,若要計算兩個不同城市的人口平均身高,你必須根據每個城市的人口數量對平均值進行「加權」。

中位數 (Median)

中位數是將數據按順序排列後,位於最中間的數值。若數據個數為偶數,則取中間兩個數值的平均值。

類比:想像高速公路上的分隔島——它正好位於路中間,將道路一分為二!

眾數 (Mode)

眾數是出現頻率最高的數值。一個數據集可能有一個眾數、沒有眾數,或呈現雙眾數 (bimodal)(有兩個眾數)。

全距中值 (Midrange)

這是一個簡單直接的度量,透過取最大值和最小值的平均值獲得:\(\frac{\text{max} + \text{min}}{2}\)。它非常簡單,但極易受極端值影響。

快速回顧:我該用哪一個?
平均數:最適合沒有極端值的對稱數據。
中位數:最適合「偏態 (skewed)」數據(即含有少數極高或極低值的情況),因為它不會被極端值拉偏。
眾數:最適合類別數據 (categorical data)(例如:「最受歡迎的汽車顏色是什麼?」)。


2. 離散程度度量:數據有多「散」?

兩個數據集可能擁有相同的平均數,但看起來卻截然不同。想像兩位射手:射手 A 射中靶心 5 次。射手 B 兩次射偏在左側 1 米處,三次射偏在右側 1 米處。他們的「平均」表現相同,但射手 A 明顯穩定得多!

全距 (Range)

最簡單的度量:\(\text{最大值} - \text{最小值}\)。
常見錯誤:全距是一個單一數字(例如:「15」),而不是兩個數字(例如:「10 到 25」)。

四分位數與四分位距 (IQR)

我們可以將數據分成四個等份:
下四分位數 (\(Q_1\)):第 25 百分位數(數據排列後的四分之一位置)。
中位數 (\(Q_2\)):第 50 百分位數(一半的位置)。
上四分位數 (\(Q_3\)):第 75 百分位數(數據排列後四分之三的位置)。
四分位距 (IQR):即 \(Q_3 - Q_1\)。它告訴我們中間 50% 數據的離散程度。

你知道嗎?IQR 非常好用,因為它忽略了兩端那些「怪異」的極端值,專注於描述中間穩定的數據。

標準差 (Standard Deviation, \(s\)) 與變異數 (Variance, \(s^2\))

標準差是最強大的離散程度度量。它告訴我們數據點距離平均值的「平均距離」。

OCR MEI H640 重要提醒:我們計算的是樣本 (sample) 標準差。這意味著在計算平方距離的「平均值」時,我們除以的是 \(n-1\) 而不是 \(n\)。這是因為使用 \(n-1\) 對總體數據能提供更準確的估計。

公式:
1. 平方和 (\(S_{xx}\)): \(S_{xx} = \sum (x_i - \bar{x})^2\)
2. 樣本變異數 (\(s^2\)): \(s^2 = \frac{S_{xx}}{n-1}\)
3. 樣本標準差 (\(s\)): \(s = \sqrt{\frac{S_{xx}}{n-1}}\)

計算機小撇步:別被長公式嚇倒!你的科學計算機或繪圖計算機都有統計模式 (Statistics Mode)。只需輸入數據,它就會自動算出 \(\bar{x}\) 和 \(s\)。留意螢幕上的 \(s_x\) 或 \(\sigma_{n-1}\) 符號。


3. 識別離群值與清理數據

離群值 (outlier) 是指一個與其餘數據集「格格不入」的數據點——就像小學班級裡出現了一位 7 呎高的學生。

如何找出離群值(規則)

在 MEI 課程大綱中,有兩種定義離群值的標準數學方法。題目通常會說明要使用哪一種:

規則 1 (1.5 × IQR 規則):
小於 \(Q_1 - (1.5 \times \text{IQR})\)
或者
大於 \(Q_3 + (1.5 \times \text{IQR})\)

規則 2 (2倍標準差規則):
任何距離平均值超過 2 個標準差的數據。
公式:\(\text{離群值} > \bar{x} + 2s\) 或 \(\text{離群值} < \bar{x} - 2s\)

清理數據

當你發現離群值時,不要直接刪除!你必須清理數據 (clean the data)。這意味著要調查該離群值是否為:
1. 錯誤:(例如:有人把「15」誤輸入成「150」)。這種情況下,請修正或刪除它。
2. 真實存在的極端值:(例如:財富調查中出現了億萬富翁)。這種情況下,應保留它,但改用中位數而非平均數來描述數據,以免結果失真。

重點總結:總結度量讓我們能輕鬆比較兩個群組。如果 A 組的平均數高於 B 組且標準差小於 B 組,意味著 A 組平均表現「較好」且更「穩定」。


總結清單

• 我知道如何計算平均數、中位數和眾數嗎?
• 我會使用計算機找出標準差 (\(s\)) 嗎?
• 記得樣本變異數要除以 \(n-1\)
• 我會應用 \(1.5 \times \text{IQR}\) 規則找出離群值嗎?
• 我了解對於偏態數據,中位數/IQR 是更好的選擇嗎?

如果初看標準差公式覺得很複雜,別擔心。多練習將數據輸入計算機——這將是你本章最好的夥伴!