歡迎來到統計總結指標 (Summary Measures)!
你有沒有試過面對一大堆數據而感到束手無策?這時候,總結指標就是你的救星!在本章中,我們將學習如何將繁雜的數據集濃縮成幾個「神奇數字」,精準地呈現數據的本質。我們主要探討兩個重點:數據的「中心」在哪裡,以及數據的分佈有多「散」。
如果你在 GCSE 階段已經接觸過相關概念,也不用擔心;現在我們會以更專業的「A Level」視角深入探討,重點在於解讀這些數字在現實世界中的意義。
1. 集中趨勢指標 (The "Middle")
這些指標能幫助我們找到數據集中的典型值,你可以把它想像成數據的「重心」。
算術平均數 (Mean) \( (\bar{x}) \)
算術平均數就是大家常說的「平均值」。計算方法是將所有數據相加,再除以數據的總個數。在 A Level 數學中,我們使用符號 \( \bar{x} \) (讀作 "x-bar") 來表示。
加權平均數 (Weighted Mean): 有時候,某些數據比其他數據更重要。舉個例子,如果你要計算兩所學校學生的平均年齡,擁有 1,000 名學生的學校其結果的「權重」理應大於僅有 50 名學生的學校。在除以總權重之前,你需要將每個數值乘以其對應的「權重」(如人口數量)。
中位數 (Median)
中位數是指將數據由小至大排列後,位於最中間的數值。
比喻:想像馬路中間的「中央分隔帶」,它正好將車流從中間一分為二!
眾數 (Mode) 與 中程數 (Midrange)
眾數: 出現頻率最高的數值。這是唯一可以用於類別數據(如最喜歡的顏色)的指標。
中程數: 最小值與最大值的正中間點:\( \frac{\text{lowest} + \text{highest}}{2} \)。
我應該選用哪一個?
- 若數據呈對稱分佈且沒有「異常值」(outliers),請使用平均數。
- 若數據出現「偏態」(skewed)(例如樓價,少數豪宅會令平均數過高),請使用中位數。
快速重溫:
- 平均數: 平衡點(易受極端值影響)。
- 中位數: 中間位置(忽略極端值)。
- 眾數: 最受歡迎的數值。
重點總結: 選擇合適的「中心」指標取決於數據的形態。如果你發現數據中存在極端數值,中位數通常是你最好的選擇。
2. 簡單的分佈指標
光知道「中間」在哪裡還不夠,我們還需要知道數據是聚在一起,還是分佈得很散。
全距 (Range)
最簡單的指標:\( \text{Highest value} - \text{Lowest value} \)。雖然計算簡單,但它只參考了兩個極端值,如果其中一個數值是錯誤數據,結果就會產生誤導。
四分位數 (Quartiles) 與 四分位距 (IQR)
為了避免被極端值誤導,我們可以將數據平均分成四等份:
- 下四分位數 \( (Q_1) \): 位於數據 25% 位置的數值。
- 上四分位數 \( (Q_3) \): 位於數據 75% 位置的數值。
- 四分位距 (IQR): \( Q_3 - Q_1 \)。這代表了中間 50% 數據的分佈範圍。
百分位數 (Percentiles)
百分位數將數據分成 100 等份。如果你在某次考試中處於第 90 百分位,代表你的分數高於 90% 的考生!第 50 百分位其實就是中位數的另一種稱呼。
你知道嗎? 四分位距 (IQR) 比全距更「穩健」(robust)。因為它忽略了頭尾各 25% 的數據,所以不會受到邊緣極端數值的影響。
重點總結: 分佈指標反映了數據的穩定性。分佈範圍越小,代表數據越穩定。
3. 方差 (Variance) 與 標準差 (Standard Deviation)
這些是統計學中用於衡量分佈的「重量級」指標,它們會考量每一個數據點距離平均數有多遠。
概念
標準差 (\( s \)) 本質上是「與平均數的平均距離」。如果標準差很小,代表數據點非常靠近平均數;如果標準差很大,則代表數據分佈得很開。
公式
對於樣本(你在考試中通常會處理的情況),樣本方差 \( (s^2) \) 的公式為:
\( s^2 = \frac{S_{xx}}{n-1} \)
其中 \( S_{xx} = \sum (x_i - \bar{x})^2 \)
樣本標準差 \( (s) \) 則是方差的平方根:
\( s = \sqrt{\text{variance}} \)
常見錯誤: 計算樣本方差時,千萬別忘了要除以 \( n-1 \) 而不是 \( n \)!這是 MEI 課程的特定要求,以確保我們的樣本估計值沒有偏差 (unbiased)。
善用計算機
小貼士: 在考試中,不要手動進行這些繁瑣計算!請使用計算機的統計功能。輸入數據列表後,計算機便會即時給出 \( \bar{x} \) 和 \( s \)。將時間花在解讀結果上,而不是進行算術運算。
重點總結: 標準差是衡量分佈最精確的方法。較低的 \( s \) 值意味著數據可靠且集中於平均數附近。
4. 異常值 (Outliers) 與 數據清理
有時數據中會包含一些不合理的數值——可能是打字錯誤、傳感器故障,或是一次極其罕見的事件。這些被稱為異常值。
如何發現異常值?
在 MEI 統計學中,我們主要使用兩條「經驗法則」來識別異常值:
1. 標準差法則: 任何偏離平均數超過 2 個標準差的數值。
公式:\( \text{Outlier} > \bar{x} + 2s \) 或 \( \text{Outlier} < \bar{x} - 2s \)。
2. IQR 法則: 任何數值超過最靠近的四分位數 1.5 倍 IQR。
公式:\( \text{Outlier} > Q_3 + 1.5(\text{IQR}) \) 或 \( \text{Outlier} < Q_1 - 1.5(\text{IQR}) \)。
數據清理 (Cleaning Data)
當你找到異常值後,必須決定如何處理它。這稱為數據清理:
- 如果是錯誤(例如有人身高被記錄成 180 米而非 180 厘米),請將其刪除或修正。
- 如果是真實發生但極其罕見的數值,你可以保留它,但需備註說明其特殊性。
鼓勵一下: 識別異常值就像做偵探工作一樣。對於是否保留某個數據點,並不一定只有一個「正確」答案,只要你能為自己的決定提供充分理據即可!
重點總結: 異常值會扭曲你的平均數和標準差。在下重大結論前,務必先檢查數據中是否有「古怪」的數字。
總結表:「作弊紙」
指標類型: 集中趨勢(中間位置)
關鍵工具: 平均數 \( (\bar{x}) \)、中位數、眾數。
適用情況: 當你想了解「典型」數值時。
指標類型: 分佈(變異程度)
關鍵工具: 全距、IQR、標準差 \( (s) \)。
適用情況: 當你想知道數據有多「可靠」或「穩定」時。
指標類型: 異常值偵測
關鍵工具: \( \bar{x} \pm 2s \) 或 \( Q \pm 1.5 \times \text{IQR} \)。
適用情況: 當你想找出「古怪」或錯誤的數據點時。