Summary measures - Mathematics B (MEI) - H630 - Cambridge OCR AS Level

歡迎來到統計總結指標 (Summary Measures)！

你有沒有試過面對一大堆數據而感到束手無策？這時候，總結指標就是你的救星！在本章中，我們將學習如何將繁雜的數據集濃縮成幾個「神奇數字」，精準地呈現數據的本質。我們主要探討兩個重點：數據的「中心」在哪裡，以及數據的分佈有多「散」。

如果你在 GCSE 階段已經接觸過相關概念，也不用擔心；現在我們會以更專業的「A Level」視角深入探討，重點在於解讀這些數字在現實世界中的意義。

1. 集中趨勢指標 (The "Middle")

這些指標能幫助我們找到數據集中的典型值，你可以把它想像成數據的「重心」。

算術平均數 (Mean) \( (\bar{x}) \)

算術平均數就是大家常說的「平均值」。計算方法是將所有數據相加，再除以數據的總個數。在 A Level 數學中，我們使用符號 \( \bar{x} \) (讀作 "x-bar") 來表示。

加權平均數 (Weighted Mean)： 有時候，某些數據比其他數據更重要。舉個例子，如果你要計算兩所學校學生的平均年齡，擁有 1,000 名學生的學校其結果的「權重」理應大於僅有 50 名學生的學校。在除以總權重之前，你需要將每個數值乘以其對應的「權重」（如人口數量）。

中位數 (Median)

中位數是指將數據由小至大排列後，位於最中間的數值。
比喻：想像馬路中間的「中央分隔帶」，它正好將車流從中間一分為二！

眾數 (Mode) 與中程數 (Midrange)

眾數： 出現頻率最高的數值。這是唯一可以用於類別數據（如最喜歡的顏色）的指標。
中程數： 最小值與最大值的正中間點：\( \frac{\text{lowest} + \text{highest}}{2} \)。

我應該選用哪一個？

若數據呈對稱分佈且沒有「異常值」(outliers)，請使用平均數。
若數據出現「偏態」(skewed)（例如樓價，少數豪宅會令平均數過高），請使用中位數。

快速重溫：
- 平均數： 平衡點（易受極端值影響）。
- 中位數： 中間位置（忽略極端值）。
- 眾數： 最受歡迎的數值。

重點總結： 選擇合適的「中心」指標取決於數據的形態。如果你發現數據中存在極端數值，中位數通常是你最好的選擇。

2. 簡單的分佈指標

光知道「中間」在哪裡還不夠，我們還需要知道數據是聚在一起，還是分佈得很散。

全距 (Range)

最簡單的指標：\( \text{Highest value} - \text{Lowest value} \)。雖然計算簡單，但它只參考了兩個極端值，如果其中一個數值是錯誤數據，結果就會產生誤導。

四分位數 (Quartiles) 與四分位距 (IQR)

為了避免被極端值誤導，我們可以將數據平均分成四等份：
- 下四分位數 \( (Q_1) \)： 位於數據 25% 位置的數值。
- 上四分位數 \( (Q_3) \)： 位於數據 75% 位置的數值。
- 四分位距 (IQR)： \( Q_3 - Q_1 \)。這代表了中間 50% 數據的分佈範圍。

百分位數 (Percentiles)

百分位數將數據分成 100 等份。如果你在某次考試中處於第 90 百分位，代表你的分數高於 90% 的考生！第 50 百分位其實就是中位數的另一種稱呼。

你知道嗎？ 四分位距 (IQR) 比全距更「穩健」(robust)。因為它忽略了頭尾各 25% 的數據，所以不會受到邊緣極端數值的影響。

重點總結： 分佈指標反映了數據的穩定性。分佈範圍越小，代表數據越穩定。

3. 方差 (Variance) 與標準差 (Standard Deviation)

這些是統計學中用於衡量分佈的「重量級」指標，它們會考量每一個數據點距離平均數有多遠。

概念

標準差 (\( s \)) 本質上是「與平均數的平均距離」。如果標準差很小，代表數據點非常靠近平均數；如果標準差很大，則代表數據分佈得很開。

公式

對於樣本（你在考試中通常會處理的情況），樣本方差 \( (s^2) \) 的公式為：
\( s^2 = \frac{S_{xx}}{n-1} \)
其中 \( S_{xx} = \sum (x_i - \bar{x})^2 \)

樣本標準差 \( (s) \) 則是方差的平方根：
\( s = \sqrt{\text{variance}} \)

常見錯誤： 計算樣本方差時，千萬別忘了要除以 \( n-1 \) 而不是 \( n \)！這是 MEI 課程的特定要求，以確保我們的樣本估計值沒有偏差 (unbiased)。

善用計算機

小貼士： 在考試中，不要手動進行這些繁瑣計算！請使用計算機的統計功能。輸入數據列表後，計算機便會即時給出 \( \bar{x} \) 和 \( s \)。將時間花在解讀結果上，而不是進行算術運算。

重點總結： 標準差是衡量分佈最精確的方法。較低的 \( s \) 值意味著數據可靠且集中於平均數附近。

4. 異常值 (Outliers) 與數據清理

有時數據中會包含一些不合理的數值——可能是打字錯誤、傳感器故障，或是一次極其罕見的事件。這些被稱為異常值。

如何發現異常值？

在 MEI 統計學中，我們主要使用兩條「經驗法則」來識別異常值：
1. 標準差法則： 任何偏離平均數超過 2 個標準差的數值。
公式：\( \text{Outlier} > \bar{x} + 2s \) 或 \( \text{Outlier} < \bar{x} - 2s \)。
2. IQR 法則： 任何數值超過最靠近的四分位數 1.5 倍 IQR。
公式：\( \text{Outlier} > Q_3 + 1.5(\text{IQR}) \) 或 \( \text{Outlier} < Q_1 - 1.5(\text{IQR}) \)。

數據清理 (Cleaning Data)

當你找到異常值後，必須決定如何處理它。這稱為數據清理：
- 如果是錯誤（例如有人身高被記錄成 180 米而非 180 厘米），請將其刪除或修正。
- 如果是真實發生但極其罕見的數值，你可以保留它，但需備註說明其特殊性。

鼓勵一下： 識別異常值就像做偵探工作一樣。對於是否保留某個數據點，並不一定只有一個「正確」答案，只要你能為自己的決定提供充分理據即可！

重點總結： 異常值會扭曲你的平均數和標準差。在下重大結論前，務必先檢查數據中是否有「古怪」的數字。

總結表：「作弊紙」

指標類型： 集中趨勢（中間位置）
關鍵工具： 平均數 \( (\bar{x}) \)、中位數、眾數。
適用情況： 當你想了解「典型」數值時。

指標類型： 分佈（變異程度）
關鍵工具： 全距、IQR、標準差 \( (s) \)。
適用情況： 當你想知道數據有多「可靠」或「穩定」時。

指標類型： 異常值偵測
關鍵工具： \( \bar{x} \pm 2s \) 或 \( Q \pm 1.5 \times \text{IQR} \)。
適用情況： 當你想找出「古怪」或錯誤的數據點時。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。