Summary measures - Mathematics B (MEI) - H640 - Cambridge OCR A Level

歡迎來到「總結度量」！

你有沒有試過看著一大堆密密麻麻的數字表格，看到頭昏眼花？這時候就是總結度量 (summary measures) 大顯身手的時候了！在本章中，我們將學習如何將海量數據進行提煉，透過幾個關鍵數字來解讀數據背後的意義。我們主要集中於兩大重點：數據的「中心」在哪裡（集中趨勢 central tendency），以及數據的離散程度（離散程度/變異度 variation）。

如果覺得統計學比起純數 (Pure Maths) 顯得「文字感」較重，不用擔心——統計學的核心在於詮釋。讀完這些筆記，你將能像專家一樣描述任何數據集。

1. 集中趨勢度量：尋找「中心」

我們利用這些指標來找尋一個能代表數據集「典型」結果的數值。課程大綱主要涵蓋四種：

平均數 (Mean, \(\bar{x}\))

算術平均數就是一般大眾所稱的「平均值」。計算方法是將所有數據加總，再除以數據的個數。

公式： \(\bar{x} = \frac{\sum x}{n}\)

例子：若五位學生的測試成績分別為 10, 12, 15, 18, 20，則平均數為 \(\frac{75}{5} = 15\)。

加權平均數 (Weighted Mean)：有時某些數據比其他數據更重要。例如，若要計算兩個不同城市的人口平均身高，你必須根據每個城市的人口數量對平均值進行「加權」。

中位數 (Median)

中位數是將數據按順序排列後，位於最中間的數值。若數據個數為偶數，則取中間兩個數值的平均值。

類比：想像高速公路上的分隔島——它正好位於路中間，將道路一分為二！

眾數 (Mode)

眾數是出現頻率最高的數值。一個數據集可能有一個眾數、沒有眾數，或呈現雙眾數 (bimodal)（有兩個眾數）。

全距中值 (Midrange)

這是一個簡單直接的度量，透過取最大值和最小值的平均值獲得：\(\frac{\text{max} + \text{min}}{2}\)。它非常簡單，但極易受極端值影響。

快速回顧：我該用哪一個？
• 平均數：最適合沒有極端值的對稱數據。
• 中位數：最適合「偏態 (skewed)」數據（即含有少數極高或極低值的情況），因為它不會被極端值拉偏。
• 眾數：最適合類別數據 (categorical data)（例如：「最受歡迎的汽車顏色是什麼？」）。

2. 離散程度度量：數據有多「散」？

兩個數據集可能擁有相同的平均數，但看起來卻截然不同。想像兩位射手：射手 A 射中靶心 5 次。射手 B 兩次射偏在左側 1 米處，三次射偏在右側 1 米處。他們的「平均」表現相同，但射手 A 明顯穩定得多！

全距 (Range)

最簡單的度量：\(\text{最大值} - \text{最小值}\)。
常見錯誤：全距是一個單一數字（例如：「15」），而不是兩個數字（例如：「10 到 25」）。

四分位數與四分位距 (IQR)

我們可以將數據分成四個等份：
• 下四分位數 (\(Q_1\))：第 25 百分位數（數據排列後的四分之一位置）。
• 中位數 (\(Q_2\))：第 50 百分位數（一半的位置）。
• 上四分位數 (\(Q_3\))：第 75 百分位數（數據排列後四分之三的位置）。
• 四分位距 (IQR)：即 \(Q_3 - Q_1\)。它告訴我們中間 50% 數據的離散程度。

你知道嗎？IQR 非常好用，因為它忽略了兩端那些「怪異」的極端值，專注於描述中間穩定的數據。

標準差 (Standard Deviation, \(s\)) 與變異數 (Variance, \(s^2\))

標準差是最強大的離散程度度量。它告訴我們數據點距離平均值的「平均距離」。

OCR MEI H640 重要提醒：我們計算的是樣本 (sample) 標準差。這意味著在計算平方距離的「平均值」時，我們除以的是 \(n-1\) 而不是 \(n\)。這是因為使用 \(n-1\) 對總體數據能提供更準確的估計。

公式：
1. 平方和 (\(S_{xx}\))： \(S_{xx} = \sum (x_i - \bar{x})^2\)
2. 樣本變異數 (\(s^2\))： \(s^2 = \frac{S_{xx}}{n-1}\)
3. 樣本標準差 (\(s\))： \(s = \sqrt{\frac{S_{xx}}{n-1}}\)

計算機小撇步：別被長公式嚇倒！你的科學計算機或繪圖計算機都有統計模式 (Statistics Mode)。只需輸入數據，它就會自動算出 \(\bar{x}\) 和 \(s\)。留意螢幕上的 \(s_x\) 或 \(\sigma_{n-1}\) 符號。

3. 識別離群值與清理數據

離群值 (outlier) 是指一個與其餘數據集「格格不入」的數據點——就像小學班級裡出現了一位 7 呎高的學生。

如何找出離群值（規則）

在 MEI 課程大綱中，有兩種定義離群值的標準數學方法。題目通常會說明要使用哪一種：

規則 1 (1.5 × IQR 規則)：
小於 \(Q_1 - (1.5 \times \text{IQR})\)
或者
大於 \(Q_3 + (1.5 \times \text{IQR})\)

規則 2 (2倍標準差規則)：
任何距離平均值超過 2 個標準差的數據。
公式：\(\text{離群值} > \bar{x} + 2s\) 或 \(\text{離群值} < \bar{x} - 2s\)

清理數據

當你發現離群值時，不要直接刪除！你必須清理數據 (clean the data)。這意味著要調查該離群值是否為：
1. 錯誤：（例如：有人把「15」誤輸入成「150」）。這種情況下，請修正或刪除它。
2. 真實存在的極端值：（例如：財富調查中出現了億萬富翁）。這種情況下，應保留它，但改用中位數而非平均數來描述數據，以免結果失真。

重點總結：總結度量讓我們能輕鬆比較兩個群組。如果 A 組的平均數高於 B 組且標準差小於 B 組，意味著 A 組平均表現「較好」且更「穩定」。

總結清單

• 我知道如何計算平均數、中位數和眾數嗎？
• 我會使用計算機找出標準差 (\(s\)) 嗎？
• 記得樣本變異數要除以 \(n-1\)！
• 我會應用 \(1.5 \times \text{IQR}\) 規則找出離群值嗎？
• 我了解對於偏態數據，中位數/IQR 是更好的選擇嗎？

如果初看標準差公式覺得很複雜，別擔心。多練習將數據輸入計算機——這將是你本章最好的夥伴！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。