簡介:為什麼要整理數據?

想像一下你正在統計 1,000 名學生的身高。如果有人問你:「你們學校的學生身高如何?」,你肯定不會把每一個測量結果都讀出來吧!相反地,你會使用幾個數字來描述整組數據。這就是平均數(measures of average)(用來顯示中心位置)和離差(measures of spread)(用來顯示變異程度)派上用場的時候。這些工具能幫助我們比較不同的數據集,並解讀這個世界,從天氣模式到考試成績,無一不可。

1. 平均數(集中趨勢)

「平均數」是一個單一數值,試圖透過識別數據中的中心位置來描述一組數據。在 H240 課程大綱中,你需要熟練掌握三種主要的類型。

平均值(Mean,\(\bar{x}\))

平均值是大多數人提到「平均」時所指的概念。計算方法是將所有數值相加,然後除以數值的總數。

公式: \(\bar{x} = \frac{\sum x}{n}\)
其中 \(\sum x\) 代表「所有數值的總和」,而 \(n\) 是數值的數量。

優點: 它運用了每一個數據點。
缺點: 它容易被一兩個極高或極低的數值(離群值)「拉偏」,從而遠離真正的中心。

中位數(Median)

中位數是將數據按順序排列後,處於正中間的數值。如果數據的數量是偶數,中位數就是中間兩個數值的平均值。

類比: 想像馬路中間的「中央分隔帶」(median strip)——它將道路精確地一分為二。

眾數(Mode)

眾數是出現次數最多的數值。你可以擁有超過一個眾數(雙峰或多峰),如果所有數值都是獨一無二的,則該組數據沒有眾數。

快速回顧:
- 平均值: 「平衡者」(將總量平均分配)。
- 中位數: 「中間點」(50% 的數據在其上,50% 在其下)。
- 眾數: 「受歡迎者」(出現頻率最高)。

2. 離差(變異程度)

平均數告訴我們中心在哪裡,但離差告訴我們數據的穩定性。身高的差異是都很接近,還是最矮與最高的學生之間有巨大的落差?

四分位數與四分位距(Inter-Quartile Range,IQR)

正如中位數將數據分成兩半,四分位數將數據分成四個等分。

- 下四分位數(\(Q_1\)): 第 25 個百分位數(即四分之一處)。
- 上四分位數(\(Q_3\)): 第 75 個百分位數(即四分之三處)。
- 四分位距(IQR): \(Q_3 - Q_1\)。

為什麼要用 IQR? 與全距(Range)不同,IQR 忽略了數據兩端的極端值,只關注中間的 50%。如果你的數據中包含奇怪的離群值,IQR 會可靠得多。

變異數與標準差(Standard Deviation,\(\sigma\))

標準差是 A Level 數學中衡量離差的「黃金標準」。它衡量的是每個數據點平均距離平均值有多遠。

標準差的「步驟」:
如果這看起來很複雜,別擔心!你的計算機會處理大部分繁重的計算,但你必須理解這個公式:

\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

記憶小撇步: 一個常見的記憶方法是「平方根之(平方的平均減去平均的平方)」

變異數(Variance): 這就是標準差的平方(\(\sigma^2\))。它是你在進行最後開根號運算「之前」的數值。

常見錯誤: 忘了在計算最後開根號!如果你的離差答案看起來比原始數據大得多,你很可能算成了變異數,而不是標準差。

3. 處理分組數據(Grouped Data)

有時數據以組別形式給出(例如:「5 名學生的身高在 140cm 到 150cm 之間」)。因為我們不知道確切的身高,我們使用每組的組中值(midpoint)作為 \(x\) 的估計值。

估計平均值: \(\bar{x} \approx \frac{\sum fx}{\sum f}\)
(將每個頻率 \(f\) 乘以其組中值 \(x\),相加後除以總頻率)。

估計標準差: \(\sigma \approx \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2}\)

你知道嗎? 因為我們使用了組中值,所以從分組數據中得出的任何計算結果都只是估計值,而不是精確值。

4. 離群值(Outliers)與數據清理

離群值是距離其他數據非常遙遠的點,它可能是一個誤差,也可能是一個非常罕見的案例。在 H240 課程中,識別離群值有兩條常用規則:

1. IQR 規則: 任何大於 \(Q_3 + 1.5 \times \text{IQR}\) 或小於 \(Q_1 - 1.5 \times \text{IQR}\) 的數值。
2. 標準差規則: 任何距離平均值超過 \(2\) 個標準差的數值。

數據清理: 這涉及到決定是否要移除離群值(如果是錯誤造成的)或者保留它們(如果是真實存在的極端案例)。

5. 比較分佈

當考試題目要求你「比較兩個分佈」時,你必須在語境下提及兩件事:

1. 比較平均數: 使用平均值或中位數。(例如:「A 班的中位數分數比 B 班高,說明他們平均表現較好。」)
2. 比較離差: 使用標準差或 IQR。(例如:「B 班的標準差較小,說明他們的成績更穩定。」)

關鍵總結:
- 高離差 = 數據不穩定。
- 低離差 = 數據穩定/可靠。

總結檢查清單

- 你會用計算機計算平均值和標準差嗎?(檢查你的說明書!)
- 你知道變異數和標準差之間的區別嗎?
- 你能使用 \(1.5 \times \text{IQR}\) 規則找出離群值嗎?
- 當比較數據時,你是否同時提到了平均數離差