歡迎來到平均數與離差的世界!

你有沒有想過,老師是如何判斷全班同學是否「表現良好」,或者天氣應用程式如何預測「典型」氣溫呢?他們並非只看單一數據,而是綜合所有數據進行總結。在本章中,我們將學習如何找出數據集的「中心點」(集中趨勢的測量值),以及數據的「分佈程度」(離差的測量值)。

如果統計學初看之下有很多公式,請不用擔心。我們會一步步拆解,你會發現這其實就是用數字來說故事!

1. 尋找中心點:平均值的測量

當我們提到「平均」時,我們是在尋找一個能代表整個群體的數值。主要有三種方法:

眾數 (Mode)

眾數是出現次數最頻繁的數值。 例子:在數集 {2, 3, 3, 5, 8} 中,眾數是 3。 記憶小撇步:MOde(眾數)= MOst(最多)。

中位數 (Median)

中位數是將數據按從小到大排列後,位於正中間的數值。 如果數據個數是奇數,中位數就是最中間的那一個;如果是偶數,則是中間兩個數的平均值。 記憶小撇步:Median 就像道路中間的「中央分隔島」(median strip)!

平均數 (Mean)

平均數(通常記作 \(\bar{x}\))就是一般人說的「平均值」。將所有數值加總,然後除以數據的總個數。 公式:\(\bar{x} = \frac{\sum x}{n}\) 其中 \(\sum x\) 代表「所有數值的總和」,\(n\) 代表數據的個數。

快速回顧:該選哪一個? - 眾數:最適合非數值數據(例如「最喜歡的顏色」)。 - 中位數:當有極端數值(離群值)時非常好用,因為它不會被這些極端值「拉動」。 - 平均數:最強大的測量工具,但可能會被一個非常大或非常小的數字所扭曲。

2. 處理分組數據 (Grouped Data)

有時候數據會以組別形式呈現(例如「身高:150cm - 160cm」)。由於我們不知道確切的身高,我們計算出的平均數和標準差都只能是估算值

分組平均數計算步驟: 1. 找出每一組的組中點(\(x\))。 2. 將每個組中點乘以該組的頻數(\(f\)),得到 \(fx\)。 3. 將所有 \(fx\) 相加得到總和(\(\sum fx\))。 4. 除以總頻數(\(\sum f\))。 公式:\(\bar{x} \approx \frac{\sum fx}{\sum f}\)

3. 測量「分佈程度」:離差的測量

想像兩位射箭選手。平均而言,他們都能射中靶心附近。但選手 A 的箭都緊密集中在一起,而選手 B 的箭則散落在整個靶面上。我們需要用數字來描述這種差異!

四分位數與四分位距 (IQR)

就像中位數將數據分成兩半,四分位數將數據分成四份。 - 下四分位數 (\(Q_1\)): 25% 的位置。 - 中位數 (\(Q_2\)): 50% 的位置。 - 上四分位數 (\(Q_3\)): 75% 的位置。 - 四分位距 (IQR): \(Q_3 - Q_1\)。

IQR 非常有用,因為它忽略了兩端各 25% 的極端數據,專注於數據的「中間 50%」。

百分位數 (Percentiles)

百分位數就像四分位數,只是將數據分成了 100 等份。如果你在某次考試中處於第 90 百分位,代表你的分數比 90% 的人都要高!

4. 方差與標準差

標準差 (Standard Deviation) 是 AS Level 數學中最重要的一項離差測量。它告訴我們數據點與平均值的平均距離。課程大綱將其描述為與平均值之離差平方的平均值的平方根

你需要知道的公式: 對於一列數據: \(\sigma = \sqrt{\frac{\sum(x-\bar{x})^2}{n}} = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

對於頻數分佈(分組數據): \(\sigma = \sqrt{\frac{\sum f(x-\bar{x})^2}{\sum f}} = \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2}\)

常見錯誤:學生經常忘記最後要將平均數平方(\(\bar{x}^2\)),或者忘記開根號。 提示:方差 (Variance) 就是標準差的平方(\(\sigma^2\))。如果題目問的是方差,千萬別開根號!

你知道嗎?大多數現代科學計算器都有「統計模式」,可以即時為你計算這些數值。記得學會使用你那款計算器的功能(通常標記為 '1-Variable Stats')!

5. 揪出「怪胎」:離群值 (Outliers)

離群值是遠高於或遠低於其餘數據的數據點。OCR 課程大綱給出了兩個具體的「規則」來識別它們:

規則 1:IQR 規則 若數值符合以下情況,則為離群值: - 高於上四分位數超過 \(1.5 \times \text{IQR}\) (\(Q_3 + 1.5 \times \text{IQR}\))。 - 低於下四分位數超過 \(1.5 \times \text{IQR}\) (\(Q_1 - 1.5 \times \text{IQR}\))。

規則 2:標準差規則 若數值符合以下情況,則為離群值: - 距離平均值超過 2 個標準差 (\(\bar{x} \pm 2\sigma\))。

數據清理:一旦發現離群值,你必須決定如何處理它。如果是錯誤(例如有人把 200cm 打成 2000cm),你需要透過刪除或更正來「清理」數據。

6. 比較兩個分佈

如果考題要求你「比較兩組數據」,你必須評論兩件事: 1. 平均值的測量:(使用平均數或中位數)。「平均而言,A 組的得分高於 B 組。」 2. 離差的測量:(使用標準差或 IQR)。「A 組的得分比 B 組更穩定(標準差較小)。」

重點提示:一定要結合題目的背景(例如提及「得分」、「時間」或「重量」),而不僅僅是說「這些數字」。

快速回顧區

- 平均數 (\(\bar{x}\)): 全部相加,除以 \(n\)。
- 標準差 (\(\sigma\)): 與平均值的平均距離。
- IQR: \(Q_3 - Q_1\)。
- 離群值: \(1.5 \times \text{IQR}\) 或 \(2 \times \sigma\)。
- 分組數據: 計算結果永遠只是估算值

如果標準差公式看起來很嚇人,不用擔心!多練習使用「\(x^2\) 的總和」版本(\(\sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)),因為這通常計算起來快得多。你可以做到的!