簡介:什麼是平均值與分佈範圍,為什麼我們要學習它?

歡迎來到統計學章節!別擔心數字有時會讓你感到壓力——這一章的目標是透過幾個簡單的數字,將龐大且雜亂的數據清單進行總結。

這些用於總結的數字主要分為兩大類:

1. 平均值(集中趨勢的測量): 它們告訴你一組數據的「典型值」是什麼(例如:「這次測驗的平均分是 75%」)。
2. 分佈範圍(離散趨勢的測量): 它們告訴你數據的分散程度(例如:「分數範圍從 10% 到 100% 不等」)。

掌握這些概念能讓你分析並比較不同的數據集,這是現實生活中一項非常關鍵的技能!

第一部分:集中趨勢的測量(平均值)

當人們提到「平均值」時,通常指的就是「算術平均數(Mean)」。但在數學上,有三種主要的平均指標:算術平均數 (Mean)中位數 (Median)眾數 (Mode)

1.1 眾數 (Mode) —— 最熱門的數字

眾數是最容易找到的平均指標,它簡單來說就是數據集中出現次數最多的數值。

關於眾數的重點:
  • 它可用於非數值數據(例如:最喜歡的顏色或汽車類型)。
  • 一個數據集可能 沒有眾數(如果所有數值都只出現一次),也可能有 兩個或多個眾數(雙峰分佈、多峰分佈)。

例子: 在鞋碼清單中:7, 8, 8, 9, 10, 10, 10, 11。
數字 10 出現了三次,比其他任何尺碼都多。
眾數 = 10

1.2 中位數 (Median) —— 正中間的數值

中位數是將數據按大小順序排列後,處於最中間的數值。它的優點在於不會受到極端值(離群值)的影響。

步驟:尋找個別數據的中位數
  1. 排列數據: 將所有數值由小到大排列。(如果你忘了這一步,答案就會錯!)
  2. 找出位置: 使用中位數位置公式:
    \[\text{位置} = \frac{n+1}{2}\] 其中 \(n\) 是數據集中數值的總個數。
  3. 找出數值: 根據位置在已排序的清單中尋找實際的中位數。

情況 A:數據個數為奇數 (n 是奇數)
例子: 分數:5, 2, 8, 1, 4 (n=5)
1. 排序:1, 2, 4, 5, 8
2. 位置:\(\frac{5+1}{2} = 3\)。
3. 數值:第 3 個數值是 4。
中位數 = 4

情況 B:數據個數為偶數 (n 是偶數)
例子: 分數:10, 12, 16, 20 (n=4)
1. 排序:10, 12, 16, 20
2. 位置:\(\frac{4+1}{2} = 2.5\)。這代表中位數位於第 2 個與第 3 個數值的正中間。
3. 數值:中位數 = \(\frac{12+16}{2} = 14\)。
中位數 = 14

記憶小撇步: 中位數就像馬路上的「中央分隔帶(median strip)」一樣——它就是正中間的那條線!

1.3 算術平均數 (Mean) —— 標準平均值

算術平均數是最常用的平均值。計算方法是將所有數據值加總,然後除以數據的總個數。

算術平均數公式(個別數據)

\[\text{平均數} (\bar{x}) = \frac{\text{所有數值之和}}{\text{數值個數}}\]

使用數學符號(你應該要熟悉它): \[\bar{x} = \frac{\sum x}{n}\]

其中:
\(\sum x\)(讀作「sigma x」)代表「所有數據值的總和」。
\(n\) 代表數值的總個數。

例子: 測得的氣溫(單位:°C):20, 25, 22, 21
1. 數值總和 (\(\sum x\)):\(20 + 25 + 22 + 21 = 88\)
2. 數值個數 (\(n\)):4
3. 平均數:\(\frac{88}{4} = 22\)
平均數 = 22 °C

1.4 分辨平均指標的用途

為什麼我們需要三種平均指標?因為它們能告訴我們關於數據的不同訊息!

快速回顧:何時使用哪種平均指標

平均指標用途/最佳使用情況...對離群值的敏感度
眾數你需要最頻繁/最受歡迎的結果(例如:進貨尺碼)。最適合非數值數據。
中位數數據包含 離群值(極端值)。它能給出一個不受極端值影響的可靠中心點(例如:房價)。低(穩健)
平均數數據呈現對稱分佈且為數值型,且你需要將 所有 數據點納入計算(例如:科學實驗數據)。高(敏感)

你知道嗎? 如果你要計算一個小鎮的平均收入,而比爾·蓋茲突然搬進去,那裡的平均數收入會瞬間飆升,變得無法代表一般人的工資。這時,中位數收入反而更具代表性!


第一部分重點總結: 平均數、中位數和眾數都是描述數據中心位置的方法,但「平均數」是經計算得出,「中位數」看重位置,而「眾數」看重頻率。


第二部分:離散趨勢的測量(全距與四分位數)

平均值能告訴你中心在哪,但無法說明數字有多分散。為了有效地比較兩個數據集(課程大綱的要求),你需要使用「離散趨勢」的測量方式。

2.1 全距 (Range)

全距是最簡單的離散程度測量方式。它告訴你最大值與最小值之間的總距離。

全距公式

\[\text{全距} = \text{最大值} - \text{最小值}\]

例子: 分數:10, 45, 50, 52, 98
全距 = \(98 - 10 = 88\)

常見錯誤: 由於全距只使用兩個數值(最大值和最小值),它極易受到離群值的影響。如果那個 98 其實是 150,全距會急劇增加,儘管中間的分數根本沒變。

2.2 四分位數 (Quartiles) 與四分位距 (IQR)

為了獲得一個不受極端離群值影響的離散程度測量,我們使用 四分位數。四分位數將有序數據分為四個相等的等份。

理解四分位數
  • \(Q_1\) (下四分位數): 數據下半部的中位數。25% 的數據小於此數值。
  • \(Q_2\) (中位數): 即整體數據的中位數(50%)。
  • \(Q_3\) (上四分位數): 數據上半部的中位數。75% 的數據小於此數值。
四分位距 (Interquartile Range, IQR)

四分位距 (IQR) 是中間 50% 數據的散佈範圍,它測量了上四分位數與下四分位數之間的距離。

四分位距公式

\[\text{IQR} = Q_3 - Q_1\]

尋找四分位數的位置:
雖然方法略有差異,但對於 IGCSE,如果你有 \(n\) 個個別數據,最簡單的方法是:

  • \(Q_1\) 位置: \(\frac{1}{4} (n+1)\)
  • \(Q_3\) 位置: \(\frac{3}{4} (n+1)\)

例子(尋找 IQR): 數據:10, 12, 15, 16, 18, 20, 25, 30, 35 (n=9)
(數據已排序)

1. 找出中位數 (\(Q_2\)):位置 \(\frac{9+1}{2} = 5\)。中位數 = 18。

2. 找出 \(Q_1\):位置 \(\frac{1}{4} (9+1) = 2.5\)。這位於第 2 個 (12) 與第 3 個 (15) 數值的正中間。
\[Q_1 = \frac{12+15}{2} = 13.5\]

3. 找出 \(Q_3\):位置 \(\frac{3}{4} (9+1) = 7.5\)。這位於第 7 個 (25) 與第 8 個 (30) 數值的正中間。
\[Q_3 = \frac{25+30}{2} = 27.5\]

4. 計算 IQR:
\[\text{IQR} = Q_3 - Q_1 = 27.5 - 13.5 = 14\]

類比: 將 IQR 想像成射箭的靶心。它測量最典型的半數數據集中程度,同時忽略了外圍的環數(離群值)。


第二部分重點總結: 全距測量總體跨度但易受離群值影響;四分位距 (IQR) 測量中間 50% 數據的離散程度,在比較數據集時更為可靠。


第三部分:頻率分佈表 (Frequency Tables) 的平均值

通常數據會以 頻率分佈表 呈現,顯示每個數值出現的頻率。在處理頻率時,計算平均值的方法會有些許不同。

3.1 從頻率表找出眾數與中位數

找出眾數

對於頻率表(其中 \(x\) 是數值,\(f\) 是頻率),眾數就是頻率 \(f\) 最高的那個數值 \(x\)。

找出中位數

處理頻率表時,數據總個數 \(n\) 為頻率總和:\(n = \sum f\)。

1. 計算總頻率,\(n = \sum f\)。
2. 找出位置:\(\frac{n+1}{2}\)。
3. 利用累積頻率(頻率的遞加總和)定位該位置落在何處,對應的數值 \(x\) 即為中位數。

3.2 從頻率表計算平均數

如果得分 10 分出現了 5 次,我們不用做 \(10 + 10 + 10 + 10 + 10\),而是改計算 \(10 \times 5 = 50\)。公式會透過乘法來進行調整。

平均數公式(頻率表)

\[\bar{x} = \frac{\sum fx}{\sum f}\]

步驟:
1. 在表格中增加一欄叫 \(fx\)(數值 \(\times\) 頻率)。
2. 計算 \(fx\) 欄中的每一項。
3. 將 \(fx\) 欄加總(這就是 \(\sum fx\))。
4. 將頻率欄加總(這就是 \(\sum f\))。
5. 相除:\(\frac{\sum fx}{\sum f}\)。

例子: 分數 (x) 與頻率 (f)

x (分數)f (頻率)fx
133
2510
326
總計\(\sum f = 10\)\(\sum fx = 19\)

平均數 = \(\frac{19}{10} = 1.9\)

3.3 分組數據的估算平均值 (進階概念)

如果你的數據是以區間或分組呈現(例如:年齡 10-20, 20-30),你並不知道每一項的確切數值。因此,你只能計算平均值的 估算值

如果這看起來有點棘手,別擔心;底層概念與頻率表的平均數計算相同,只是多了一個關鍵步驟!

額外步驟:使用組中點

因為我們不知道精確數值,我們必須假設每一組的數值都集中在該組的正中間。我們使用該區間的 組中點 (midpoint, m) 作為代表數值 (\(x\))。

\[\text{組中點} (m) = \frac{\text{下邊界} + \text{上邊界}}{2}\]

分組數據的平均值估算公式

\[\text{估算平均值} = \frac{\sum fm}{\sum f}\]

步驟:
1. 計算每一組區間的 組中點 (m)
2. 增加一欄 \(fm\)(頻率 \(\times\) 組中點)。
3. 計算 \(fm\) 欄中的每一項。
4. 將 \(fm\) 欄加總 (\(\sum fm\))。
5. 將頻率欄加總 (\(\sum f\))。
6. 相除:\(\frac{\sum fm}{\sum f}\)。

例子: 身高 (cm) 與頻率 (f)

身高區間fm (組中點)fm
150 < h \(\leq\) 1605155775
160 < h \(\leq\) 170101651650
170 < h \(\leq\) 1805175875
總計\(\sum f = 20\)\(\sum fm = 3300\)

估算平均值 = \(\frac{3300}{20} = 165\) cm。

要避免的常見錯誤: 處理分組數據時,你只能找出 眾數組 (modal class),即頻率最高的那一組,而不是精確的眾數。你也不能找出精確的全距,只能找出最大可能的全距(最大組別上邊界 - 最小組別下邊界)。


第三部分重點總結: 使用頻率表時,務必將數值(或組中點)乘以頻率後再進行加總。最後一定要除以總頻率 (\(\sum f\))。