簡介:什麼是平均值與分佈範圍,為什麼我們要學習它?
歡迎來到統計學章節!別擔心數字有時會讓你感到壓力——這一章的目標是透過幾個簡單的數字,將龐大且雜亂的數據清單進行總結。
這些用於總結的數字主要分為兩大類:
1. 平均值(集中趨勢的測量): 它們告訴你一組數據的「典型值」是什麼(例如:「這次測驗的平均分是 75%」)。
2. 分佈範圍(離散趨勢的測量): 它們告訴你數據的分散程度(例如:「分數範圍從 10% 到 100% 不等」)。
掌握這些概念能讓你分析並比較不同的數據集,這是現實生活中一項非常關鍵的技能!
第一部分:集中趨勢的測量(平均值)
當人們提到「平均值」時,通常指的就是「算術平均數(Mean)」。但在數學上,有三種主要的平均指標:算術平均數 (Mean)、中位數 (Median) 和 眾數 (Mode)。
1.1 眾數 (Mode) —— 最熱門的數字
眾數是最容易找到的平均指標,它簡單來說就是數據集中出現次數最多的數值。
關於眾數的重點:
- 它可用於非數值數據(例如:最喜歡的顏色或汽車類型)。
- 一個數據集可能 沒有眾數(如果所有數值都只出現一次),也可能有 兩個或多個眾數(雙峰分佈、多峰分佈)。
例子: 在鞋碼清單中:7, 8, 8, 9, 10, 10, 10, 11。
數字 10 出現了三次,比其他任何尺碼都多。
眾數 = 10
1.2 中位數 (Median) —— 正中間的數值
中位數是將數據按大小順序排列後,處於最中間的數值。它的優點在於不會受到極端值(離群值)的影響。
步驟:尋找個別數據的中位數
- 排列數據: 將所有數值由小到大排列。(如果你忘了這一步,答案就會錯!)
- 找出位置: 使用中位數位置公式:
\[\text{位置} = \frac{n+1}{2}\] 其中 \(n\) 是數據集中數值的總個數。 - 找出數值: 根據位置在已排序的清單中尋找實際的中位數。
情況 A:數據個數為奇數 (n 是奇數)
例子: 分數:5, 2, 8, 1, 4 (n=5)
1. 排序:1, 2, 4, 5, 8
2. 位置:\(\frac{5+1}{2} = 3\)。
3. 數值:第 3 個數值是 4。
中位數 = 4
情況 B:數據個數為偶數 (n 是偶數)
例子: 分數:10, 12, 16, 20 (n=4)
1. 排序:10, 12, 16, 20
2. 位置:\(\frac{4+1}{2} = 2.5\)。這代表中位數位於第 2 個與第 3 個數值的正中間。
3. 數值:中位數 = \(\frac{12+16}{2} = 14\)。
中位數 = 14
記憶小撇步: 中位數就像馬路上的「中央分隔帶(median strip)」一樣——它就是正中間的那條線!
1.3 算術平均數 (Mean) —— 標準平均值
算術平均數是最常用的平均值。計算方法是將所有數據值加總,然後除以數據的總個數。
算術平均數公式(個別數據)
\[\text{平均數} (\bar{x}) = \frac{\text{所有數值之和}}{\text{數值個數}}\]
使用數學符號(你應該要熟悉它): \[\bar{x} = \frac{\sum x}{n}\]
其中:
\(\sum x\)(讀作「sigma x」)代表「所有數據值的總和」。
\(n\) 代表數值的總個數。
例子: 測得的氣溫(單位:°C):20, 25, 22, 21
1. 數值總和 (\(\sum x\)):\(20 + 25 + 22 + 21 = 88\)
2. 數值個數 (\(n\)):4
3. 平均數:\(\frac{88}{4} = 22\)
平均數 = 22 °C
1.4 分辨平均指標的用途
為什麼我們需要三種平均指標?因為它們能告訴我們關於數據的不同訊息!
快速回顧:何時使用哪種平均指標
| 平均指標 | 用途/最佳使用情況... | 對離群值的敏感度 |
| 眾數 | 你需要最頻繁/最受歡迎的結果(例如:進貨尺碼)。最適合非數值數據。 | 無 |
| 中位數 | 數據包含 離群值(極端值)。它能給出一個不受極端值影響的可靠中心點(例如:房價)。 | 低(穩健) |
| 平均數 | 數據呈現對稱分佈且為數值型,且你需要將 所有 數據點納入計算(例如:科學實驗數據)。 | 高(敏感) |
你知道嗎? 如果你要計算一個小鎮的平均收入,而比爾·蓋茲突然搬進去,那裡的平均數收入會瞬間飆升,變得無法代表一般人的工資。這時,中位數收入反而更具代表性!
第一部分重點總結: 平均數、中位數和眾數都是描述數據中心位置的方法,但「平均數」是經計算得出,「中位數」看重位置,而「眾數」看重頻率。
第二部分:離散趨勢的測量(全距與四分位數)
平均值能告訴你中心在哪,但無法說明數字有多分散。為了有效地比較兩個數據集(課程大綱的要求),你需要使用「離散趨勢」的測量方式。
2.1 全距 (Range)
全距是最簡單的離散程度測量方式。它告訴你最大值與最小值之間的總距離。
全距公式
\[\text{全距} = \text{最大值} - \text{最小值}\]
例子: 分數:10, 45, 50, 52, 98
全距 = \(98 - 10 = 88\)
常見錯誤: 由於全距只使用兩個數值(最大值和最小值),它極易受到離群值的影響。如果那個 98 其實是 150,全距會急劇增加,儘管中間的分數根本沒變。
2.2 四分位數 (Quartiles) 與四分位距 (IQR)
為了獲得一個不受極端離群值影響的離散程度測量,我們使用 四分位數。四分位數將有序數據分為四個相等的等份。
理解四分位數
- \(Q_1\) (下四分位數): 數據下半部的中位數。25% 的數據小於此數值。
- \(Q_2\) (中位數): 即整體數據的中位數(50%)。
- \(Q_3\) (上四分位數): 數據上半部的中位數。75% 的數據小於此數值。
四分位距 (Interquartile Range, IQR)
四分位距 (IQR) 是中間 50% 數據的散佈範圍,它測量了上四分位數與下四分位數之間的距離。
四分位距公式
\[\text{IQR} = Q_3 - Q_1\]
尋找四分位數的位置:
雖然方法略有差異,但對於 IGCSE,如果你有 \(n\) 個個別數據,最簡單的方法是:
- \(Q_1\) 位置: \(\frac{1}{4} (n+1)\)
- \(Q_3\) 位置: \(\frac{3}{4} (n+1)\)
例子(尋找 IQR): 數據:10, 12, 15, 16, 18, 20, 25, 30, 35 (n=9)
(數據已排序)
1. 找出中位數 (\(Q_2\)):位置 \(\frac{9+1}{2} = 5\)。中位數 = 18。
2. 找出 \(Q_1\):位置 \(\frac{1}{4} (9+1) = 2.5\)。這位於第 2 個 (12) 與第 3 個 (15) 數值的正中間。
\[Q_1 = \frac{12+15}{2} = 13.5\]
3. 找出 \(Q_3\):位置 \(\frac{3}{4} (9+1) = 7.5\)。這位於第 7 個 (25) 與第 8 個 (30) 數值的正中間。
\[Q_3 = \frac{25+30}{2} = 27.5\]
4. 計算 IQR:
\[\text{IQR} = Q_3 - Q_1 = 27.5 - 13.5 = 14\]
類比: 將 IQR 想像成射箭的靶心。它測量最典型的半數數據集中程度,同時忽略了外圍的環數(離群值)。
第二部分重點總結: 全距測量總體跨度但易受離群值影響;四分位距 (IQR) 測量中間 50% 數據的離散程度,在比較數據集時更為可靠。
第三部分:頻率分佈表 (Frequency Tables) 的平均值
通常數據會以 頻率分佈表 呈現,顯示每個數值出現的頻率。在處理頻率時,計算平均值的方法會有些許不同。
3.1 從頻率表找出眾數與中位數
找出眾數
對於頻率表(其中 \(x\) 是數值,\(f\) 是頻率),眾數就是頻率 \(f\) 最高的那個數值 \(x\)。
找出中位數
處理頻率表時,數據總個數 \(n\) 為頻率總和:\(n = \sum f\)。
1. 計算總頻率,\(n = \sum f\)。
2. 找出位置:\(\frac{n+1}{2}\)。
3. 利用累積頻率(頻率的遞加總和)定位該位置落在何處,對應的數值 \(x\) 即為中位數。
3.2 從頻率表計算平均數
如果得分 10 分出現了 5 次,我們不用做 \(10 + 10 + 10 + 10 + 10\),而是改計算 \(10 \times 5 = 50\)。公式會透過乘法來進行調整。
平均數公式(頻率表)
\[\bar{x} = \frac{\sum fx}{\sum f}\]
步驟:
1. 在表格中增加一欄叫 \(fx\)(數值 \(\times\) 頻率)。
2. 計算 \(fx\) 欄中的每一項。
3. 將 \(fx\) 欄加總(這就是 \(\sum fx\))。
4. 將頻率欄加總(這就是 \(\sum f\))。
5. 相除:\(\frac{\sum fx}{\sum f}\)。
例子: 分數 (x) 與頻率 (f)
| x (分數) | f (頻率) | fx |
| 1 | 3 | 3 |
| 2 | 5 | 10 |
| 3 | 2 | 6 |
| 總計 | \(\sum f = 10\) | \(\sum fx = 19\) |
平均數 = \(\frac{19}{10} = 1.9\)
3.3 分組數據的估算平均值 (進階概念)
如果你的數據是以區間或分組呈現(例如:年齡 10-20, 20-30),你並不知道每一項的確切數值。因此,你只能計算平均值的 估算值。
如果這看起來有點棘手,別擔心;底層概念與頻率表的平均數計算相同,只是多了一個關鍵步驟!
額外步驟:使用組中點
因為我們不知道精確數值,我們必須假設每一組的數值都集中在該組的正中間。我們使用該區間的 組中點 (midpoint, m) 作為代表數值 (\(x\))。
\[\text{組中點} (m) = \frac{\text{下邊界} + \text{上邊界}}{2}\]
分組數據的平均值估算公式
\[\text{估算平均值} = \frac{\sum fm}{\sum f}\]
步驟:
1. 計算每一組區間的 組中點 (m)。
2. 增加一欄 \(fm\)(頻率 \(\times\) 組中點)。
3. 計算 \(fm\) 欄中的每一項。
4. 將 \(fm\) 欄加總 (\(\sum fm\))。
5. 將頻率欄加總 (\(\sum f\))。
6. 相除:\(\frac{\sum fm}{\sum f}\)。
例子: 身高 (cm) 與頻率 (f)
| 身高區間 | f | m (組中點) | fm |
| 150 < h \(\leq\) 160 | 5 | 155 | 775 |
| 160 < h \(\leq\) 170 | 10 | 165 | 1650 |
| 170 < h \(\leq\) 180 | 5 | 175 | 875 |
| 總計 | \(\sum f = 20\) | \(\sum fm = 3300\) |
估算平均值 = \(\frac{3300}{20} = 165\) cm。
要避免的常見錯誤: 處理分組數據時,你只能找出 眾數組 (modal class),即頻率最高的那一組,而不是精確的眾數。你也不能找出精確的全距,只能找出最大可能的全距(最大組別上邊界 - 最小組別下邊界)。
第三部分重點總結: 使用頻率表時,務必將數值(或組中點)乘以頻率後再進行加總。最後一定要除以總頻率 (\(\sum f\))。