簡介:為什麼要整理數據?
想像一下你正在統計 1,000 名學生的身高。如果有人問你:「你們學校的學生身高如何?」,你肯定不會把每一個測量結果都讀出來吧!相反地,你會使用幾個數字來描述整組數據。這就是平均數(measures of average)(用來顯示中心位置)和離差(measures of spread)(用來顯示變異程度)派上用場的時候。這些工具能幫助我們比較不同的數據集,並解讀這個世界,從天氣模式到考試成績,無一不可。
1. 平均數(集中趨勢)
「平均數」是一個單一數值,試圖透過識別數據中的中心位置來描述一組數據。在 H240 課程大綱中,你需要熟練掌握三種主要的類型。
平均值(Mean,\(\bar{x}\))
平均值是大多數人提到「平均」時所指的概念。計算方法是將所有數值相加,然後除以數值的總數。
公式: \(\bar{x} = \frac{\sum x}{n}\)
其中 \(\sum x\) 代表「所有數值的總和」,而 \(n\) 是數值的數量。
優點: 它運用了每一個數據點。
缺點: 它容易被一兩個極高或極低的數值(離群值)「拉偏」,從而遠離真正的中心。
中位數(Median)
中位數是將數據按順序排列後,處於正中間的數值。如果數據的數量是偶數,中位數就是中間兩個數值的平均值。
類比: 想像馬路中間的「中央分隔帶」(median strip)——它將道路精確地一分為二。
眾數(Mode)
眾數是出現次數最多的數值。你可以擁有超過一個眾數(雙峰或多峰),如果所有數值都是獨一無二的,則該組數據沒有眾數。
快速回顧:
- 平均值: 「平衡者」(將總量平均分配)。
- 中位數: 「中間點」(50% 的數據在其上,50% 在其下)。
- 眾數: 「受歡迎者」(出現頻率最高)。
2. 離差(變異程度)
平均數告訴我們中心在哪裡,但離差告訴我們數據的穩定性。身高的差異是都很接近,還是最矮與最高的學生之間有巨大的落差?
四分位數與四分位距(Inter-Quartile Range,IQR)
正如中位數將數據分成兩半,四分位數將數據分成四個等分。
- 下四分位數(\(Q_1\)): 第 25 個百分位數(即四分之一處)。
- 上四分位數(\(Q_3\)): 第 75 個百分位數(即四分之三處)。
- 四分位距(IQR): \(Q_3 - Q_1\)。
為什麼要用 IQR? 與全距(Range)不同,IQR 忽略了數據兩端的極端值,只關注中間的 50%。如果你的數據中包含奇怪的離群值,IQR 會可靠得多。
變異數與標準差(Standard Deviation,\(\sigma\))
標準差是 A Level 數學中衡量離差的「黃金標準」。它衡量的是每個數據點平均距離平均值有多遠。
標準差的「步驟」:
如果這看起來很複雜,別擔心!你的計算機會處理大部分繁重的計算,但你必須理解這個公式:
\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)
記憶小撇步: 一個常見的記憶方法是「平方根之(平方的平均減去平均的平方)」。
變異數(Variance): 這就是標準差的平方(\(\sigma^2\))。它是你在進行最後開根號運算「之前」的數值。
常見錯誤: 忘了在計算最後開根號!如果你的離差答案看起來比原始數據大得多,你很可能算成了變異數,而不是標準差。
3. 處理分組數據(Grouped Data)
有時數據以組別形式給出(例如:「5 名學生的身高在 140cm 到 150cm 之間」)。因為我們不知道確切的身高,我們使用每組的組中值(midpoint)作為 \(x\) 的估計值。
估計平均值: \(\bar{x} \approx \frac{\sum fx}{\sum f}\)
(將每個頻率 \(f\) 乘以其組中值 \(x\),相加後除以總頻率)。
估計標準差: \(\sigma \approx \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2}\)
你知道嗎? 因為我們使用了組中值,所以從分組數據中得出的任何計算結果都只是估計值,而不是精確值。
4. 離群值(Outliers)與數據清理
離群值是距離其他數據非常遙遠的點,它可能是一個誤差,也可能是一個非常罕見的案例。在 H240 課程中,識別離群值有兩條常用規則:
1. IQR 規則: 任何大於 \(Q_3 + 1.5 \times \text{IQR}\) 或小於 \(Q_1 - 1.5 \times \text{IQR}\) 的數值。
2. 標準差規則: 任何距離平均值超過 \(2\) 個標準差的數值。
數據清理: 這涉及到決定是否要移除離群值(如果是錯誤造成的)或者保留它們(如果是真實存在的極端案例)。
5. 比較分佈
當考試題目要求你「比較兩個分佈」時,你必須在語境下提及兩件事:
1. 比較平均數: 使用平均值或中位數。(例如:「A 班的中位數分數比 B 班高,說明他們平均表現較好。」)
2. 比較離差: 使用標準差或 IQR。(例如:「B 班的標準差較小,說明他們的成績更穩定。」)
關鍵總結:
- 高離差 = 數據不穩定。
- 低離差 = 數據穩定/可靠。
總結檢查清單
- 你會用計算機計算平均值和標準差嗎?(檢查你的說明書!)
- 你知道變異數和標準差之間的區別嗎?
- 你能使用 \(1.5 \times \text{IQR}\) 規則找出離群值嗎?
- 當比較數據時,你是否同時提到了平均數和離差?