統計學第一章:平均值與離差測度
歡迎來到平均值與離差測度這一章!在統計學中,我們會收集大量數據,但原始數字通常雜亂無章。這一章將教你如何利用幾個關鍵數字來總結這些數據。
你可以把它想像成閱讀書評,而不是整本書:
- 平均值(平均數 Mean、中位數 Median、眾數 Mode)告訴你數據的「典型」或中心趨勢(故事的主要情節)。
- 離差測度(全距 Range、四分位距 IQR)告訴你數據的分散程度(角色或事件的變化有多大)。
第一節:集中趨勢測度(平均值)
三種主要的平均值(也稱為集中趨勢測度)是眾數、中位數和平均數。
1.1 眾數 (Mode)
眾數是數據集中出現次數最多的數值。
它是最容易找到的,且適用於任何類型的數據(甚至是像「最喜愛的顏色」這種非數值數據)。
如何找出眾數:尋找最高頻率(次數)。
例子:數據集:5, 8, 8, 10, 12。
眾數是 8。
重要提示:
- 數據集可以有多於一個眾數(雙眾數、多眾數等)。
- 如果所有數值只出現一次,則該組數據沒有眾數。
1.2 中位數 (Median)
中位數是將數據按大小順序排列後,位於中間位置的數值。
個別數據的步驟指南:
- 將數據排序(由小到大)。
- 計算數據總個數 \(n\)。
- 使用公式找出中位數的位置:位置 \( = \frac{n + 1}{2} \)。
- 找出該位置上的數值。
情況 1:數據個數為奇數 (n 為奇數)
例子:數據集:12, 5, 10, 8, 15。(\(n=5\))
1. 排列後的數據:5, 8, 10, 12, 15。
2. 位置:\(\frac{5 + 1}{2} = 3\)。
3. 中位數是第 3 個數值:10。
情況 2:數據個數為偶數 (n 為偶數)
例子:數據集:5, 8, 10, 12。(\(n=4\))
1. 位置:\(\frac{4 + 1}{2} = 2.5\)。這代表中位數位於第 2 個和第 3 個數值(8 和 10)之間。
2. 計算這兩個中間值的平均數來求得中位數:
中位數 \( = \frac{8 + 10}{2} = \mathbf{9}\)。
1.3 平均數 (Mean)
平均數是所有數值的總和除以數據的個數。它是最常見的平均值,代表數據的數學中心。
平均數公式 (\(\bar{x}\)):
$$ \bar{x} = \frac{\text{所有數值之和}}{\text{數據個數}} = \frac{\sum x}{n} $$
例子:數據集:5, 8, 10, 12。(\(n=4\))
$$ \bar{x} = \frac{5 + 8 + 10 + 12}{4} = \frac{35}{4} = \mathbf{8.75} $$
小貼士:如何選擇合適的平均值
不同的平均值在不同情況下各有優勢:
- 平均數:使用所有數據點。最適合數據分佈均衡時使用,但容易受到極端值 (outliers) 的影響(被拉高或拉低)。
- 中位數:不受極端值影響。適合數據偏態嚴重時使用(例如:樓價或薪水)。
- 眾數:最適合分類數據(例如:哪種鞋碼最暢銷)。
記憶口訣: Most Often(眾數)、Middle(中位數)、Mathematical average(平均數)。
第二節:離差測度(變異度)
離差測度告訴我們數據點之間的分散程度。兩組數據可能有相同的平均數,但如果一組的分散程度小,另一組的分散程度大,它們所反映的情況就截然不同!
2.1 全距 (Range)
全距是最簡單的離差測度。
公式:
$$ \text{全距} = \text{最大值} - \text{最小值} $$
例子:數據集:5, 8, 10, 12, 15。
全距 \( = 15 - 5 = \mathbf{10}\)。
缺點:全距完全取決於兩個極端值,這意味著它對極端值非常敏感。
2.2 四分位數與四分位距 (IQR)
為了得到更穩健的離差測度(即忽略極端值的測度),我們使用四分位數。四分位數將有序數據分成四個相等的部分。
四分位數:
- \(\mathbf{Q_1}\):下四分位數(25% 的數據小於此值)。這是下半部分的數據的中位數。
- \(\mathbf{Q_2}\):中位數(50% 的數據小於此值)。
- \(\mathbf{Q_3}\):上四分位數(75% 的數據小於此值)。這是上半部分的數據的中位數。
四分位距 (Interquartile Range, IQR) 用來衡量中間 50% 數據的分散程度。
IQR 公式:
$$ \text{IQR} = Q_3 - Q_1 $$
個別數據求四分位數的步驟
1. 將數據排序。
2. 找出中位數 (\(Q_2\))。
3. 此時數據被分成兩半(下半部和上半部)。
4. \(Q_1\) 是下半部數據的中位數。
5. \(Q_3\) 是上半部數據的中位數。
例子 1:數據集 (\(n=7\)):2, 4, 6, 8, 10, 12, 14
- \(Q_2\) (中位數):8
- 下半部(不含 8):2, 4, 6。\(Q_1\)(下半部中間值) = 4。
- 上半部(不含 8):10, 12, 14。\(Q_3\)(上半部中間值) = 12。
- IQR \( = 12 - 4 = \mathbf{8}\)。
例子 2:數據集 (\(n=8\)):1, 3, 5, 7, 9, 11, 13, 15
- \(Q_2\) (中位數):7 和 9 之間。\(Q_2 = 8\)。
- 下半部:1, 3, 5, 7。\(Q_1\)(3 和 5 的平均數) = 4。
- 上半部:9, 11, 13, 15。\(Q_3\)(11 和 13 的平均數) = 12。
- IQR \( = 12 - 4 = \mathbf{8}\)。
⚠ 常見錯誤警告 ⚠
計算四分位數時,請務必先將數據排序。如果遺漏這一步,所有的四分位數和中位數計算都會出錯!
第三節:使用頻數分佈表
當你有大量離散數據時,列出每一個數值是不切實際的。我們會使用頻數分佈表,其中 \(f\) 是頻數(該數值出現的次數),\(x\) 是數據值。
3.1 從頻數分佈表計算平均數、中位數和四分位數(離散數據)
1. 計算平均數:
我們不逐個相加 \(x\),而是使用總頻數 \(\sum f\) 和 (頻數 \(\times\) 數值) 的總和 \(\sum fx\)。
頻數分佈表的平均數公式:
$$ \bar{x} = \frac{\sum fx}{\sum f} $$
平均數計算步驟:
- 建立 \(fx\) 的列(將 \(f\) 乘以 \(x\))。
- 對 \(fx\) 列求和得到 \(\sum fx\)。
- 對 \(f\) 列求和得到 \(\sum f\)(這就是 \(n\))。
- 相除得出結果。
2. 計算中位數和四分位數:
同樣需要先找到位置:位置 \( = \frac{n + 1}{2}\)。
使用累計頻數(頻數的累計總和)在表格中定位該位置所屬的數值。
例子:若 \(\sum f = 50\)。
中位數位置:\(\frac{50 + 1}{2} = 25.5\)。我們要找包含第 25 個和第 26 個數據點的數值 \(x\)。
\(Q_1\) 位置:\(\frac{50 + 1}{4} \approx 12.75\)。我們要找包含第 13 個數據點的數值 \(x\)。
第四節:分組數據處理(進階內容)
有時數據會被分組到各個區間(例如:0-10, 10-20 等)。當數據分組後,我們失去了具體的原始值,因此我們只能計算平均值的估計值。
4.1 估計分組數據的平均數
因為我們不知道具體數值,我們假設區間內的所有數據點都位於該區間的組中點。
估計平均數步驟:
- 找出每個區間的組中點 (\(m\))。
$$ \text{組中點} = \frac{\text{下限} + \text{上限}}{2} $$ - 計算每個組的估計總和:\(fm\)(頻數 \(\times\) 組中點)。
- 使用平均數公式,將 \(x\) 替換為 \(m\):
$$ \text{估計平均數} = \frac{\sum fm}{\sum f} $$
你知道嗎? 你的圖形計算機 (GDC) 可以直接計算分組頻數數據的平均數,只需輸入組中點作為數據值,並輸入相應頻數即可。(課程大綱 C10.5/E10.5)
4.2 辨識眾數組
當數據分組後,我們無法找出準確的眾數,但我們可以找出眾數組。
眾數組就是具備最高頻率 (\(f\)) 的區間。
第五節:累計頻數(進階內容 E10.8)
累計頻數有助於我們快速找到分組數據的中位數和四分位數。
5.1 什麼是累計頻數?
累計頻數 (Cumulative Frequency, CF) 是頻數的累加總和。它告訴你截至某一特定區間結束時,數據的總個數。
例子:如果第 1 組的頻數是 10,第 2 組的頻數是 15,則第 2 組的 CF 為 \(10 + 15 = 25\)。
5.2 繪製與解讀累計頻數曲線(累積頻數多邊形/肩形圖)
累計頻數圖是繪製 CF 對數據值的圖表。
重要的繪圖規則:
你必須在縱軸繪製累計頻數,並在橫軸繪製區間的上限。
連接點時,應使用平滑曲線。(記得從第一組的下限且 CF 為 0 的位置開始畫)。
5.3 從累計頻數曲線估計平均值與離差測度
若 \(N\) 是總頻數,我們可以通過讀取圖表來估計關鍵數值:
1. 中位數 (\(Q_2\)):
位置:\(\frac{N}{2}\)。
求法:在 CF 軸上找到 \(\frac{N}{2}\),水平讀取至曲線,然後垂直向下讀取至橫軸。
2. 四分位數 (\(Q_1\) 和 \(Q_3\)):
\(Q_1\) 位置:\(\frac{N}{4}\)(即 \(N\) 的 25%)。
\(Q_3\) 位置:\(\frac{3N}{4}\)(即 \(N\) 的 75%)。
求法:從這些位置水平讀取至曲線,再垂直向下讀取至數據軸。
3. 四分位距 (IQR):
計算 \( \mathbf{IQR} = Q_3 - Q_1 \)。
4. 百分位數:
百分位數代表數據集中低於該數值的給定百分比的觀測值。
例子:要找出第 80 百分位數,找到 \(N\) 的 80% 位置:\(0.80 \times N\)。從該值水平讀取至曲線再向下對應即可。
重點總結:累計頻數
CF 曲線讓我們無須使用複雜的內插公式,就能估算中間值(中位數、四分位數、百分位數)。
- 永遠將 CF 繪製在上限對應的點上。
- 總數 \(N\) 對應 CF 軸上的最後一個點。
- 由 CF 曲線測得的 IQR 總是比全距更為可靠。