歡迎來到數據呈現與分析!
嘿!準備好進入統計的世界了嗎?如果數字有時讓你感到頭昏腦脹,別擔心——這一章的重點就是如何解讀數據。你可以把數據想像成一個故事,而這一章就是要教你如何組織、視覺化並總結這個故事,讓每個人都能讀懂。
我們將會學習如何繪製圖表(如圓形圖),以及如何計算資料集的基本「平均值」(如平均數 Mean 和中位數 Median)和「離散程度」(如全距 Range)。這些技巧不僅對你的考試至關重要,在日常生活解讀周遭事物時也同樣重要!
第 1 部分:組織與呈現數據
1.1 頻數分佈表:整理事實
當你收集了大量的資訊時,第一步通常是將其整理成頻數分佈表(Frequency Table)。頻數(Frequency)簡單來說就是某件事發生的「次數」。
離散數據 vs. 分組數據
整理數據主要有兩種方式:
- 離散數據(Discrete Data): 只能取特定數值(通常是整數)的數據,例如寵物數量或鞋碼。表格會列出每一個特定的數值。
- 分組數據(Grouped Data): 將數據歸納到類別或組距(class intervals)中(例如:10 到 19 分鐘,20 到 29 分鐘)。當數據是連續的,或者數值種類太多無法逐一列出時,我們會使用分組數據。
分組數據的重要提示: 請仔細檢查區間定義。區間 \(10 \le x < 20\) 是否包含 10?是的。它包含 20 嗎?不包含。請務必確認邊界在哪裡!
符號 \(\sum\)(希臘字母大寫 Sigma)代表「總和」。因此,\(\sum f\) 代表「所有頻數的總和」。這數值永遠等於你所收集的數據總數。
1.2 數據視覺化:圖表
一圖勝千言!圖表能幫助我們快速看出規律。
A. 長條圖 (Bar Charts)
長條圖用於比較離散數據或類別的頻數。
- 長條的高度代表頻數。
- 長條之間必須有間隔(除非數據是連續且分類好的,那就會變成直方圖——但在標準的 IGCSE 離散數據中,請記得留空隙)。
- 坐標軸必須有清晰的標籤。
B. 圓形圖 (Pie Charts)
圓形圖顯示每個類別佔整體的比例(分數)。整個圓形(360 度)代表總頻數。
步驟說明:繪製圓形圖
- 找出總頻數 (\(\sum f\))。
- 計算每個類別的份額:\(\frac{\text{頻數}}{\text{總頻數}}\)。
- 將此份額轉換為角度: \[\n \text{角度} = \left( \frac{\text{頻數}}{\text{總頻數}} \right) \times 360^\circ\n \]
- 使用量角器繪製扇形。
例子:如果 50 名學生中有 10 人選擇數學,則角度為 \((10/50) \times 360^\circ = 72^\circ\)。
C. 莖葉圖 (Stem and Leaf Diagrams)
這是一種巧妙的方法,既能列出數據,又能保持條理並顯示數據分佈的形狀。
- 莖 (Stem) 存放首位數字(例如十位或百位數)。
- 葉 (Leaf) 存放末位數字(通常是個位數)。
關鍵規則: 務必確保「葉」按數值順序排列,並一定要包含圖例 (Key)!圖例告訴讀者這些數字代表什麼。例子:如果數據是 23, 27, 31,圖例可能會寫:\(2 | 3 = 23\)。
呈現數據的關鍵心得: 表格用於組織,圖表用於視覺化。請根據需求選擇正確的圖表(圓形圖用於比例,長條圖用於比較)。
第 2 部分:集中趨勢測量值(平均值)
集中趨勢測量值能提供一個單一數值,最能代表整個數據集的中心或典型數值。
2.1 眾數 (Mode)
眾數是出現次數最多的數值。
- 在頻數分佈表中,眾數是頻數最高的數值。
- 在分組數據中,我們找出眾數組(Modal Class)——即頻數最高的組別。我們無法找到確切的眾數,只能找到它最可能落入的組別。
類比: 想想時尚界。眾數就像是最流行的趨勢!
2.2 中位數 (Median)
中位數是將所有數據點按順序排列(從小到大)後的中間值。
步驟說明:尋找中位數
- 將數據排序(關鍵步驟!)。
- 使用公式找出中位數的位置:\(\frac{n + 1}{2}\),其中 \(n\) 為數據總個數。
- 順著已排序的數據數到該位置。
例子:若 \(n=9\),位置為 \((9+1)/2 = 5\)。中位數即第 5 個數值。
例子:若 \(n=10\),位置為 \((10+1)/2 = 5.5\)。中位數即第 5 個與第 6 個數值的中間值。
2.3 平均數 (Mean)
平均數的計算方式是將所有數值相加,然後除以數據總個數。
\[\n\text{平均數} = \frac{\text{所有數值的總和}}{\text{數據總個數}}\n\]在統計符號中,表示為: \[\n\text{平均數} = \frac{\sum x}{n}\n\]
從頻數分佈表計算平均數
如果你有頻數分佈表,不能只加總數值行。你需要考慮每個數值出現的次數。
\[\n\text{平均數} = \frac{\sum (x \times f)}{\sum f}\n\]步驟 1: 建立一個新的 \(x \times f\) 行(數值乘以頻數)。
步驟 2: 將此新行相加得到 \(\sum xf\)。
步驟 3: 除以總頻數 (\(\sum f\))。
估計平均數(適用於分組數據)
如果覺得這看起來很難,別擔心! 當數據分組後(例如年齡 10-20),我們不知道每個數據點的精確值,因此必須進行估計。
我們假設組內的所有數據點都集中在該組的組中點(Midpoint)。
步驟說明:估計平均數
- 找出每個組別的組中點 (x)。(組中點 = \(\frac{\text{下限} + \text{上限}}{2}\))。
- 將組中點乘以頻數 (\(x \times f\))。
- 將 \(xf\) 行相加 (\(\sum xf\))。
- 除以總頻數 (\(\sum f\))。
這是「估計值」,因為我們使用的是中點而非原始數據值。
Mode(眾數):Most often(出現最多次)
Median(中位數):Middle number(中間數,記得先排序!)
Mean(平均數):Mathematical average(數學平均值,需要計算)
集中趨勢的關鍵心得: 平均數通常最好用,但如果有極端值 (outliers) 可能會影響平均結果時,中位數會更可靠。
第 3 部分:離散程度測量值(數據的分散程度)
集中趨勢告訴我們中間在哪裡,但離散程度(或分散程度)告訴我們數據有多分散。分數是擠在一起,還是差異極大?
3.1 全距 (Range)
全距是最簡單的離散程度測量值。它告訴你最大值與最小值之間的差距。
\[\n\text{全距} = \text{最大值} - \text{最小值}\n\]你知道嗎? 全距對極端值非常敏感(一個非常大或非常小的數字)。如果一個人考了 100 分,其他人全考 10 分,全距就是 90,這無法準確描述分數的典型分佈。
3.2 四分位距 (Interquartile Range, IQR)
四分位距 (IQR) 衡量的是中間 50% 數據的分散程度。由於它忽略了極端值,因此比全距更穩健。
當你將數據排序後,可以用四分位數將其分為四個相等的部分:
- 下四分位數 (\(Q_1\)): 25% 位置的數值。它是數據下半部的中位數。
- 中位數 (\(Q_2\)): 50% 位置的數值。
- 上四分位數 (\(Q_3\)): 75% 位置的數值。它是數據上半部的中位數。
四分位距計算方式為:
\[\n\text{IQR} = Q_3 - Q_1\n\]尋找四分位數(位置法)
就像尋找中位數一樣,我們使用位置公式,其中 \(n\) 是數據總個數(記得先將數據排序!):
- \(Q_1\) 的位置: \(\frac{n}{4}\) 或 \(\frac{n+1}{4}\)(取決於具體的課程大綱解讀——我們通常對大數據集使用 \(\frac{n}{4}\),但務必核對你的數據計數)。
- \(Q_3\) 的位置: \(3 \times \frac{n}{4}\) 或 \(3 \times \frac{n+1}{4}\)。
實用提示: IGCSE 最簡單的方法通常是先找到中位數 (\(Q_2\))。然後,只看中位數以下的數字來找出 \(Q_1\)(下半部的中間),並只看中位數以上的數字來找出 \(Q_3\)(上半部的中間)。
例子:12 個數字的數據集。\(Q_1\) 是第 3 或第 4 個值。\(Q_3\) 是第 9 或第 10 個值。
常見錯誤: 在尋找 \(Q_1\) 和 \(Q_3\) 時,如果中位數本身就是一個原始數據點(即 \(n\) 為奇數),在將數據分為上下兩半時,不要包含該中位數。
離散程度的關鍵心得: 全距顯示了總變異,但 IQR 能更好地反映典型變異,且排除了極端值的干擾。
恭喜!你現在掌握了整理、呈現及分析基本統計數據的關鍵工具。記住,多做練習才能熟能生巧,也要記得複習那些位置公式喔!