歡迎來到數據表示的世界!
你有沒有想過 Netflix 或 Spotify 這些公司是如何了解你的喜好的?答案就是數據!在 劍橋國際 AS Level 數學 (9709) 課程的這個章節中,我們將學習如何將雜亂無章的數據轉化為清晰、美觀的圖表。這不僅僅是為了畫圖,而是要讓數據「說話」,讓我們理解它們背後隱含的意義。如果數字讓你感到不知所措,請別擔心,我們會循序漸進地學習!
1. 莖葉圖 (Stem-and-Leaf Diagrams)
想像一下你有 20 位學生的考試成績,隨意列出來會讓人眼花繚亂。莖葉圖可以將這些數據整理好,同時保留原始數值。
運作原理:
「莖」代表首位數字,「葉」代表末位數字。
例子: 數字 45,莖為 4,葉為 5。
背對背莖葉圖 (Back-to-Back Stem-and-Leaf Diagrams):
當你想比較兩組數據(例如 A 班對比 B 班)時,你可以將「莖」放在中間,一組的「葉」放在左側,另一組則放在右側。
關鍵規則:一定要包含鍵值 (Key)!沒有鍵值(例如 \(4|5\) 代表 45),你的圖表就只是一堆令人困惑的數字。
重點總結:莖葉圖的優點在於它顯示了每一項數據,並且能輕鬆找出中位數 (median) 和眾數 (mode)。
2. 箱形圖 (Box-and-Whisker Plots)
如果你想要一份數據的「摘要」而不是查看每個點,請使用箱形圖。該圖表將你的數據分為四個等份(四分位數)。
「五數摘要」:
要繪製箱形圖,你需要五個數值:
1. 最小值(左側鬚線的末端)
2. 下四分位數 (\(Q_1\))(箱子的左側)
3. 中位數 (\(Q_2\))(箱子內的線)
4. 上四分位數 (\(Q_3\))(箱子的右側)
5. 最大值(右側鬚線的末端)
記憶小撇步:把「箱子」想像成數據的「中間 50%」,而「鬚線」則顯示極端值延伸的範圍。
3. 直方圖 (Histograms)
直方圖看起來像長條圖,但它們截然不同!在長條圖中,高度代表數值;但在直方圖中,長方形的面積才代表頻率。
重要點:我們使用直方圖處理連續數據(如身高、體重或時間),這些數據通常會分組。
頻率密度 (Frequency Density) 的秘訣:
如果各組的寬度(組距)不同,你不能直接在縱軸繪製頻率。你必須計算頻率密度 (FD):
\(FD = \frac{\text{頻率}}{\text{組距}}\)
直方圖繪製步驟:
1. 檢查組別是否有空隙(例如 10-14, 15-19)。若有,請使用組界(9.5-14.5, 14.5-19.5)。
2. 計算每一組的組距。
3. 計算每一組的頻率密度。
4. 在 y 軸繪製頻率密度,在 x 軸繪製數據區間。
類比:把頻率密度想像成「擁擠程度」。如果一個小房間擠了 10 個人,密度很高;但如果 10 個人在一個大會堂裡,密度就很低。
4. 累積頻率圖 (Cumulative Frequency Graphs)
這是一種「累積總數」的圖表。曲線通常會向上延伸,並形成一個平滑的「S」型。
如何使用:
1. 找出中位數:在 y 軸找到總頻率的一半處,向右移至曲線,再向下對應 x 軸數值。
2. 找出四分位數:\(Q_1\) 在總頻率的 25% 處;\(Q_3\) 在 75% 處。
3. 百分位數:你可以用同樣的方法找到任何百分位數(例如第 90 百分位數)。
常見錯誤:務必將累積頻率繪製在該組的上組界 (upper class boundary),而不是組中點!
5. 集中趨勢度量(「中間」的位置)
這些指標告訴我們數據的「中心」在哪裡。
- 平均值 (\(\bar{x}\)):所有數據加總後除以個數。\(\bar{x} = \frac{\sum x}{n}\)
- 中位數:將數據排序後處於中間的值。
- 眾數:出現頻率最高的值。
你知道嗎?平均值容易受「離群值 (outliers)」影響。如果比爾蓋茲走進一間教室,房間內的「平均」財富會飆升,但「中位數」財富幾乎不變!
6. 離散程度度量(「分散」的程度)
只知道中間值是不夠的,我們還需要知道數據的分散程度。
- 全距 (Range):最大值減最小值。(簡單,但易受離群值影響)。
- 四分位距 (IQR):\(Q_3 - Q_1\)。這代表中間 50% 數據的分散程度,能排除極端值的干擾。
- 標準差 (\(\sigma\)):衡量離散程度的「黃金標準」。它代表每個數據點與平均值的平均距離。
數學部分(別慌!):
標準差公式:
\(\sigma = \sqrt{\frac{\sum x^2}{n} - (\frac{\sum x}{n})^2}\)
或者使用平均值:\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)
複習小方塊:
- 標準差大 = 數據非常分散。
- 標準差小 = 數據很集中,且接近平均值。
7. 數據編碼 (Coded Data)
有時候數字很大(例如 1001, 1005, 1008)。為了簡化,我們透過減去一個常數來「編碼」(例如減去 1000,變成 1, 5, 8)。
技巧:
1. 如果你對每個數值加/減一個數:平均值會改變,但標準差保持不變!
類比:如果全班同學都站上一個 10 厘米的箱子,平均身高會增加 10 厘米,但最高和最矮同學之間的身高差依然相同。
2. 如果你對每個數值乘/除一個數:平均值和標準差都會同時乘/除該數。
關鍵總結:編碼只是一種簡化計算的捷徑,它不會改變數據分佈的「形狀」。
給你的成功秘訣
- 讀準刻度:在直方圖和累積頻率圖中,考官很喜歡設計複雜的刻度。務必檢查一個小格代表多少!
- 標註清楚:坐標軸、單位和鍵值都是很容易拿到的分數,千萬別丟失。
- 分組數據:計算分組數據的平均值時,請使用每一組的組中點 (midpoint) 作為 \(x\) 值。
你可以做到的!數據表示的核心就是找規律。多練習繪圖,你很快就能對數據分析駕輕就熟。