歡迎來到數據表示的世界!

你有沒有想過 Netflix 或 Spotify 這些公司是如何了解你的喜好的?答案就是數據!在 劍橋國際 AS Level 數學 (9709) 課程的這個章節中,我們將學習如何將雜亂無章的數據轉化為清晰、美觀的圖表。這不僅僅是為了畫圖,而是要讓數據「說話」,讓我們理解它們背後隱含的意義。如果數字讓你感到不知所措,請別擔心,我們會循序漸進地學習!

1. 莖葉圖 (Stem-and-Leaf Diagrams)

想像一下你有 20 位學生的考試成績,隨意列出來會讓人眼花繚亂。莖葉圖可以將這些數據整理好,同時保留原始數值。

運作原理:

「莖」代表首位數字,「葉」代表末位數字。
例子: 數字 45,莖為 4,葉為 5。

背對背莖葉圖 (Back-to-Back Stem-and-Leaf Diagrams):

當你想比較兩組數據(例如 A 班對比 B 班)時,你可以將「莖」放在中間,一組的「葉」放在左側,另一組則放在右側。

關鍵規則:一定要包含鍵值 (Key)!沒有鍵值(例如 \(4|5\) 代表 45),你的圖表就只是一堆令人困惑的數字。

重點總結:莖葉圖的優點在於它顯示了每一項數據,並且能輕鬆找出中位數 (median)眾數 (mode)

2. 箱形圖 (Box-and-Whisker Plots)

如果你想要一份數據的「摘要」而不是查看每個點,請使用箱形圖。該圖表將你的數據分為四個等份(四分位數)。

「五數摘要」:

要繪製箱形圖,你需要五個數值:
1. 最小值(左側鬚線的末端)
2. 下四分位數 (\(Q_1\))(箱子的左側)
3. 中位數 (\(Q_2\))(箱子內的線)
4. 上四分位數 (\(Q_3\))(箱子的右側)
5. 最大值(右側鬚線的末端)

記憶小撇步:把「箱子」想像成數據的「中間 50%」,而「鬚線」則顯示極端值延伸的範圍。

3. 直方圖 (Histograms)

直方圖看起來像長條圖,但它們截然不同!在長條圖中,高度代表數值;但在直方圖中,長方形的面積才代表頻率。

重要點:我們使用直方圖處理連續數據(如身高、體重或時間),這些數據通常會分組。

頻率密度 (Frequency Density) 的秘訣:

如果各組的寬度(組距)不同,你不能直接在縱軸繪製頻率。你必須計算頻率密度 (FD)
\(FD = \frac{\text{頻率}}{\text{組距}}\)

直方圖繪製步驟:
1. 檢查組別是否有空隙(例如 10-14, 15-19)。若有,請使用組界(9.5-14.5, 14.5-19.5)。
2. 計算每一組的組距
3. 計算每一組的頻率密度
4. 在 y 軸繪製頻率密度,在 x 軸繪製數據區間。

類比:把頻率密度想像成「擁擠程度」。如果一個小房間擠了 10 個人,密度很高;但如果 10 個人在一個大會堂裡,密度就很低。

4. 累積頻率圖 (Cumulative Frequency Graphs)

這是一種「累積總數」的圖表。曲線通常會向上延伸,並形成一個平滑的「S」型。

如何使用:

1. 找出中位數:在 y 軸找到總頻率的一半處,向右移至曲線,再向下對應 x 軸數值。
2. 找出四分位數:\(Q_1\) 在總頻率的 25% 處;\(Q_3\) 在 75% 處。
3. 百分位數:你可以用同樣的方法找到任何百分位數(例如第 90 百分位數)。

常見錯誤:務必將累積頻率繪製在該組的上組界 (upper class boundary),而不是組中點!

5. 集中趨勢度量(「中間」的位置)

這些指標告訴我們數據的「中心」在哪裡。

  • 平均值 (\(\bar{x}\)):所有數據加總後除以個數。\(\bar{x} = \frac{\sum x}{n}\)
  • 中位數:將數據排序後處於中間的值。
  • 眾數:出現頻率最高的值。

你知道嗎?平均值容易受「離群值 (outliers)」影響。如果比爾蓋茲走進一間教室,房間內的「平均」財富會飆升,但「中位數」財富幾乎不變!

6. 離散程度度量(「分散」的程度)

只知道中間值是不夠的,我們還需要知道數據的分散程度。

  • 全距 (Range):最大值減最小值。(簡單,但易受離群值影響)。
  • 四分位距 (IQR):\(Q_3 - Q_1\)。這代表中間 50% 數據的分散程度,能排除極端值的干擾。
  • 標準差 (\(\sigma\)):衡量離散程度的「黃金標準」。它代表每個數據點與平均值的平均距離。

數學部分(別慌!):

標準差公式:
\(\sigma = \sqrt{\frac{\sum x^2}{n} - (\frac{\sum x}{n})^2}\)
或者使用平均值:\(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

複習小方塊:
- 標準差大 = 數據非常分散。
- 標準差小 = 數據很集中,且接近平均值。

7. 數據編碼 (Coded Data)

有時候數字很大(例如 1001, 1005, 1008)。為了簡化,我們透過減去一個常數來「編碼」(例如減去 1000,變成 1, 5, 8)。

技巧:

1. 如果你對每個數值加/減一個數:平均值會改變,但標準差保持不變!
類比:如果全班同學都站上一個 10 厘米的箱子,平均身高會增加 10 厘米,但最高和最矮同學之間的身高差依然相同。
2. 如果你對每個數值乘/除一個數:平均值標準差都會同時乘/除該數。

關鍵總結:編碼只是一種簡化計算的捷徑,它不會改變數據分佈的「形狀」。

給你的成功秘訣

- 讀準刻度:在直方圖和累積頻率圖中,考官很喜歡設計複雜的刻度。務必檢查一個小格代表多少!
- 標註清楚:坐標軸、單位和鍵值都是很容易拿到的分數,千萬別丟失。
- 分組數據:計算分組數據的平均值時,請使用每一組的組中點 (midpoint) 作為 \(x\) 值。

你可以做到的!數據表示的核心就是找規律。多練習繪圖,你很快就能對數據分析駕輕就熟。