歡迎來到數據呈現 (Data Presentation) 的世界!

你有沒有想過,企業是如何從每天數以十億計的點擊次數中分析出意義的?又或者,科學家是如何證明一種新藥確實有效?這一切都始於數據呈現。在本章中,我們將學習如何將一堆雜亂無章的數字轉化為清晰、具象的故事。如果統計學讓你感覺與純數學(Pure Maths)有點「不同」,請別擔心;你可以將其視為一門用數字說真話的藝術。


1. 認識你的數據類型

在我們畫圖之前,必須先了解我們處理的是什麼樣的「數據」。數據並不單單指數字!

  • 類別數據 (Categorical Data):描述性的文字或標籤(例如:眼睛顏色:藍色、棕色、綠色)。
  • 排序數據 (Ranked Data):有順序性但並非測量結果的數據(例如:在比賽中獲得第 1、第 2 或第 3 名)。
  • 離散數據 (Discrete Data):數值數據,只能取特定數值——通常是你用「數」出來的東西(例如:寵物數量、入球數)。
  • 連續數據 (Continuous Data):數值數據,可以在一定範圍內取任何數值——通常是你用「量」出來的東西(例如:身高、時間、質量)。

比喻:想像一條樓梯。離散數據就像階梯——你只能站在第 1 級或第 2 級。連續數據則像斜坡——你可以在兩者之間的任何高度停留。

快速回顧:數據清單

類別:名稱/標籤
排序:順序/位置
離散:計數所得 (1, 2, 3...)
連續:測量所得 (1.527...)


2. 單變量數據的標準圖表

MEI 課程要求你識別並解讀幾種常見的圖表。讓我們拆解最常見的類型:

長條圖 (Bar Charts) vs. 直方圖 (Histograms)

它們看起來很像,但用途不同!長條圖用於類別數據或離散數據(條與條之間有間隙)。直方圖則用於連續數據(條與條之間沒有間隙)。

莖葉圖 (Stem-and-Leaf Diagrams)

這類圖表非常棒,因為它們既能顯示數據的分佈形態,又能保留原始數字。 例子:如果你有數字 21、23 和 35,「莖」(Stem) 就是十位數 (2, 3),而「葉」(Leaf) 就是個位數 (1, 3, 5)。記得一定要附上說明 (Key)

盒鬚圖 (Box-and-Whisker Diagrams / Box Plots)

這類圖表總結了五個關鍵數字:

  1. 最小值 (Minimum)
  2. 下四分位數 (Lower Quartile, \(Q_1\))
  3. 中位數 (Median, \(Q_2\))
  4. 上四分位數 (Upper Quartile, \(Q_3\))
  5. 最大值 (Maximum)
「盒」代表數據的中間 50%。如果盒子很寬,代表數據的分佈非常分散!

常見錯誤:忘記了如果存在極端值(Outliers),「鬚」(Whiskers) 並不一定會延伸到絕對的最大值或最小值!我們稍後會討論這個問題。


3. 掌握直方圖

在 GCSE 中,你可能只是觀察條形的高度。在 AS Level,你有一個金科玉律:面積與頻數成正比

我們在縱軸上使用頻數密度 (Frequency Density)。公式為: \( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

為什麼要這樣做?這讓我們能公平地比較不同分組的數據。想像一下「0-10 歲」和「11-80 歲」的組別。如果我們只使用頻數,那個巨大的年齡跨度會看起來人為地「變高」,只因為它涵蓋的人數更多。頻數密度則能平衡這種差距。

直方圖問題解題步驟:

  1. 檢查組寬 (Class Width)(每組之間的「間距」)。
  2. 計算每一行的頻數密度。
  3. 繪製長條,確保它們相連。
  4. 如果題目問某範圍內的人數,計算該部分長條的面積


4. 累積頻數 (Cumulative Frequency)

這是一個「累計總數」的圖表。你會隨著分組遞增將頻數相加。

  • 始終在組上限 (Upper Class Boundary)(即分組的末端)標繪點。
  • 曲線看起來應該像一個拉長的「S」形。
  • 你可以利用它來估算中位數(在 y 軸上找到總頻數的 50% 並向橫讀取)以及四分位數(25% 和 75% 的位置)。

5. 描述分佈形態 (Distributions)

當你看到圖表時,需要能夠用以下術語描述其「個性」:

  • 對稱 (Symmetrical):左側看起來像右側的鏡像。
  • 單峰 (Unimodal):只有一個明顯的頂峰(一個「眾數」)。
  • 雙峰 (Bimodal):兩個明顯的頂峰。
  • 偏態 (Skewed):數據的「尾巴」被拉向一側。

如何記憶偏態: 看看「尾巴」指向哪裡! - 如果長尾指向右方(指向更大的正數),則是正偏態 (Positively Skewed)。 - 如果長尾指向左方(指向更小的負數),則是負偏態 (Negatively Skewed)

口訣:「尾巴說明一切」(The tail tells the tale)。如果尾巴在正數一側,就是正偏態。


6. 雙變量數據與散點圖

雙變量數據 (Bivariate data) 指的是每個個體有兩個變量(例如:身高和體重)。我們將其繪製在散點圖 (Scatter Diagram) 上,以尋找關聯性 (Association)

相關性 vs. 因果關係

這是考試熱門話題! 相關性 (Correlation) 描述線性關係(正相關、負相關或無相關)。 然而,僅僅因為兩件事相關,並不代表一件事導致了另一件事。

例子:雪糕銷量與鯊魚襲擊次數呈正相關。難道吃雪糕會導致鯊魚襲擊嗎?當然不是!兩者都是由第三個因素引起的:炎熱的天氣。

迴歸線 (Regression Lines)

迴歸線(最佳擬合線)是一種在點陣中畫出一條線的數學方法。

  • 內插法 (Interpolation):在數據範圍「內」估算數值。這通常很可靠。
  • 外推法 (Extrapolation):在數據範圍「外」估算數值。這很危險,因為趨勢可能不會延續下去!

極端值 (Outliers)

極端值是指與其餘數據不一致的數據點。在散點圖上,找那些「脫離群體」的點。 在 MEI 課程中,你可以憑視覺識別它們,或使用規則:超出 \(1.5 \times \text{IQR}\) (四分位距) 的四分位數範圍,或者距離平均值 2 個標準差以上的點。


7. 成功的最終秘訣

你知道嗎?隨著樣本量增加,你的圖表(例如投擲硬幣的長條圖)將會越來越接近理論上的「真實」概率分佈。這就是為什麼科學家喜歡大樣本的原因!

重點總結:
  • 直方圖中:面積 = 頻數
  • 莖葉圖務必檢查說明 (Key)
  • 內插法很安全;外推法風險很高。
  • 相關性不等於因果關係
  • 圖表的尾巴顯示了偏態

如果一開始覺得術語很多,別擔心。一旦你開始畫圖,就會發現規律變得非常容易察覺!持續練習那些直方圖的面積計算吧——這是最容易踩的坑!