歡迎來到數據視覺化的世界!

在本章中,我們將學習如何將雜亂無章的數字轉換成清晰、美觀的圖表。為什麼呢?因為相比於一長串的數據,我們的大腦更能輕易地從圖表中看出規律。無論你是透過人口金字塔來了解國家的未來,還是利用散點圖來觀察冰淇淋銷量是否隨溫度上升,這些工具都能幫助我們解讀這個世界。

如果有些圖表起初看起來有點複雜,不用擔心。我們會從基礎開始,逐步拆解,最後帶你掌握專業級的圖表繪製技巧!

1. 整理數據:表格與計數

在畫圖之前,我們必須先整理數據,這稱為製表 (tabulation)

計數表與頻率分佈表

計數 (tally) 是一種在觀察時快速記錄數值的方法。針對每一項數據,畫一條小豎線,每到第五條時斜著劃過前四條(即「正」字計數法或「門」型計數法)。這樣能讓你以五個為一組,非常容易統計。

小貼士:務必再次檢查總頻率(所有計數的總和)是否與你最初擁有的數據數量一致!

雙向表 (Two-Way Tables)

有時候數據同時屬於兩個不同的類別。例如,「性別」與「運動選擇」。雙向表能顯示這些類別是如何重疊的。

例子:一張顯示班上男生與女生分別參與足球或欖球運動的人數統計表。你可以橫向讀取一個類別,縱向讀取另一個類別。

重點總結:

表格是所有統計學的基礎。如果表格做錯了,圖表也會跟著錯!請務必在行與列中包含總計 (totals)

2. 簡單的圖象表示法

象形圖 (Pictograms)

象形圖使用符號或圖片來代表特定數量的項目。
重要:每個象形圖必須附有圖例 (key)。例如,一個圓圈 = 4 人。如果你只看到半個圓圈,就代表 2 人。

莖葉圖 (Stem and Leaf Diagrams)

這類圖表非常實用,因為它們既能整理數據,又能保留原始數字。
- 莖 (Stem) 是前面的位數。
- 葉 (Leaf) 是最後一位數。
關鍵步驟:最後呈現時,葉的部分必須按數值大小排序。你還需要提供一個圖例(例如:1 | 2 代表 12)。

3. 棒形圖 (Bar Charts):類別比較

棒形圖用於定性 (qualitative)(類別/文字)或離散 (discrete)(整數)數據。

1. 簡單棒形圖:每個類別對應一條柱。
2. 複式棒形圖:將不同組別(如「2022年」與「2023年」)的柱子並排,以便直接比較。
3. 合成(堆疊)棒形圖:一條柱被分成不同部分,以顯示整體的組成部分。百分比合成圖會將所有柱的高度調整至一致(100%),以便比較比例。

常見錯誤:忘記在棒形圖的柱子之間留空隙!(我們之後會提到的直方圖是沒有空隙的)。

4. 圓形圖 (Pie Charts):整體的一部分

圓形圖顯示總數是如何分配的。要繪製圓形圖,你需要計算每個「扇形」的圓心角。

公式: \( \text{圓心角} = \frac{\text{頻率}}{\text{總頻率}} \times 360^\circ \)

比較性圓形圖(高級程度)

當比較兩個不同總人口的數據時,我們不能只看圓心角。我們使用圓形的面積來代表總頻率。
如果組別 A 的總頻率是組別 B 的兩倍,那麼圓形 A 的面積也必須是圓形 B 的兩倍。
記憶小撇步:半徑與總數的平方根有關。
\( \frac{r_1}{r_2} = \sqrt{\frac{\text{Total}_1}{\text{Total}_2}} \)

5. 連續數據的呈現

直方圖 (Histograms)

直方圖看起來像棒形圖,但因為數據是連續的(例如時間或高度),所以沒有空隙

基礎程度:你只需要了解組距相等 (equal class widths) 的直方圖。在這裡,柱的高度直接代表頻率。

高級程度(組距不等):當組別的大小不同時,我們在縱軸上使用頻率密度 (Frequency Density)。此時,柱子的面積代表頻率。
公式: \( \text{頻率密度} = \frac{\text{頻率}}{\text{組距}} \)

累積頻率圖 (Cumulative Frequency Diagrams)

這是一種「累積總和」圖。你將頻率隨著數值增加而累加起來。
- 務必將點繪製在組界上限 (upper class boundary) 上。
- 用平滑曲線或直線(多邊形)連接這些點。
- 它通常會形成一個「S」型!

箱形圖 (Box Plots / Box and Whisker)

這些圖表使用五個關鍵數值來概括數據:最小值、下四分位數 (LQ)、中位數、上四分位數 (UQ) 以及最大值。
- 「箱」的部分從 LQ 到 UQ。
- 「鬚」的部分延伸至最小值和最大值。
- 它們非常適合用來比較兩組不同數據集的分散程度

6. 關係與趨勢

散點圖 (Scatter Diagrams)

用於雙變量數據 (bivariate data)(每個對象有兩個變量)。
- 解釋變量 (Explanatory variable)(可能引起變化的變量)放在 x 軸
- 響應變量 (Response variable)(結果變量)放在 y 軸
- 觀察相關性 (Correlation):正相關(兩者同時上升)、負相關(一個上升,另一個下降)或零相關(無規律)。

時間序列 (Time Series)

一種折線圖,其中 x 軸始終是時間。我們觀察趨勢 (trends)(總體方向)和季節性變化 (seasonal variations)(每天、每週或每年重複出現的規律)。
- 你可以憑眼力畫出趨勢線,或使用移動平均數 (moving averages) 來平滑數據中的「雜訊」。

7. 特殊呈現工具

人口金字塔 (Population Pyramids)

這是一種背對背的棒形圖,顯示人口的年齡和性別分佈。基部寬代表有很多新生兒(人口增長型);基部窄則代表人口老化。

等值區域圖 (Choropleth Maps)

地圖上不同的區域以不同的顏色或圖案陰影表示數值(例如人口密度)。通常顏色越深,數值越高。

8. 偏態 (Skewness):數據是否歪斜?

偏態告訴我們數據是否「堆積」在某一側。

正偏態 (Positive Skew):大多數數據集中在較低的一端(尾部指向右側)。
檢查: \( \text{平均值} > \text{中位數} > \text{眾數} \)

負偏態 (Negative Skew):大多數數據集中在較高的一端(尾部指向左側)。
檢查: \( \text{平均值} < \text{中位數} < \text{眾數} \)

高級程度公式: \( \text{偏度} = \frac{3(\text{平均值} - \text{中位數})}{\text{標準差}} \)

快速回顧:辨識錯誤的圖表

請務必檢查是否有「統計欺騙」或錯誤:
1. 截斷軸: y 軸不是從零開始,導致微小的差異看起來非常巨大。
2. 不均勻的刻度: 軸上的數值間距不等。
3. 3D 失真: 3D 圓形圖會使前面的扇形看起來比實際大得多。
4. 缺少標籤: 沒有標題,或軸上沒有單位。

你知道嗎? 「統計學」(Statistics) 這個詞源自拉丁語「Status」,意為「國家」,因為它最初是被政府用於記錄人口和稅收的!

如果覺得這些內容很多,不必擔心。你練習繪製和解讀這些圖表的次數越多,就會覺得越自然。記住:務必標註你的坐標軸,務必包含圖例,並始終留意刻度!