歡迎來到數據視覺化的世界!
在本章中,我們將學習如何將雜亂無章的數字轉換成清晰、美觀的圖表。為什麼呢?因為相比於一長串的數據,我們的大腦更能輕易地從圖表中看出規律。無論你是透過人口金字塔來了解國家的未來,還是利用散點圖來觀察冰淇淋銷量是否隨溫度上升,這些工具都能幫助我們解讀這個世界。
如果有些圖表起初看起來有點複雜,不用擔心。我們會從基礎開始,逐步拆解,最後帶你掌握專業級的圖表繪製技巧!
1. 整理數據:表格與計數
在畫圖之前,我們必須先整理數據,這稱為製表 (tabulation)。
計數表與頻率分佈表
計數 (tally) 是一種在觀察時快速記錄數值的方法。針對每一項數據,畫一條小豎線,每到第五條時斜著劃過前四條(即「正」字計數法或「門」型計數法)。這樣能讓你以五個為一組,非常容易統計。
小貼士:務必再次檢查總頻率(所有計數的總和)是否與你最初擁有的數據數量一致!
雙向表 (Two-Way Tables)
有時候數據同時屬於兩個不同的類別。例如,「性別」與「運動選擇」。雙向表能顯示這些類別是如何重疊的。
例子:一張顯示班上男生與女生分別參與足球或欖球運動的人數統計表。你可以橫向讀取一個類別,縱向讀取另一個類別。
重點總結:
表格是所有統計學的基礎。如果表格做錯了,圖表也會跟著錯!請務必在行與列中包含總計 (totals)。
2. 簡單的圖象表示法
象形圖 (Pictograms)
象形圖使用符號或圖片來代表特定數量的項目。
重要:每個象形圖必須附有圖例 (key)。例如,一個圓圈 = 4 人。如果你只看到半個圓圈,就代表 2 人。
莖葉圖 (Stem and Leaf Diagrams)
這類圖表非常實用,因為它們既能整理數據,又能保留原始數字。
- 莖 (Stem) 是前面的位數。
- 葉 (Leaf) 是最後一位數。
關鍵步驟:最後呈現時,葉的部分必須按數值大小排序。你還需要提供一個圖例(例如:1 | 2 代表 12)。
3. 棒形圖 (Bar Charts):類別比較
棒形圖用於定性 (qualitative)(類別/文字)或離散 (discrete)(整數)數據。
1. 簡單棒形圖:每個類別對應一條柱。
2. 複式棒形圖:將不同組別(如「2022年」與「2023年」)的柱子並排,以便直接比較。
3. 合成(堆疊)棒形圖:一條柱被分成不同部分,以顯示整體的組成部分。百分比合成圖會將所有柱的高度調整至一致(100%),以便比較比例。
常見錯誤:忘記在棒形圖的柱子之間留空隙!(我們之後會提到的直方圖是沒有空隙的)。
4. 圓形圖 (Pie Charts):整體的一部分
圓形圖顯示總數是如何分配的。要繪製圓形圖,你需要計算每個「扇形」的圓心角。
公式: \( \text{圓心角} = \frac{\text{頻率}}{\text{總頻率}} \times 360^\circ \)
比較性圓形圖(高級程度)
當比較兩個不同總人口的數據時,我們不能只看圓心角。我們使用圓形的面積來代表總頻率。
如果組別 A 的總頻率是組別 B 的兩倍,那麼圓形 A 的面積也必須是圓形 B 的兩倍。
記憶小撇步:半徑與總數的平方根有關。
\( \frac{r_1}{r_2} = \sqrt{\frac{\text{Total}_1}{\text{Total}_2}} \)
5. 連續數據的呈現
直方圖 (Histograms)
直方圖看起來像棒形圖,但因為數據是連續的(例如時間或高度),所以沒有空隙。
基礎程度:你只需要了解組距相等 (equal class widths) 的直方圖。在這裡,柱的高度直接代表頻率。
高級程度(組距不等):當組別的大小不同時,我們在縱軸上使用頻率密度 (Frequency Density)。此時,柱子的面積代表頻率。
公式: \( \text{頻率密度} = \frac{\text{頻率}}{\text{組距}} \)
累積頻率圖 (Cumulative Frequency Diagrams)
這是一種「累積總和」圖。你將頻率隨著數值增加而累加起來。
- 務必將點繪製在組界上限 (upper class boundary) 上。
- 用平滑曲線或直線(多邊形)連接這些點。
- 它通常會形成一個「S」型!
箱形圖 (Box Plots / Box and Whisker)
這些圖表使用五個關鍵數值來概括數據:最小值、下四分位數 (LQ)、中位數、上四分位數 (UQ) 以及最大值。
- 「箱」的部分從 LQ 到 UQ。
- 「鬚」的部分延伸至最小值和最大值。
- 它們非常適合用來比較兩組不同數據集的分散程度。
6. 關係與趨勢
散點圖 (Scatter Diagrams)
用於雙變量數據 (bivariate data)(每個對象有兩個變量)。
- 解釋變量 (Explanatory variable)(可能引起變化的變量)放在 x 軸。
- 響應變量 (Response variable)(結果變量)放在 y 軸。
- 觀察相關性 (Correlation):正相關(兩者同時上升)、負相關(一個上升,另一個下降)或零相關(無規律)。
時間序列 (Time Series)
一種折線圖,其中 x 軸始終是時間。我們觀察趨勢 (trends)(總體方向)和季節性變化 (seasonal variations)(每天、每週或每年重複出現的規律)。
- 你可以憑眼力畫出趨勢線,或使用移動平均數 (moving averages) 來平滑數據中的「雜訊」。
7. 特殊呈現工具
人口金字塔 (Population Pyramids)
這是一種背對背的棒形圖,顯示人口的年齡和性別分佈。基部寬代表有很多新生兒(人口增長型);基部窄則代表人口老化。
等值區域圖 (Choropleth Maps)
地圖上不同的區域以不同的顏色或圖案陰影表示數值(例如人口密度)。通常顏色越深,數值越高。
8. 偏態 (Skewness):數據是否歪斜?
偏態告訴我們數據是否「堆積」在某一側。
正偏態 (Positive Skew):大多數數據集中在較低的一端(尾部指向右側)。
檢查: \( \text{平均值} > \text{中位數} > \text{眾數} \)
負偏態 (Negative Skew):大多數數據集中在較高的一端(尾部指向左側)。
檢查: \( \text{平均值} < \text{中位數} < \text{眾數} \)
高級程度公式: \( \text{偏度} = \frac{3(\text{平均值} - \text{中位數})}{\text{標準差}} \)
快速回顧:辨識錯誤的圖表
請務必檢查是否有「統計欺騙」或錯誤:
1. 截斷軸: y 軸不是從零開始,導致微小的差異看起來非常巨大。
2. 不均勻的刻度: 軸上的數值間距不等。
3. 3D 失真: 3D 圓形圖會使前面的扇形看起來比實際大得多。
4. 缺少標籤: 沒有標題,或軸上沒有單位。
你知道嗎? 「統計學」(Statistics) 這個詞源自拉丁語「Status」,意為「國家」,因為它最初是被政府用於記錄人口和稅收的!
如果覺得這些內容很多,不必擔心。你練習繪製和解讀這些圖表的次數越多,就會覺得越自然。記住:務必標註你的坐標軸,務必包含圖例,並始終留意刻度!