📊 數據的圖形表示:解讀數字的藝術
歡迎來到「數據展示」這一章!如果統計學有時讓你感到頭痛,別擔心——這一部分的重點在於將雜亂無章的數字清單,轉化為美觀且易於閱讀的圖表。當我們正確地將數據視覺化,規律便會一目了然,分析也會變得簡單得多。
在本節中,我們將學習如何針對不同類型的數據選擇最合適的圖表,以及如何正確地詮釋所呈現的資訊。讓我們開始吧!
1. 處理簡單及離散數據的圖表
離散數據 (Discrete data) 是指只能取特定數值的數據(例如你的兄弟姐妹人數,或鞋碼)。這類圖表通常很容易繪製。
1.1 長條圖與垂直線形圖
長條圖 (Bar Chart) 使用長方形條柱來顯示不同類別的頻數 (frequency)。
關鍵特徵:
- 長條的高度代表頻數(某事物發生的次數)。
- 長條之間通常有間隙 (gaps)。這正是它與直方圖最關鍵的區別!這些間隙強調了數據是離散或類別性的。
- x 軸用於標示類別。
給學生的貼士:
如果數據純粹是數值型且為離散的(例如經過某地點的汽車數量),有時會使用垂直線形圖 (Vertical Line Graph)(或頻數圖),以幼細的線條取代長條。其背後的原則是一樣的。
1.2 圓形圖 (Pie Charts)
圓形圖用於顯示整體數量如何被劃分為不同的部分或類別,非常適合用來展示相對比例。
製作圓形圖的步驟:
- 找出總頻數 (Total Frequency)(數據集中的項目總數)。
- 計算每個類別的圓心角。由於完整圓形為 \(360^\circ\),角度與類別的頻數成正比。
- 公式:角度 \( = \frac{\text{頻數}}{\text{總頻數}} \times 360^\circ \)
- 畫出圓形,並使用量角器標示出計算出的角度。
常見錯誤:別忘了檢查所有計算出的角度總和是否剛好為 \(360^\circ\)!如果不是,代表計算出錯了。
1.3 莖葉圖 (Stem and Leaf Diagrams)
莖葉圖是一種非常優秀的數據展示方式,因為與長條圖不同,它保留了所有原始數據,同時又能呈現數據的分佈形態。
結構:
- 莖 (Stem)(左側)放置較大的數位(例如十位數或百位數)。
- 葉 (Leaf)(右側)放置最小的數位(通常是個位數)。
- 葉必須永遠按升序排列(由小到大)。
黃金法則:圖例 (Key)
你必須包含一個圖例來解釋莖與葉代表什麼。
例子:如果 2 | 5 代表 25,你必須寫上:圖例:2 | 5 = 25。
快速回顧:離散數據
長條圖能清晰顯示類別(有間隙)。圓形圖顯示比例。莖葉圖則保留了原始數據。
2. 處理連續數據(分組頻數)
連續數據 (Continuous data) 是指在一個範圍內可以取任何數值的數據(例如身高、時間或體重)。當我們擁有大量連續數據時,會將其分組為類別區間 (class intervals)。
2.1 直方圖 (Histograms)
直方圖專門用於顯示連續數據(通常是分組數據)。它們看起來與長條圖相似,但存在一個重大的概念差異。
關鍵差異:面積 vs. 高度
在長條圖中,高度即是頻數。但在直方圖中,長方形的面積才代表頻數。
由於長條的寬度可能不同(類別區間不同),我們不能直接將頻數放在縱軸上,必須計算頻數密度 (Frequency Density)。
直方圖公式(必須背誦!): $$ \text{頻數密度} = \frac{\text{頻數}}{\text{組寬}} $$
繪製直方圖的步驟:
- 計算每組的組寬 (Class Width)(\( \text{上限} - \text{下限} \))。
- 使用上述公式計算每組的頻數密度。
- 將縱軸 (y 軸) 標示為頻數密度。
- 畫出長方形。與長條圖不同,由於數據是連續的,長條之間沒有間隙。
常見錯誤警告!
許多學生容易犯錯,將「頻數」放在直方圖的縱軸上。如果組寬不相等,千萬不要這樣做。你必須使用頻數密度。
2.2 頻數多邊形 (Frequency Polygons)
頻數多邊形不過是展示直方圖或分組頻數表所含資訊的另一種方式。
繪製頻數多邊形的步驟:
- 找出每個類別區間的組中點 (Midpoint)。
- 使用坐標 \((\text{組中點}, \text{頻數})\) 繪製點。
- 用直線將這些點連接起來。
你知道嗎?為了使多邊形完整封閉並接觸坐標軸,我們通常會在開頭和結尾各加一個額外的組別(頻數為零)。這有助於更清晰地呈現數據的整體分佈形狀。
重點總結:直方圖
連續數據需要直方圖。縱軸是頻數密度,長方形面積等於頻數。沒有間隙!
3. 累積頻數與盒式圖
這些圖表能幫助我們找到分佈中的特定數值(如中位數或四分位數),特別是在處理大量分組連續數據時非常實用。
3.1 累積頻數曲線圖 (Ogive)
累積頻數 (Cumulative Frequency, CF) 是指頻數的「累積總和」。它告訴你總共有多少數據是小於或等於某個數值的。
繪製累積頻數曲線圖的步驟:
- 順序累加頻數,計算出累積頻數。
- 使用坐標 \((\text{組上限}, \text{累積頻數})\) 繪製點。
- 從第一個組別的下限開始,且累積頻數為 0。
- 用平滑曲線將點連接(稱為 Ogive)。注意:它看起來應該像 S 形。
為什麼要用組上限?我們針對組上限進行繪圖,因為累積頻數告訴我們的是達到該點為止的總項目數。
解讀圖表:估算統計數據
如果 \(N\) 是總頻數,我們利用縱軸 (CF) 找出:
- 中位數 (Median, Q2):找出對應縱軸上 \(\frac{N}{2}\) 的數值。
- 下四分位數 (Lower Quartile, Q1):找出對應縱軸上 \(\frac{N}{4}\) 的數值。
- 上四分位數 (Upper Quartile, Q3):找出對應縱軸上 \(\frac{3N}{4}\) 的數值。
四分位距 (Interquartile Range, IQR) 是衡量數據離散程度的指標,計算方式為: $$ IQR = Q3 - Q1 $$
3.2 盒式圖 (Box Plots / Box and Whisker Diagrams)
盒式圖是一種標準化的圖表,基於五個關鍵數字來展示數據的分佈。它非常適合用來並排比較兩組數據的分佈情況。
五數概括法 (Five-Number Summary)(必要的組成要素):
- 最小值 (Minimum Value)(最小的觀察值)
- 下四分位數 (Q1)(第 25 百分位數)
- 中位數 (Q2)(第 50 百分位數)
- 上四分位數 (Q3)(第 75 百分位數)
- 最大值 (Maximum Value)(最大的觀察值)
「盒子」本身由 Q1 延伸至 Q3,中位數畫在盒內。「鬚」則向外延伸至最小值和最大值。
盒式圖告訴我們什麼?
盒子的長度(即 IQR)告訴我們中間 50% 的數據分佈有多廣。盒子越短,代表中間部分的數據聚集得越緊密。
快速回顧:衡量離散程度的關鍵詞
全距 (Range): \( \text{最大值} - \text{最小值} \)
四分位距 (IQR): \( Q3 - Q1 \)
(IQR 比全距更能代表離散程度,因為它不會受到極端大值或小值的影響!)