📊 數據的圖形表示:解讀數字的藝術

歡迎來到「數據展示」這一章!如果統計學有時讓你感到頭痛,別擔心——這一部分的重點在於將雜亂無章的數字清單,轉化為美觀且易於閱讀的圖表。當我們正確地將數據視覺化,規律便會一目了然,分析也會變得簡單得多。
在本節中,我們將學習如何針對不同類型的數據選擇最合適的圖表,以及如何正確地詮釋所呈現的資訊。讓我們開始吧!

1. 處理簡單及離散數據的圖表

離散數據 (Discrete data) 是指只能取特定數值的數據(例如你的兄弟姐妹人數,或鞋碼)。這類圖表通常很容易繪製。

1.1 長條圖與垂直線形圖

長條圖 (Bar Chart) 使用長方形條柱來顯示不同類別的頻數 (frequency)。

關鍵特徵:

  • 長條的高度代表頻數(某事物發生的次數)。
  • 長條之間通常有間隙 (gaps)。這正是它與直方圖最關鍵的區別!這些間隙強調了數據是離散或類別性的。
  • x 軸用於標示類別。

給學生的貼士:

如果數據純粹是數值型且為離散的(例如經過某地點的汽車數量),有時會使用垂直線形圖 (Vertical Line Graph)(或頻數圖),以幼細的線條取代長條。其背後的原則是一樣的。

1.2 圓形圖 (Pie Charts)

圓形圖用於顯示整體數量如何被劃分為不同的部分或類別,非常適合用來展示相對比例。

製作圓形圖的步驟:

  1. 找出總頻數 (Total Frequency)(數據集中的項目總數)。
  2. 計算每個類別的圓心角。由於完整圓形為 \(360^\circ\),角度與類別的頻數成正比。
  3. 公式:角度 \( = \frac{\text{頻數}}{\text{總頻數}} \times 360^\circ \)
  4. 畫出圓形,並使用量角器標示出計算出的角度。

常見錯誤:別忘了檢查所有計算出的角度總和是否剛好為 \(360^\circ\)!如果不是,代表計算出錯了。

1.3 莖葉圖 (Stem and Leaf Diagrams)

莖葉圖是一種非常優秀的數據展示方式,因為與長條圖不同,它保留了所有原始數據,同時又能呈現數據的分佈形態。

結構:

  • 莖 (Stem)(左側)放置較大的數位(例如十位數或百位數)。
  • 葉 (Leaf)(右側)放置最小的數位(通常是個位數)。
  • 葉必須永遠按升序排列(由小到大)。

黃金法則:圖例 (Key)
必須包含一個圖例來解釋莖與葉代表什麼。 例子:如果 2 | 5 代表 25,你必須寫上:圖例:2 | 5 = 25

快速回顧:離散數據

長條圖能清晰顯示類別(有間隙)。圓形圖顯示比例。莖葉圖則保留了原始數據。

2. 處理連續數據(分組頻數)

連續數據 (Continuous data) 是指在一個範圍內可以取任何數值的數據(例如身高、時間或體重)。當我們擁有大量連續數據時,會將其分組為類別區間 (class intervals)

2.1 直方圖 (Histograms)

直方圖專門用於顯示連續數據(通常是分組數據)。它們看起來與長條圖相似,但存在一個重大的概念差異。

關鍵差異:面積 vs. 高度
在長條圖中,高度即是頻數。但在直方圖中,長方形的面積才代表頻數

由於長條的寬度可能不同(類別區間不同),我們不能直接將頻數放在縱軸上,必須計算頻數密度 (Frequency Density)

直方圖公式(必須背誦!): $$ \text{頻數密度} = \frac{\text{頻數}}{\text{組寬}} $$

繪製直方圖的步驟:
  1. 計算每組的組寬 (Class Width)(\( \text{上限} - \text{下限} \))。
  2. 使用上述公式計算每組的頻數密度
  3. 將縱軸 (y 軸) 標示為頻數密度
  4. 畫出長方形。與長條圖不同,由於數據是連續的,長條之間沒有間隙
常見錯誤警告!

許多學生容易犯錯,將「頻數」放在直方圖的縱軸上。如果組寬不相等,千萬不要這樣做。你必須使用頻數密度

2.2 頻數多邊形 (Frequency Polygons)

頻數多邊形不過是展示直方圖或分組頻數表所含資訊的另一種方式。

繪製頻數多邊形的步驟:

  1. 找出每個類別區間的組中點 (Midpoint)
  2. 使用坐標 \((\text{組中點}, \text{頻數})\) 繪製點。
  3. 直線將這些點連接起來。

你知道嗎?為了使多邊形完整封閉並接觸坐標軸,我們通常會在開頭和結尾各加一個額外的組別(頻數為零)。這有助於更清晰地呈現數據的整體分佈形狀。

重點總結:直方圖

連續數據需要直方圖。縱軸是頻數密度,長方形面積等於頻數。沒有間隙!

3. 累積頻數與盒式圖

這些圖表能幫助我們找到分佈中的特定數值(如中位數或四分位數),特別是在處理大量分組連續數據時非常實用。

3.1 累積頻數曲線圖 (Ogive)

累積頻數 (Cumulative Frequency, CF) 是指頻數的「累積總和」。它告訴你總共有多少數據是小於或等於某個數值的。

繪製累積頻數曲線圖的步驟:
  1. 順序累加頻數,計算出累積頻數
  2. 使用坐標 \((\text{組上限}, \text{累積頻數})\) 繪製點。
  3. 從第一個組別的下限開始,且累積頻數為 0。
  4. 用平滑曲線將點連接(稱為 Ogive)。注意:它看起來應該像 S 形。

為什麼要用組上限?我們針對組上限進行繪圖,因為累積頻數告訴我們的是達到該點為止的總項目數。

解讀圖表:估算統計數據

如果 \(N\) 是總頻數,我們利用縱軸 (CF) 找出:

  • 中位數 (Median, Q2):找出對應縱軸上 \(\frac{N}{2}\) 的數值。
  • 下四分位數 (Lower Quartile, Q1):找出對應縱軸上 \(\frac{N}{4}\) 的數值。
  • 上四分位數 (Upper Quartile, Q3):找出對應縱軸上 \(\frac{3N}{4}\) 的數值。

四分位距 (Interquartile Range, IQR) 是衡量數據離散程度的指標,計算方式為: $$ IQR = Q3 - Q1 $$

3.2 盒式圖 (Box Plots / Box and Whisker Diagrams)

盒式圖是一種標準化的圖表,基於五個關鍵數字來展示數據的分佈。它非常適合用來並排比較兩組數據的分佈情況。

五數概括法 (Five-Number Summary)(必要的組成要素):

  1. 最小值 (Minimum Value)(最小的觀察值)
  2. 下四分位數 (Q1)(第 25 百分位數)
  3. 中位數 (Q2)(第 50 百分位數)
  4. 上四分位數 (Q3)(第 75 百分位數)
  5. 最大值 (Maximum Value)(最大的觀察值)

「盒子」本身由 Q1 延伸至 Q3,中位數畫在盒內。「鬚」則向外延伸至最小值和最大值。

盒式圖告訴我們什麼?

盒子的長度(即 IQR)告訴我們中間 50% 的數據分佈有多廣。盒子越短,代表中間部分的數據聚集得越緊密。

快速回顧:衡量離散程度的關鍵詞

全距 (Range): \( \text{最大值} - \text{最小值} \)
四分位距 (IQR): \( Q3 - Q1 \)
(IQR 比全距更能代表離散程度,因為它不會受到極端大值或小值的影響!)