📊 歡迎來到直方圖(Histogram)的世界!
各位數學家好!這一章我們要介紹一種特殊的數據展示方式,叫做直方圖(Histogram)。如果你已經學過棒形圖(Bar Charts),可能會覺得它們看起來很像,但直方圖有一個關鍵的區別,這讓它成為處理大量連續數據(Continuous Data)時不可或缺的工具。
如果一開始覺得有點複雜,不用擔心。核心概念其實很簡單:面積(Area)。只要你理解了直方圖柱體的面積代表頻數(Frequency),一切就迎刃而解了!
引言重點
你將學會繪製及解讀直方圖,在直方圖中,柱體的「面積」(而不僅僅是高度)代表頻數。這在處理組距不相等的連續數據分組時至關重要。
1. 棒形圖 vs. 直方圖:為什麼會有區別?
在深入了解直方圖之前,我們先快速複習一下我們處理的數據類型:
-
離散數據(Discrete Data): 只能取特定、固定數值的數據(例如:兄弟姊妹的人數、鞋碼)。
棒形圖非常適合用於離散數據。 - 連續數據(Continuous Data): 在特定範圍內可以取任何數值的數據(例如:身高、時間、重量)。連續數據通常會分組處理。
什麼是直方圖?
直方圖(Histogram)是一種用於表示分組連續數據的統計圖表。
棒形圖的柱體之間有空隙(代表不同的類別或離散數值),而直方圖的柱體之間沒有空隙,以此表示數據的連續性。
關鍵區別:組距(Class Width)不相等
當我們將連續數據分組時,區間的大小(組的寬度)可能會不同。這些區間的大小稱為組距(Class Width)。
如果所有組距都相等,普通的棒形圖就能應付。但在現實生活(以及考試題目!)中,組距往往是不相等的。這時,直方圖的核心規則就派上用場了:
在直方圖中,柱體的面積(Area)與該組的頻數(Frequency)成正比。
想像一下測量學習時間(連續數據)。一組是 0-5 小時(組距 5),另一組是 5-25 小時(組距 20)。如果柱體的高度直接代表頻數,那麼 5-25 小時的那一組看起來會巨大得離譜,即便裡面的人數可能更少!我們利用面積來確保表現方式的公平性。
2. 計算:頻數密度(Frequency Density)
由於面積必須代表頻數,我們需要對縱軸進行特殊的計算。我們不能直接在 y 軸上繪製頻數,因為那樣會讓寬度較大的柱體看起來太過重要。
引入頻數密度(Frequency Density,簡稱 FD)
直方圖的縱軸稱為頻數密度(Frequency Density)。
FD 是一個指標,確保每個矩形柱體的面積能正確反映該組的頻數。
柱體的面積(頻數)計算方式為:
\( \text{Area} = \text{Class Width} \times \text{Height} \)
因此,高度(頻數密度)的計算方式為:
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)
逐步操作:從頻數表計算 FD
要繪製直方圖,首要任務是為每個組別計算 FD。
範例設定: 學生身高(cm)。
| 組別(身高,\( h \)) | 頻數 (F) | 1. 計算組距 (W) | 2. 計算頻數密度 (FD) |
|---|---|---|---|
| \( 150 < h \le 160 \) | 10 | \( 160 - 150 = 10 \) | \( \text{FD} = 10 / 10 = 1 \) |
| \( 160 < h \le 175 \) | 30 | \( 175 - 160 = 15 \) | \( \text{FD} = 30 / 15 = 2 \) |
| \( 175 < h \le 180 \) | 25 | \( 180 - 175 = 5 \) | \( \text{FD} = 25 / 5 = 5 \) |
💡 快速複習:為什麼 FD 在這裡很重要?
留意最後一組(\( 175 < h \le 180 \))的組距雖然小(5),但頻數密度卻很高(5)。這能確保它的面積(\( 5 \times 5 = 25 \))被正確表達,與第二組相比——第二組組距寬(15)但較扁平(FD=2),面積為 \( 15 \times 2 = 30 \)。
3. 繪製直方圖
要精確繪製直方圖,你需要根據連續數據和計算出的頻數密度正確設定座標軸。
繪圖指南步驟
-
確定組界(x 軸):
對於連續數據,確保柱體之間沒有間隙。組界對於確定組距(W)至關重要。如果表格寫的是 10-19 和 20-29,則需要修正組界以消除間隙(將組別變為 9.5 到 19.5,以及 19.5 到 29.5)。
提示:如果組別已經以數學方式定義(如 \( 150 < h \le 160 \)),組界即為 150 和 160。 -
設定座標軸:
- 橫軸 (x 軸): 必須標註變量(例如:身高、時間),並使用組界標記(150, 160, 175, 180 等)。確保刻度能涵蓋可能不相等的組距。
- 縱軸 (y 軸): 必須標註為頻數密度(Frequency Density)。刻度應涵蓋你計算出的最大 FD 值。
-
繪製柱體:
對於每一組:
- 柱體的寬度應對應 x 軸上的組距。
- 柱體的高度應精確對應該組計算出的頻數密度。
⚠️ 常見錯誤提醒:組界問題
如果你的數據經過四捨五入(例如年齡為整數:10-14, 15-19),請記得找出精確的邊界(組與組之間的中點)。14 和 15 之間的邊界是 14.5。因此,第一組的真實區間是 \( 9.5 \le \text{Age} < 14.5 \)。
4. 解讀直方圖:尋找頻數
最常見的考題是反向操作:利用圖表(面積)來求取頻數(該組中的數量)。
請記住基本關係:
\( \mathbf{\text{Frequency} = \text{Class Width} \times \text{Frequency Density}} \)
情況 1:求整個柱體的頻數
這很直觀。找到對應的柱體,從 x 軸讀出其寬度(組距),從 y 軸讀出其高度(FD),兩者相乘即可。
範例: 一個柱體範圍從 20 到 35(寬度 = 15)。高度(FD)為 4。
\( \text{Frequency} = 15 \times 4 = 60 \)。
情況 2:求部分柱體的頻數
有時題目會詢問某個範圍內的頻數,而該範圍只佔據了圖中柱體的「一部分」。你只需要計算該特定部分的面積。
逐步操作:求部分頻數
- 確定相關 FD: 讀出包含該區段的柱體高度(FD)。
- 計算所需的部分寬度: 確定你感興趣的那一部分的寬度。
- 計算頻數: 將 FD 乘以部分寬度。
範例: 一個柱體範圍從 10 到 30(FD = 2)。題目詢問 25 到 30 之間的頻數。
- 相關 FD = 2。
- 部分寬度 = \( 30 - 25 = 5 \)。
- 頻數 = \( 5 \times 2 = 10 \)。
情況 3:利用頻數求未知 FD(縮放問題)
如果題目給出了整組柱體的總頻數,但 FD 軸沒有標記數值,你可以利用已知的總面積來找出缺失的比例因子。
直方圖的總面積必須等於總頻數。
如果圖表顯示的總面積為 X,但你已知總頻數為 Y,那麼 FD 軸所需的比例因子就是 \( \frac{\text{實際總頻數 (Y)}}{\text{根據當前刻度計算的總面積 (X)}} \)。然後將此因子應用於 y 軸的刻度即可。
總結與快速檢查
你現在已經準備好挑戰直方圖了!記住以下重點:
- 直方圖用於分組連續數據。
- 面積 = 頻數。(這是最重要的規則!)
- 縱軸是頻數密度(Frequency Density)。
- 公式:\( \text{FD} = \frac{F}{W} \)(其中 F = 頻數,W = 組距)。
- 從直方圖讀取數據時,使用 \( F = W \times FD \)。
你知道嗎? 「直方圖(Histogram)」這個詞最早是由 Karl Pearson 在 1895 年提出的。他從希臘語中提取了 histos(意為「立起來的東西」,如柱體)和 gramma(意為「繪畫或記錄」)來為它命名。