歡迎來到數據呈現的世界!
你有沒有想過,公司是如何決定哪種口味的薯片應該多入貨?醫生又是如何追蹤嬰兒的成長狀況的呢?這一切都始於數據呈現 (data presentation)。在這個章節中,我們不僅僅是處理一堆冷冰冰的數字,而是要學習如何將這些數字轉化為任何人都能讀懂的故事。
如果你以前覺得統計學很「枯燥」,請不用擔心——我們會把它拆解成簡單且直觀的步驟,讓你一眼就能看出數據背後的規律!
1. 基本構件:數據類型
在繪製任何圖表之前,我們必須先了解我們所使用的「磚塊」是什麼。在數學 B (MEI) 中,我們將數據分為四大類:
- 分類數據 (Categorical Data): 這些是非數值的標籤。例如:眼睛顏色、汽車品牌或你最喜歡的披薩配料。
- 離散數據 (Discrete Data): 只能取特定數值(通常是整數)的數值數據。這些數據是可以「數」出來的。例如:班級人數或一場比賽中的入球數。
- 連續數據 (Continuous Data): 在一定範圍內可以取任何數值的數值數據。這些數據是透過「測量」獲得的。例如:你的身高、蘋果的重量或跑完 100 米所需的時間。
- 排名數據 (Ranked Data): 已按順序排列或給予名次的數據。例如:比賽中的第一名、第二名和第三名。
快速複習: 如果你可以用「數」的,那通常是離散數據。如果你必須使用工具(如尺或秒錶)來「測量」,那通常是連續數據。
總結: 識別數據類型是選擇正確圖表的第一步。你總不會用直方圖來統計你最喜歡的顏色吧!
2. 未分組數據的可視化
當我們的數據沒有被歸入大型範圍(組別)時,我們通常會使用幾種標準圖表。以下是你需要掌握的類型:
條形圖 (Bar Charts) 與垂直線圖 (Vertical Line Charts)
這些非常適合分類數據或離散數據。在垂直線圖中,線段的高度代表頻數。 類比:你可以把條形圖想像成一排建築物;建築物越高,代表住在那裡的人(數據點)就越多!
點圖 (Dot Plots)
點圖與條形圖類似,但它使用堆疊的點來表示頻數。對於快速查看小型數據集的「形狀」非常有用。
圓形圖 (Pie Charts)
用於顯示整體中各部分的比例。 你知道嗎? 要計算每個扇形的角度,請使用以下公式:\( \text{Angle} = \frac{\text{Frequency}}{\text{Total Frequency}} \times 360^\circ \)。
莖葉圖 (Stem-and-Leaf Diagrams)
這是一種能顯示每一筆數據,同時又能看出整體分佈形狀的巧妙方法。 記憶小撇步: 把圖表想像成植物。莖 (stem) 是主要部分(例如:「十位數」),而葉 (leaves) 則是生長出來的部分(「個位數」)。別忘了加上鍵值 (key)(例如:2 | 1 代表 21)!
總結: 這些圖表既保留了原始數據,又將其整理得井然有序,讓我們能輕鬆看出哪些數值最常見。
3. 直方圖 (Histograms):宏觀視野
直方圖用於分組連續數據。它們看起來像條形圖,但有一個巨大的區別:長條的面積代表頻數,而不是高度!
這是大多數學生最容易弄錯的地方,請記住這個秘密公式:
\[ \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \]
操作步驟:如何處理直方圖
1. 找出組寬 (Class Width)(組別上限與下限之間的差值)。
2. 使用上述公式計算每組的頻數密度 (Frequency Density)。
3. 繪製坐標軸:x 軸為數據(例如:重量),y 軸必須標示為頻數密度。
4. 繪製長條。因為數據是連續的,所以長條之間不應留有空隙!
避免常見錯誤: 如果組寬不一致,切勿直接在 y 軸繪製頻數。如果你這樣做,較寬的長條看起來會比實際更重要,造成誤導!
總結: 在直方圖中,面積 = 頻數。如果一個長條的寬度是另一個的兩倍,但代表的數值相同,那麼它的高度就必須是另一條的一半。
4. 累積頻數 (Cumulative Frequency) 與箱形圖 (Box Plots)
有時候,我們想了解數據的「累計總和」,這就是累積頻數。
累積頻數圖
繪製時,你需要隨着組別不斷累加頻數。記得要在每個組別的上限 (upper bound) 繪點,並用平滑的 S 形曲線(稱為累加頻數曲線或 ogive)連接它們。
箱線圖 (Box-and-Whisker Diagrams / Box Plots)
這對於觀察數據的分散程度 (spread) 非常理想。箱線圖展示了五個關鍵數值:
- 最小值 (Minimum): 數據中最小的數值。
- 下四分位數 (Lower Quartile, LQ): 25% 的位置。
- 中位數 (Median): 中間的數值(50% 的位置)。
- 上四分位數 (Upper Quartile, UQ): 75% 的位置。
- 最大值 (Maximum): 數據中最大的數值。
總結: 累積頻數幫助我們找到中位數和四分位數,進而繪製箱線圖,方便我們比較不同的數據集。
5. 描述形狀(分佈)
圖表繪製完成後,你需要使用特定的數學術語來描述它:
- 單峰 (Unimodal): 數據有一個明顯的「高峰」(一個眾數)。
- 雙峰 (Bimodal): 數據有兩個明顯的高峰。類比:就像駱駝背上的兩個駝峰!
- 對稱 (Symmetrical): 左側是右側的鏡像。
- 偏態 (Skewed): 數據「傾斜」向某一側。
如何記憶偏態:
看看圖表的「尾巴」指向哪裡:
- 正偏態 (Positive Skew): 「尾巴」指向右側(朝向正數方向)。大部分數據集中在低數值端。
- 負偏態 (Negative Skew): 「尾巴」指向左側(朝向負數或較低數值方向)。大部分數據集中在高數值端。
如果不確定也不要緊! 只要看「尾巴」在哪裡。如果圖表往右拖長,就是正偏態;如果往左拖長,就是負偏態。
總結: 描述分佈有助於我們理解數據是否平衡,還是嚴重向某一端「傾斜」。
6. 極端值 (Outliers) 與數據清理
有時候,數據會出現異常。極端值是指與其餘數據不一致的數據點。它可能是測量錯誤,也可能只是一個非常罕見的事件。
如何識別極端值(1.5 × IQR 規則):
一個數值通常被視為極端值,如果它是:
- 高於上四分位數 \( 1.5 \times \text{IQR} \)。
- 低於下四分位數 \( 1.5 \times \text{IQR} \)。
另外,有時題目會規定:超出平均值 2 個標準差的數據即為極端值。
數據清理 (Cleaning Data): 在進行最終分析之前,這是一個處理缺失值、錯誤,或決定是否保留或刪除極端值的過程。
重點提示: 務必尋找那些不符合規律的數值。它們可能是你數據中最有趣的部分,也可能是一個需要「清理」的錯誤!