Data presentation for single variable - Mathematics B (MEI) - H640 - Cambridge OCR A Level

歡迎來到數據呈現的世界！

你有沒有想過，公司是如何決定哪種口味的薯片應該多入貨？醫生又是如何追蹤嬰兒的成長狀況的呢？這一切都始於數據呈現 (data presentation)。在這個章節中，我們不僅僅是處理一堆冷冰冰的數字，而是要學習如何將這些數字轉化為任何人都能讀懂的故事。

如果你以前覺得統計學很「枯燥」，請不用擔心——我們會把它拆解成簡單且直觀的步驟，讓你一眼就能看出數據背後的規律！

1. 基本構件：數據類型

在繪製任何圖表之前，我們必須先了解我們所使用的「磚塊」是什麼。在數學 B (MEI) 中，我們將數據分為四大類：

分類數據 (Categorical Data)： 這些是非數值的標籤。例如：眼睛顏色、汽車品牌或你最喜歡的披薩配料。
離散數據 (Discrete Data)： 只能取特定數值（通常是整數）的數值數據。這些數據是可以「數」出來的。例如：班級人數或一場比賽中的入球數。
連續數據 (Continuous Data)： 在一定範圍內可以取任何數值的數值數據。這些數據是透過「測量」獲得的。例如：你的身高、蘋果的重量或跑完 100 米所需的時間。
排名數據 (Ranked Data)： 已按順序排列或給予名次的數據。例如：比賽中的第一名、第二名和第三名。

快速複習： 如果你可以用「數」的，那通常是離散數據。如果你必須使用工具（如尺或秒錶）來「測量」，那通常是連續數據。

總結： 識別數據類型是選擇正確圖表的第一步。你總不會用直方圖來統計你最喜歡的顏色吧！

2. 未分組數據的可視化

當我們的數據沒有被歸入大型範圍（組別）時，我們通常會使用幾種標準圖表。以下是你需要掌握的類型：

條形圖 (Bar Charts) 與垂直線圖 (Vertical Line Charts)

這些非常適合分類數據或離散數據。在垂直線圖中，線段的高度代表頻數。 類比：你可以把條形圖想像成一排建築物；建築物越高，代表住在那裡的人（數據點）就越多！

點圖 (Dot Plots)

點圖與條形圖類似，但它使用堆疊的點來表示頻數。對於快速查看小型數據集的「形狀」非常有用。

圓形圖 (Pie Charts)

用於顯示整體中各部分的比例。 你知道嗎？ 要計算每個扇形的角度，請使用以下公式：\( \text{Angle} = \frac{\text{Frequency}}{\text{Total Frequency}} \times 360^\circ \)。

莖葉圖 (Stem-and-Leaf Diagrams)

這是一種能顯示每一筆數據，同時又能看出整體分佈形狀的巧妙方法。 記憶小撇步： 把圖表想像成植物。莖 (stem) 是主要部分（例如：「十位數」），而葉 (leaves) 則是生長出來的部分（「個位數」）。別忘了加上鍵值 (key)（例如：2 | 1 代表 21）！

總結： 這些圖表既保留了原始數據，又將其整理得井然有序，讓我們能輕鬆看出哪些數值最常見。

3. 直方圖 (Histograms)：宏觀視野

直方圖用於分組連續數據。它們看起來像條形圖，但有一個巨大的區別：長條的面積代表頻數，而不是高度！

這是大多數學生最容易弄錯的地方，請記住這個秘密公式：

\[ \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \]

操作步驟：如何處理直方圖
1. 找出組寬 (Class Width)（組別上限與下限之間的差值）。
2. 使用上述公式計算每組的頻數密度 (Frequency Density)。
3. 繪製坐標軸：x 軸為數據（例如：重量），y 軸必須標示為頻數密度。
4. 繪製長條。因為數據是連續的，所以長條之間不應留有空隙！

避免常見錯誤： 如果組寬不一致，切勿直接在 y 軸繪製頻數。如果你這樣做，較寬的長條看起來會比實際更重要，造成誤導！

總結： 在直方圖中，面積 = 頻數。如果一個長條的寬度是另一個的兩倍，但代表的數值相同，那麼它的高度就必須是另一條的一半。

4. 累積頻數 (Cumulative Frequency) 與箱形圖 (Box Plots)

有時候，我們想了解數據的「累計總和」，這就是累積頻數。

累積頻數圖

繪製時，你需要隨着組別不斷累加頻數。記得要在每個組別的上限 (upper bound) 繪點，並用平滑的 S 形曲線（稱為累加頻數曲線或 ogive）連接它們。

箱線圖 (Box-and-Whisker Diagrams / Box Plots)

這對於觀察數據的分散程度 (spread) 非常理想。箱線圖展示了五個關鍵數值：

最小值 (Minimum)： 數據中最小的數值。
下四分位數 (Lower Quartile, LQ)： 25% 的位置。
中位數 (Median)： 中間的數值（50% 的位置）。
上四分位數 (Upper Quartile, UQ)： 75% 的位置。
最大值 (Maximum)： 數據中最大的數值。

「箱子」代表中間 50% 的數據，而箱子的寬度即為四分位距 (Interquartile Range, IQR)，計算方式為 \( \text{UQ} - \text{LQ} \)。

總結： 累積頻數幫助我們找到中位數和四分位數，進而繪製箱線圖，方便我們比較不同的數據集。

5. 描述形狀（分佈）

圖表繪製完成後，你需要使用特定的數學術語來描述它：

單峰 (Unimodal)： 數據有一個明顯的「高峰」（一個眾數）。
雙峰 (Bimodal)： 數據有兩個明顯的高峰。類比：就像駱駝背上的兩個駝峰！
對稱 (Symmetrical)： 左側是右側的鏡像。
偏態 (Skewed)： 數據「傾斜」向某一側。

如何記憶偏態：

看看圖表的「尾巴」指向哪裡：
- 正偏態 (Positive Skew)： 「尾巴」指向右側（朝向正數方向）。大部分數據集中在低數值端。
- 負偏態 (Negative Skew)： 「尾巴」指向左側（朝向負數或較低數值方向）。大部分數據集中在高數值端。

如果不確定也不要緊！ 只要看「尾巴」在哪裡。如果圖表往右拖長，就是正偏態；如果往左拖長，就是負偏態。

總結： 描述分佈有助於我們理解數據是否平衡，還是嚴重向某一端「傾斜」。

6. 極端值 (Outliers) 與數據清理

有時候，數據會出現異常。極端值是指與其餘數據不一致的數據點。它可能是測量錯誤，也可能只是一個非常罕見的事件。

如何識別極端值（1.5 × IQR 規則）：
一個數值通常被視為極端值，如果它是：
- 高於上四分位數 \( 1.5 \times \text{IQR} \)。
- 低於下四分位數 \( 1.5 \times \text{IQR} \)。

另外，有時題目會規定：超出平均值 2 個標準差的數據即為極端值。

數據清理 (Cleaning Data)： 在進行最終分析之前，這是一個處理缺失值、錯誤，或決定是否保留或刪除極端值的過程。

重點提示： 務必尋找那些不符合規律的數值。它們可能是你數據中最有趣的部分，也可能是一個需要「清理」的錯誤！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。