Representation and summary of data - Further Mathematics (XFM01) - Pearson Edexcel International AS Level

歡迎來到數據的呈現與摘要！

看著一大堆數字感到頭昏腦脹？別擔心，我們都曾經歷過！這一章將成為你的工具箱，幫助你將「數據混亂」轉化為清晰且有意義的觀點。無論你是在分析考試成績、天氣模式還是體育數據，這裡學到的技巧都能讓你像專業人士一樣視覺化並總結資訊。

為什麼這很重要？ 在現實世界中，「大數據」無處不在。企業正是利用這些方法來決定銷售哪些產品，醫生則利用它們來評估新藥的療效。學完這一章，你就能學會「說」數據的語言！

1. 數據視覺化：圖表會說話

有時候，一張圖表勝過一千個數字。我們在 S1 單元中主要使用三種圖表來觀察數據的「形態」。

A. 莖葉圖 (Stem and Leaf Diagrams)

將此視為將數字整理到「書架」上的方法。「莖」就像書架的分類（例如：十位數），而「葉」則是個別的項目（例如：個位數）。

關鍵點： 一定要包含圖例 (Key)！例如：圖例：2 | 5 代表 25。沒有圖例，你的圖表只是一堆令人困惑的數字。

現實類比： 想像你按顏色對衣服進行分類（莖），然後查看每一堆裡有多少雙襪子、襯衫和褲子（葉）。

B. 箱型圖 (Box Plots / Box-and-Whisker)

這對於並排比較兩組數據（例如兩支籃球隊的身高）非常有效。箱型圖顯示了五個關鍵數值：

最小值 (Minimum)。
下四分位數 (\(Q_1\))：25% 的標記點。
中位數 (\(Q_2\))：中間值（50% 的標記點）。
上四分位數 (\(Q_3\))：75% 的標記點。
最大值 (Maximum)。

C. 直方圖 (Histograms)

直方圖很特別。與長條圖不同，直方圖的面積代表頻數，而不是高度。我們將其用於連續數據（例如我們測量出來的時間或重量）。

黃金公式： \( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

常見錯誤： 如果組距 (Class Width) 不同，千萬不要直接在縱軸繪製頻數。一定要先計算頻數密度 (Frequency Density)！

快速回顧：
- 莖葉圖： 最適合查看每個個別數值。
- 箱型圖： 最適合比較數據的分佈範圍和中位數。
- 直方圖： 最適合展示測量數據的分佈情況。

2. 位置度量：尋找「中心」

數據的「位置」在哪裡？我們使用三個主要的「平均數」來找出答案。

三大主力：眾數、中位數和平均數

眾數 (Mode)： 出現最多次的數值。（最熱門的！）
中位數 (\(Q_2\))： 當數字按順序排列時中間的數值。如果有 \(n\) 個項目，位置在 \(\frac{n+1}{2}\)。
平均數 (\(\bar{x}\))： 「公平分配」的平均。將所有數值加總，然後除以項數。
公式：\( \bar{x} = \frac{\sum x}{n} \) 或針對分組數據：\( \bar{x} = \frac{\sum fx}{\sum f} \)。

理解編碼 (Coding)

如果剛開始覺得這很棘手，別擔心！編碼只是一種讓大數字變小、更容易處理的方法。我們使用類似 \( y = \frac{x - a}{b} \) 的公式來「編碼」數據。

簡單技巧：
- 如果你對每個數值加或減一個數，平均數也會隨之改變相同的量。
- 如果你對每個數值乘或除一個數，平均數也會隨之被乘或除。

例子： 如果平均氣溫是 20°C，我們將每個讀數增加 5°，新的平均值就是 25°C。很簡單吧！

重點： 平均數對數據集中的每一個數字都很敏感，而中位數只在乎中間的位置。

3. 離散度度量：數據有多「分散」？

兩組數據可能有相同的平均數，但看起來卻完全不同。離散度告訴我們數據是緊密聚集在一起，還是非常分散。

全距 (Range) 與四分位距 (IQR)

全距： 最大值減最小值。計算簡單，但容易受到一個極端大或極端小數值（離群值）的干擾。
四分位距： \( \text{IQR} = Q_3 - Q_1 \)。它告訴我們中間 50% 數據的分佈範圍。它可靠得多，因為它忽略了兩端的那些「奇怪」數值！

變異數 (Variance) 與標準差 (Standard Deviation)

這些是統計學的「重量級人物」。它們告訴我們數據點距離平均值的平均距離。

變異數 (\(\sigma^2\))： 「平方值的平均數減去平均數的平方」。
公式：\( \sigma^2 = \frac{\sum x^2}{n} - (\bar{x})^2 \)
標準差 (\(\sigma\))： 就是變異數的平方根！
公式：\( \sigma = \sqrt{\text{Variance}} \)

記憶小撇步： 對於變異數，記住「MS-SM」（Mean of the Squares minus Square of the Mean，平方值的平均減平均的平方）。這在考試中是救命稻草！

你知道嗎？ 標準差在金融領域被用來衡量「風險」。股票價格的高標準差意味著它是一個「顛簸的旅程」（高風險）！

4. 偏態與離群值

現在我們來看看數據的「性格」。它是平衡的，還是向一邊傾斜？

偏態 (Skewness)

想像數據分佈是一座小山。
- 正偏態 (Positive Skew)： 「尾巴」指向右邊（正向）。大多數數據聚集在低端。（想像：貧困地區裡的少數富人）。
- 負偏態 (Negative Skew)： 「尾巴」指向左邊（負向）。大多數數據聚集在高端。（想像：大多數學生都拿高分的簡單考試）。
- 對稱： 它看起來像一個完美的鐘形。平均數 \(\approx\) 中位數 \(\approx\) 眾數。

離群值 (Outliers)

離群值是一個比其餘數據大得多或小得多的「叛逆」數據點。在考試中，會給你一個找出它們的規則。
常見規則： 任何大於 \( Q_3 + 1.5 \times \text{IQR} \) 或小於 \( Q_1 - 1.5 \times \text{IQR} \) 的數值。
逐步操作：
1. 計算 \( \text{IQR} = Q_3 - Q_1 \)。
2. 將其乘以 1.5。
3. 將結果加到 \(Q_3\)（上限）並從 \(Q_1\) 中減去（下限）。
4. 落在這些邊界之外的任何點都是離群值！

關鍵提醒： 在繪製箱型圖的鬚線 (whiskers) 之前，請務必檢查離群值！鬚線通常在最後一個「正常」數據點停止，而離群值則用 'x' 標記。

最終總結清單

在繼續學習之前，確保你能：
- 為直方圖計算頻數密度。
- 從清單或表格中找出中位數和四分位數。
- 使用「平方值的平均減平均的平方」來計算變異數。
- 使用 \(1.5 \times \text{IQR}\) 規則辨識離群值。
- 解釋數據是正偏態還是負偏態。

你一定做得到的！多練習幾題關於編碼和直方圖的題目，因為那是本章最「棘手」的部分。祝你好運！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。