Representation and summary of data - Further Mathematics (YFM01) - Pearson Edexcel International A Level

歡迎來到單元 S1：數據的表示與摘要！

你好，未來的統計學家！本章是你統計學領域的基石。我們將不再僅僅是瀏覽數字，而是學習如何整理、視覺化並總結龐大的數據集，從而得出有意義的結論。把自己想像成一位數據偵探吧！

如果有些術語乍看之下令人望而生畏，請別擔心。我們會透過簡單的步驟和現實生活中的例子，為你拆解每一個概念，從繪製棘手的直方圖到計算標準差。讓我們開始吧！

1. 理解數據：類型與收集

1.1 變數類型

當我們收集數據時，需要對其進行分類。變數就是我們所測量的特徵。

數量數據 (Quantitative Data)：涉及數字（數值）的數據。

離散數據 (Discrete Data)：只能取特定、固定值（通常為整數）的數據。它通常涉及「點算」。
例子：經過學校的汽車數量（你不可能有 2.5 輛車）。
連續數據 (Continuous Data)：可以在給定範圍內取任何值的數據。它通常涉及「測量」。
例子：身高、體重或溫度。

定性數據 (Qualitative Data / Categorical)：描述性質或類別的數據，而非以數值測量。

例子：頭髮顏色、車型或最喜歡的雪糕口味。（雖然這些也很重要，但 S1 主要集中在數量數據上。）

✅ 快速提示：離散與連續

如果你需要用「數」的，那就是離散。如果你需要用儀器來「測量」（並且理論上可以添加更多小數位），那就是連續。

1.2 數據收集方法：普查與抽樣

我們如何獲取所需的數據呢？

普查 (Census)：普查是對群體中每一個成員進行觀察或測量。
優點：結果非常準確（真實參數）。
缺點：耗時、昂貴，且通常不切實際或不可能執行。
抽樣 (Sample)：抽樣是對群體的子集進行觀察或測量。
優點：執行速度快、成本低且較容易進行。
缺點：可能無法完美反映群體特徵（結果為估算值）。

重點：了解數據類型（離散/連續）至關重要，因為它決定了你必須使用哪種圖表（例如直方圖）或計算方法。

2. 數據的視覺化表示

數據收集後，需要清晰地展示出來。我們將重點介紹 S1 中使用的三種主要圖表。

2.1 莖葉圖 (Stem and Leaf Diagrams)

這是快速查看小型數據集形狀並保留原始數值的絕佳工具。

結構：「莖」代表較大的位值（例如十位數或百位數），而「葉」代表最後一位數字。
規則：葉必須按數值順序排列，且必須包含圖例 (Key)。
例子圖例：4 | 7 代表 47。
背對背莖葉圖 (Back-to-Back Stem and Leaf)：用於並排比較兩個數據集，共用一個中央莖。

2.2 箱線圖 (Box Plots / Box and Whisker Diagrams)

箱線圖顯示了數據的分佈情況，並有助於識別極端值。它是使用五數概括 (Five-Number Summary) 構建的。

五數概括包括：

最小值（左側觸鬚的末端）
下四分位數 ($Q_1$)（箱子的起點 - 25% 的數據低於此值）
中位數 ($Q_2$)（箱內的線 - 50% 的數據低於此值）
上四分位數 ($Q_3$)（箱子的終點 - 75% 的數據低於此值）
最大值（右側觸鬚的末端）

無論看起來有多寬，每個部分（觸鬚或箱子的區段）都代表了 25% 的數據。

2.3 直方圖：面積法則

這通常是最棘手的表達方式。直方圖用於連續數據，特別是在組距（組寬）不相等時。

關鍵區別：與條形圖（高度代表頻數）不同，在直方圖中，長條的面積才代表頻數。

這意味著我們不能簡單地將頻數繪製在組距上。我們必須計算縱軸的頻數密度 (Frequency Density)。

公式警示！

$$ \text{頻數密度} = \frac{\text{頻數}}{\text{組寬}} $$

繪製直方圖的步驟指南：

在頻數表中增加一列用於計算組寬（上限 – 下限）。
使用上述公式增加一列計算頻數密度。
將頻數密度繪製在縱軸（y軸）。
將組界繪製在橫軸（x軸）。
繪製長條。請記住，長條之間不應有間隙（因為數據是連續的）。

常見錯誤：將頻數密度與頻數混淆。如果題目要求從直方圖找出頻數，你必須計算：
$$ \text{頻數} = \text{頻數密度} \times \text{組寬} $$

你知道嗎？如果所有組寬相等，直方圖的形狀看起來會與簡單的頻數圖完全一樣。統計學家通常只在組寬不相等時才使用直方圖。

重點：對於直方圖，面積 = 頻數。務必在 y 軸上使用頻數密度，特別是在組寬不相等時。

3. 集中趨勢測度（平均值）

集中趨勢測量的是數據集的「中間」或「典型」數值所在的位置。

3.1 眾數、中位數和平均值

我們主要使用三種平均值：

眾數 (Mode)：出現最頻繁的數值。
最適用於：定性數據，或描述最受歡迎的項目。
中位數 ($Q_2$)：將數據按升序排列後的中間值。
中位數位置：如果 $n$ 是數據點的數量，中位數位於 $(\frac{n+1}{2})$ 的位置。
最適用於：包含極端值（離群值）的數據，因为它比平均值受到的影響更小。
平均值 ($\bar{x}$)：所有數值之和除以數值個數。它是最常用的平均值。
原始數據公式： $$ \bar{x} = \frac{\sum x}{n} $$
最適用於：沒有極端離群值的對稱數據。

3.2 分組數據的估算測度

當數據以包含組距（例如 10-20, 20-30）的頻數表呈現時，我們無法得知確切數值，因此必須估算平均值和中位數。

估算平均值

要從分組數據計算平均值，我們假設組內的所有數值都由該組的組中點 ($m$) 代表。

$$ \bar{x} \approx \frac{\sum (m \times f)}{\sum f} $$ 其中 $m$ 是組中點，$f$ 是頻數。

估算中位數（線性插值法）

對於分組連續數據，我們使用線性插值法 (Linear Interpolation) 來估算中位數 ($Q_2$) 和其他四分位數 ($Q_1, Q_3$)。

插值概念：我們假設數據均勻分佈在包含中位數的組別中。我們定位中位數的位置（取決於具體書籍方法，通常為 $\frac{n}{2}$ 或 $\frac{n+1}{2}$，對於分組連續數據通常取 $\frac{n}{2}$），並透過比例關係求出其對應數值。

類比：如果你知道有 50 人身高在 10m 到 20m 之間，而中位數是第 25 個人，那麼中位數就位於 10 和 20 的正中間（即 15m）。插值法將此過程正規化。

重點：平均值使用了每個數據點，但對離群值敏感。中位數忽略了離群值，但需要排列數據。對於分組數據，結果是使用組中點（平均值）或插值法（四分位數）得到的估算值。

4. 離散程度測度（散佈度）

離散程度測量數據的分散程度。兩個數據集可能有相同的平均值，但其分散程度卻大相徑庭！

4.1 全距與四分位距 (IQR)

全距 (Range)：最高值與最低值之間的差額。 $$ \text{全距} = \text{最大值} - \text{最小值} $$
問題：對離群值高度敏感。
四分位距 (IQR)：上四分位數 ($Q_3$) 與下四分位數 ($Q_1$) 之間的差額。 $$ \text{IQR} = Q_3 - Q_1 $$
優點：描述了中間 50% 數據的分散程度，且不受離群值影響。

4.2 方差與標準差

這是最強大的分散度測量方式，因為它們考慮了每一個數據點與平均值的距離。

方差 ($\sigma^2$)：離均差平方的平均值。

標準差 ($\sigma$)：方差的平方根。它更受青睞，因為它與原始數據具有相同的單位。

小的標準差意味著數據緊密聚集在平均值周圍。
大的標準差意味著數據分佈非常廣泛。

計算公式（考試必備！）

計算通常使用由平方和 $S_{xx}$ 導出的計算公式。

1. 平方和 ($S_{xx}$)： $$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ （注意：如果是從頻數表計算，$\sum x^2$ 變成 $\sum f x^2$，而 $n$ 變成 $\sum f$）。

2. 方差 ($\sigma^2$)： $$ \sigma^2 = \frac{S_{xx}}{n} $$

3. 標準差 ($\sigma$)： $$ \sigma = \sqrt{\frac{S_{xx}}{n}} $$

⚠️ 記憶輔助：方差公式

記住 $S_{xx}$ 的結構：它是「平方和」減去「和的平方」（全部除以 $n$）。

$S_{xx}$ 通常被稱為方差計算中的「分子」。務必先計算 $S_{xx}$！

重點：標準差是測量散佈度的黃金標準。使用計算機的統計模式快速驗證數值，但要準備好在過程中展示 $S_{xx}$ 公式。

5. 數據解釋：偏態與離群值

5.1 偏態 (Skewness)

偏態描述了分佈的對稱性（或缺乏對稱性）。它告訴我們數據是向左還是向右拖尾。

正偏態（右偏態）：尾部向右延伸。
關係： 眾數 < 中位數 < 平均值。（平均值被拉向尾部方向最遠）。
類比：考試成績中，大多數人得分很高，但少數學生考得很低，拖累了平均分。
負偏態（左偏態）：尾部向左延伸。
關係： 平均值 < 中位數 < 眾數。（平均值被拉向尾部方向最遠）。
類比：房價中，大多數房屋價格便宜，但幾座豪宅將平均價格拉高了。
對稱分佈：數據是平衡的。
關係： 平均值 $\approx$ 中位數 $\approx$ 眾數。

5.2 識別與處理離群值

離群值 (Outlier) 是指與數據集中其他值距離異常的觀測值。它們可能是真實的極端值，也可能是記錄錯誤。

在 S1 中，我們有一個基於 IQR 的正式規則來識別潛在的離群值：

數值 $x$ 若符合以下條件即為離群值：

$x < Q_1 - 1.5 \times \text{IQR}$ （下界）
$x > Q_3 + 1.5 \times \text{IQR}$ （上界）

離群值的影響：離群值對平均值和全距影響重大，但對中位數和IQR的影響最小。

繪製箱線圖時：如果發現離群值，通常用星號 ($ * $) 或交叉 ($ \times $) 標記。觸鬚則僅延伸至不是離群值的最大/最小值。

重點：偏態告訴我們形狀（使用平均值-中位數-眾數關係）。離群值使用 $1.5 \times \text{IQR}$ 規則進行數學定義，在計算箱線圖邊界時必須小心處理。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。