Representation and summary of data

單元 S1：數據的表示與摘要

歡迎來到統計學的奇妙世界！本章是你的基石。我們將學習如何將雜亂無章的原始數字，透過圖表與關鍵的摘要計算，轉化為清晰且具洞察力的分析。

為什麼這很重要？ 因為僅僅看著一長串數字，我們很難得到什麼資訊。透過有效地表示與摘要數據，我們可以找出趨勢、比較群組並做出明智的決策——這些技能不僅對你的考試至關重要，對生活也非常有用！別擔心「變異數 (Variance)」等概念看起來很抽象，我們會一步步將其拆解。讓我們開始吧！

第 1 節：數據類型（基本構成要素）

在分析數據之前，我們必須先了解手上的數據類型。數據通常分為兩大類：

1. 定性數據 (Qualitative Data) 與定量數據 (Quantitative Data)

定性數據：描述特徵或類別。它是非數值的。
例子： 眼睛顏色、汽車型號、最喜歡的口味。
定量數據：由數字組成且可測量或計算的數據。這是 S1 大部分內容的重點。

2. 離散數據 (Discrete Data) 與連續數據 (Continuous Data)（側重於定量數據）

離散數據：只能取特定、固定數值（通常為整數）的數據。這通常來自於計數。
類比： 離散數據就像房間裡的人數——你不可能有 3.5 個人。
例子： 通過某一點的車輛數、鞋碼（英國尺碼為特定的步進值）。
連續數據：可以在給定範圍內取任何數值的數據。這通常來自於測量。
類比： 連續數據就像沙子——你總能在兩個數值之間找到另一個數值。
例子： 身高、體重、溫度、跑步比賽所花費的時間。

溫馨提示： 收集連續變數（如身高）的數據時，常會使用組區間 (class intervals)（例如 170cm 至 180cm）。務必檢查邊界！

第 1 節要點總結： 區分離散（可計數、固定數值）與連續（可測量、範圍內任何數值）。這種差異決定了你能使用哪些圖表（如直方圖）及計算方法。

第 2 節：數據的視覺化表示

圖表有助於我們觀察數據的整體形狀（分佈）。

1. 莖葉圖 (Stem and Leaf Diagrams)

莖葉圖在保留原始數據的同時，以有組織的格式呈現。它非常適合小型到中型的數據集。

莖 (Stem) 顯示較高位數的值（例如十位、百位）。
葉 (Leaf) 顯示最小位數的值（例如個位、十分位）。
葉必須始終按數值順序排列，並從最靠近莖的位置開始。
關鍵步驟： 你必須包含一個圖例 (Key)！沒有圖例，圖表就毫無意義。
圖例範例： 2 | 5 表示 25。

你知道嗎？ 我們使用背靠背莖葉圖 (back-to-back stem and leaf plots) 來輕鬆比較兩個相關的數據集（例如男生與女生的考試成績）。

2. 直方圖 (Histograms)（針對連續數據）

直方圖用於連續的分組數據。這是熱門的考試題目，請務必留意！

直方圖的黃金法則： 長條的面積必須與該組的頻數 (frequency)（觀測值的數量）成正比。

由於組寬往往不相等，我們不能像製作條形圖那樣直接繪製頻數與組區間的關係。我們必須計算 y 軸的頻數密度 (Frequency Density)。

頻數密度 $ = \frac{\text{頻數}}{\text{組寬}} $

繪製步驟：

確定每一組的組寬（$ \text{上邊界} - \text{下邊界} $）。
計算每一組的頻數密度。
將組區間繪製在橫軸 (x) 上。
將頻數密度繪製在縱軸 (y) 上。
繪製長方形，使其面積與頻數成正比。

避免常見錯誤： 處理分組連續數據（例如 10-19, 20-29）時，請務必使用真實的類別邊界（例如 9.5 至 19.5, 19.5 至 29.5）來計算正確的組寬（在此例中應為 10）。

3. 累積頻數曲線圖 (Cumulative Frequency Diagrams / Ogive)

累積頻數圖顯示了頻數的累加總額。這對於從分組數據中估算中位數和四分位數至關重要。

繪製步驟：

透過依序加總頻數來計算累積頻數 (CF)。
將 CF 值繪製在每個組區間的上邊界對應處。
圖表應從（第一組的下邊界，0）開始。
用平滑曲線（而非直線）連接各點。

溫馨提示： y 軸上的最高點（最終的累積頻數）應等於總觀測值 $n$。

第 2 節要點總結： 使用莖葉圖查看細節，直方圖查看分佈形狀（面積代表頻數），以及累積頻數圖來尋找位置數值（如中位數）。

第 3 節：集中趨勢的測量（位置）

這些統計數據告訴我們數據集的「中心」或典型值。

1. 平均數 (Mean, $ \bar{x} $)

平均數是算術平均值。它使用了每一個數據點，且對極端值（離群值）非常敏感。

原始數據平均數： $$ \bar{x} = \frac{\sum x}{n} $$ 其中 $ \sum x $ 是所有數據點的總和，$n$ 是數據點的數量。
頻數表平均數： $$ \bar{x} = \frac{\sum fx}{\sum f} $$ 其中 $f$ 是頻數，$x$ 是數據值。
分組數據平均數（估算值）： 我們必須假設一組內的所有值都集中在該組的組中點 (midpoint, $m$)。 $$ \bar{x} \approx \frac{\sum fm}{\sum f} $$

2. 中位數 (Median)

中位數是將數據按順序排列後的中間值。它不受離群值影響。

原始數據中位數：
首先，將數據排序。中位數的位置通常由 $ \frac{n+1}{2} $ 給出。
分組連續數據中位數（插值法）：
我們使用累積頻數分佈來估算中位數，通常位於 $ \frac{n}{2} $ 的位置。
過程： 在縱軸 (CF) 上找到中位數位置 ($ \frac{n}{2} $)。繪製一條水平線至曲線，然後垂直向下連接至水平軸（數據值軸），讀取估算的中位數。

類比： 中位數是「安全」的衡量標準。如果有人在你的數據集中放入一個極大的數值（離群值），平均數會被劇烈拉向該數值，但中位數則保持相對穩定。

3. 眾數 (Mode) 或眾數組 (Modal Class)

眾數是出現頻率最高的值。

對於原始或離散數據，它是出現次數最多的實際值。
對於分組數據，我們識別眾數組（頻數密度最高的組）。

第 3 節要點總結： 平均數使用所有數據但容易受離群值影響。中位數是中間值，對離群值具有抵抗力。記住分組計算時使用組中點，而估算分組中位數時使用插值法（或 CF 曲線）。

第 4 節：離差的測量（離散程度）

這些統計數據告訴我們數據的散佈或變化程度。

1. 全距 (Range) 與四分位距 (IQR)

全距： $ \text{最大值} - \text{最小值} $。簡單但極易受離群值影響。
四分位數： 將數據分為四個相等的部分。
- $Q_1$（下四分位數）：25% 的數據低於此點。
- $Q_2$（中位數）：50% 的數據低於此點。
- $Q_3$（上四分位數）：75% 的數據低於此點。
四分位距 (IQR)： $ \text{IQR} = Q_3 - Q_1 $。這衡量了中間 50% 數據的散佈情況，且對離群值具有抵抗力。

尋找分組數據的四分位數： 與中位數類似，使用累積頻數曲線。

$Q_1$ 位於 $ \frac{n}{4} $ 的位置。
$Q_3$ 位於 $ \frac{3n}{4} $ 的位置。

2. 變異數 (Variance) 與標準差 (Standard Deviation)

變異數 ($ \sigma^2 $) 和 標準差 ($ \sigma $) 是衡量散佈程度最穩健的指標，因為它們利用所有數據點來衡量與平均數的偏差。

標準差 ($ \sigma $) 即變異數的平方根。它更受歡迎，因為其單位與原始數據相同。

計算公式：（你應該熟悉定義公式與計算公式。）

A. 原始數據公式（$n$ 個觀測值）：

定義公式（變異數）： $$ \sigma^2 = \frac{\sum (x - \bar{x})^2}{n} $$ （意思：找出與平均數的差值，取平方，加總，最後除以 $n$。）

計算公式（變異數）：（計算時較簡單，尤其在沒有計算機「統計模式」時。） $$ \sigma^2 = \frac{\sum x^2}{n} - (\bar{x})^2 $$

B. 頻數表公式（分組或未分組）：

計算公式（變異數）： $$ \sigma^2 = \frac{\sum fx^2}{\sum f} - (\bar{x})^2 $$ （其中 $ \sum f $ 即總頻數 $n$。）

記憶輔助： 對於標準差的計算公式，請記住：「平方的平均值減去平均值的平方」。

$ \sigma = \sqrt{\frac{\sum x^2}{n} - (\bar{x})^2} $

第 4 節要點總結： 全距簡單但表現較差。IQR 衡量中間 50% 並抵抗離群值。標準差 ($ \sigma $) 衡量圍繞平均數的散佈，是變異數 ($ \sigma^2 $) 的平方根。

第 5 節：摘要圖表與離群值

1. 箱形圖 (Box Plots)

箱形圖提供五個關鍵統計數據的快速視覺摘要（五數概括法, Five-Number Summary）：

最小值
下四分位數 ($Q_1$)
中位數 ($Q_2$)
上四分位數 ($Q_3$)
最大值

箱形圖非常適合視覺化比較兩個或多個數據集的散佈與位置。

2. 識別離群值 (Outliers)

離群值是遠離其他數據點的極端值。我們需要嚴格的方法來判斷一個值是否真的是離群值。

在 S1 中，我們使用四分位距 (IQR) 方法。如果數據點 $x$ 超出了以下界限，則被視為離群值：

下限： $ Q_1 - 1.5 \times \text{IQR} $
上限： $ Q_3 + 1.5 \times \text{IQR} $

例子： 如果一個值小於下限或大於上限，它就被標記為離群值（通常在箱形圖上用叉號或星號標示）。

切記： 繪製包含離群值的箱形圖時，「觸鬚 (whiskers)」僅延伸至非離群值的最大值與最小值。

3. 數據編碼的影響 (Coding Data)

有時，為了簡化計算，我們使用線性變換對數據進行「編碼」：$ y = \frac{x - a}{b} $，其中 $a$ 和 $b$ 是常數。

位置測量值 ($\bar{x}, Q_2, Q_1, Q_3$)： 這些會受到加減 ($a$) 和乘除 ($b$) 的雙重影響。如果 $ x \to y $，則 $ \bar{x}_y = \frac{\bar{x}_x - a}{b} $。
離散程度測量值（全距, IQR, $\sigma$）： 這些僅受乘除 ($b$) 的影響。加減 $a$ 會平移數據，但不會改變散佈程度。
如果 $ y = \frac{x - a}{b} $，則 $ \sigma_y = \frac{\sigma_x}{|b|} $ 或 $ \text{IQR}_y = \frac{\text{IQR}_x}{|b|} $。

編碼類比： 如果全班考試成績都加了 10 分 ($x+10$)，平均分會上升 10 分，但散佈程度（標準差）保持不變，因為每個人都同樣被平移了。

最後速覽：

直方圖：使用頻數密度。
位置（平均數/中位數）：告訴你平均值。
散佈（標準差/IQR）：告訴你數據的一致性。
離群值：由 $Q_1$ 和 $Q_3$ 之外的 $ 1.5 \times \text{IQR} $ 法則定義。

繼續練習這些計算——你一定可以做到的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。