單元 S1:數據的表示與摘要
歡迎來到統計學的奇妙世界!本章是你的基石。我們將學習如何將雜亂無章的原始數字,透過圖表與關鍵的摘要計算,轉化為清晰且具洞察力的分析。
為什麼這很重要? 因為僅僅看著一長串數字,我們很難得到什麼資訊。透過有效地表示與摘要數據,我們可以找出趨勢、比較群組並做出明智的決策——這些技能不僅對你的考試至關重要,對生活也非常有用!別擔心「變異數 (Variance)」等概念看起來很抽象,我們會一步步將其拆解。讓我們開始吧!
第 1 節:數據類型(基本構成要素)
在分析數據之前,我們必須先了解手上的數據類型。數據通常分為兩大類:
1. 定性數據 (Qualitative Data) 與定量數據 (Quantitative Data)
- 定性數據:描述特徵或類別。它是非數值的。
例子: 眼睛顏色、汽車型號、最喜歡的口味。 - 定量數據:由數字組成且可測量或計算的數據。這是 S1 大部分內容的重點。
2. 離散數據 (Discrete Data) 與連續數據 (Continuous Data)(側重於定量數據)
- 離散數據:只能取特定、固定數值(通常為整數)的數據。這通常來自於計數。
類比: 離散數據就像房間裡的人數——你不可能有 3.5 個人。
例子: 通過某一點的車輛數、鞋碼(英國尺碼為特定的步進值)。 - 連續數據:可以在給定範圍內取任何數值的數據。這通常來自於測量。
類比: 連續數據就像沙子——你總能在兩個數值之間找到另一個數值。
例子: 身高、體重、溫度、跑步比賽所花費的時間。
溫馨提示: 收集連續變數(如身高)的數據時,常會使用組區間 (class intervals)(例如 170cm 至 180cm)。務必檢查邊界!
第 2 節:數據的視覺化表示
圖表有助於我們觀察數據的整體形狀(分佈)。
1. 莖葉圖 (Stem and Leaf Diagrams)
莖葉圖在保留原始數據的同時,以有組織的格式呈現。它非常適合小型到中型的數據集。
- 莖 (Stem) 顯示較高位數的值(例如十位、百位)。
- 葉 (Leaf) 顯示最小位數的值(例如個位、十分位)。
- 葉必須始終按數值順序排列,並從最靠近莖的位置開始。
- 關鍵步驟: 你必須包含一個圖例 (Key)!沒有圖例,圖表就毫無意義。
圖例範例:2 | 5表示 25。
你知道嗎? 我們使用背靠背莖葉圖 (back-to-back stem and leaf plots) 來輕鬆比較兩個相關的數據集(例如男生與女生的考試成績)。
2. 直方圖 (Histograms)(針對連續數據)
直方圖用於連續的分組數據。這是熱門的考試題目,請務必留意!
直方圖的黃金法則: 長條的面積必須與該組的頻數 (frequency)(觀測值的數量)成正比。
由於組寬往往不相等,我們不能像製作條形圖那樣直接繪製頻數與組區間的關係。我們必須計算 y 軸的頻數密度 (Frequency Density)。
頻數密度 \( = \frac{\text{頻數}}{\text{組寬}} \)
繪製步驟:
- 確定每一組的組寬(\( \text{上邊界} - \text{下邊界} \))。
- 計算每一組的頻數密度。
- 將組區間繪製在橫軸 (x) 上。
- 將頻數密度繪製在縱軸 (y) 上。
- 繪製長方形,使其面積與頻數成正比。
避免常見錯誤: 處理分組連續數據(例如 10-19, 20-29)時,請務必使用真實的類別邊界(例如 9.5 至 19.5, 19.5 至 29.5)來計算正確的組寬(在此例中應為 10)。
3. 累積頻數曲線圖 (Cumulative Frequency Diagrams / Ogive)
累積頻數圖顯示了頻數的累加總額。這對於從分組數據中估算中位數和四分位數至關重要。
繪製步驟:
- 透過依序加總頻數來計算累積頻數 (CF)。
- 將 CF 值繪製在每個組區間的上邊界對應處。
- 圖表應從(第一組的下邊界,0)開始。
- 用平滑曲線(而非直線)連接各點。
溫馨提示: y 軸上的最高點(最終的累積頻數)應等於總觀測值 \(n\)。
第 3 節:集中趨勢的測量(位置)
這些統計數據告訴我們數據集的「中心」或典型值。
1. 平均數 (Mean, \( \bar{x} \))
平均數是算術平均值。它使用了每一個數據點,且對極端值(離群值)非常敏感。
- 原始數據平均數: $$ \bar{x} = \frac{\sum x}{n} $$ 其中 \( \sum x \) 是所有數據點的總和,\(n\) 是數據點的數量。
- 頻數表平均數: $$ \bar{x} = \frac{\sum fx}{\sum f} $$ 其中 \(f\) 是頻數,\(x\) 是數據值。
- 分組數據平均數(估算值): 我們必須假設一組內的所有值都集中在該組的組中點 (midpoint, \(m\))。 $$ \bar{x} \approx \frac{\sum fm}{\sum f} $$
2. 中位數 (Median)
中位數是將數據按順序排列後的中間值。它不受離群值影響。
- 原始數據中位數:
首先,將數據排序。中位數的位置通常由 \( \frac{n+1}{2} \) 給出。 - 分組連續數據中位數(插值法):
我們使用累積頻數分佈來估算中位數,通常位於 \( \frac{n}{2} \) 的位置。
過程: 在縱軸 (CF) 上找到中位數位置 (\( \frac{n}{2} \))。繪製一條水平線至曲線,然後垂直向下連接至水平軸(數據值軸),讀取估算的中位數。
類比: 中位數是「安全」的衡量標準。如果有人在你的數據集中放入一個極大的數值(離群值),平均數會被劇烈拉向該數值,但中位數則保持相對穩定。
3. 眾數 (Mode) 或眾數組 (Modal Class)
眾數是出現頻率最高的值。
- 對於原始或離散數據,它是出現次數最多的實際值。
- 對於分組數據,我們識別眾數組(頻數密度最高的組)。
第 4 節:離差的測量(離散程度)
這些統計數據告訴我們數據的散佈或變化程度。
1. 全距 (Range) 與四分位距 (IQR)
- 全距: \( \text{最大值} - \text{最小值} \)。簡單但極易受離群值影響。
- 四分位數: 將數據分為四個相等的部分。
- \(Q_1\)(下四分位數):25% 的數據低於此點。
- \(Q_2\)(中位數):50% 的數據低於此點。
- \(Q_3\)(上四分位數):75% 的數據低於此點。
- 四分位距 (IQR): \( \text{IQR} = Q_3 - Q_1 \)。這衡量了中間 50% 數據的散佈情況,且對離群值具有抵抗力。
尋找分組數據的四分位數: 與中位數類似,使用累積頻數曲線。
- \(Q_1\) 位於 \( \frac{n}{4} \) 的位置。
- \(Q_3\) 位於 \( \frac{3n}{4} \) 的位置。
2. 變異數 (Variance) 與標準差 (Standard Deviation)
變異數 (\( \sigma^2 \)) 和 標準差 (\( \sigma \)) 是衡量散佈程度最穩健的指標,因為它們利用所有數據點來衡量與平均數的偏差。
標準差 (\( \sigma \)) 即變異數的平方根。它更受歡迎,因為其單位與原始數據相同。
計算公式:(你應該熟悉定義公式與計算公式。)
A. 原始數據公式(\(n\) 個觀測值):
定義公式(變異數): $$ \sigma^2 = \frac{\sum (x - \bar{x})^2}{n} $$ (意思:找出與平均數的差值,取平方,加總,最後除以 \(n\)。)
計算公式(變異數):(計算時較簡單,尤其在沒有計算機「統計模式」時。) $$ \sigma^2 = \frac{\sum x^2}{n} - (\bar{x})^2 $$
B. 頻數表公式(分組或未分組):
計算公式(變異數): $$ \sigma^2 = \frac{\sum fx^2}{\sum f} - (\bar{x})^2 $$ (其中 \( \sum f \) 即總頻數 \(n\)。)
記憶輔助: 對於標準差的計算公式,請記住:「平方的平均值減去平均值的平方」。
\( \sigma = \sqrt{\frac{\sum x^2}{n} - (\bar{x})^2} \)
第 5 節:摘要圖表與離群值
1. 箱形圖 (Box Plots)
箱形圖提供五個關鍵統計數據的快速視覺摘要(五數概括法, Five-Number Summary):
- 最小值
- 下四分位數 (\(Q_1\))
- 中位數 (\(Q_2\))
- 上四分位數 (\(Q_3\))
- 最大值
箱形圖非常適合視覺化比較兩個或多個數據集的散佈與位置。
2. 識別離群值 (Outliers)
離群值是遠離其他數據點的極端值。我們需要嚴格的方法來判斷一個值是否真的是離群值。
在 S1 中,我們使用四分位距 (IQR) 方法。如果數據點 \(x\) 超出了以下界限,則被視為離群值:
- 下限: \( Q_1 - 1.5 \times \text{IQR} \)
- 上限: \( Q_3 + 1.5 \times \text{IQR} \)
例子: 如果一個值小於下限或大於上限,它就被標記為離群值(通常在箱形圖上用叉號或星號標示)。
切記: 繪製包含離群值的箱形圖時,「觸鬚 (whiskers)」僅延伸至非離群值的最大值與最小值。
3. 數據編碼的影響 (Coding Data)
有時,為了簡化計算,我們使用線性變換對數據進行「編碼」:\( y = \frac{x - a}{b} \),其中 \(a\) 和 \(b\) 是常數。
- 位置測量值 (\(\bar{x}, Q_2, Q_1, Q_3\)): 這些會受到加減 (\(a\)) 和乘除 (\(b\)) 的雙重影響。如果 \( x \to y \),則 \( \bar{x}_y = \frac{\bar{x}_x - a}{b} \)。
- 離散程度測量值(全距, IQR, \(\sigma\)): 這些僅受乘除 (\(b\)) 的影響。加減 \(a\) 會平移數據,但不會改變散佈程度。
如果 \( y = \frac{x - a}{b} \),則 \( \sigma_y = \frac{\sigma_x}{|b|} \) 或 \( \text{IQR}_y = \frac{\text{IQR}_x}{|b|} \)。
編碼類比: 如果全班考試成績都加了 10 分 (\(x+10\)),平均分會上升 10 分,但散佈程度(標準差)保持不變,因為每個人都同樣被平移了。
- 直方圖:使用頻數密度。
- 位置(平均數/中位數):告訴你平均值。
- 散佈(標準差/IQR):告訴你數據的一致性。
- 離群值:由 \(Q_1\) 和 \(Q_3\) 之外的 \( 1.5 \times \text{IQR} \) 法則定義。