AS & A Level Mathematics 9709 (P5) 學習筆記:數據呈現 (5.1)
歡迎來到「概率與統計 1」的第一章!這一章的重點是將原始、雜亂的數字轉化為清晰且具洞察力的資訊。統計學就是從這裡開始的:如果你無法將數據視覺化並掌握其關鍵特徵,你就無法進行準確的分析。
別擔心,這一章會運用視覺輔助工具和直接的計算,這是掌握後續所有內容的核心基礎!
第一節:數據分佈的視覺化
1.1 莖葉圖 (Stem-and-Leaf Diagrams)
莖葉圖是一種簡單而強大的數據整理方式,特別適用於較小規模的數據集。
- 優點: 它能保留原始數據的數值(不像直方圖或盒鬚圖那樣會遺失細節)。
- 結構: 數據被分為「莖」(通常是前一位或多位數字)和「葉」(通常是最後一位數字)。
- 關鍵要求: 務必加上圖例 (Key),以說明莖和葉如何代表實際數字。(例如:圖例:3 | 2 代表 32)。
背對背莖葉圖 (Back-to-Back Stem-and-Leaf Diagrams)
這些圖表專門用於比較兩個相關的數據集(例如:男生與女生的測驗分數,或某項變動前後的表現)。
- 共用的莖置於中間。
- 一組數據的葉向右延伸,另一組則向左延伸。
- 重要提示: 當排列左側的葉子時,數值必須從莖開始由內向外遞增。
重點總結: 莖葉圖最適合用於數據比較,以及需要保留原始數據細節的情況。
1.2 盒鬚圖 (Box-and-Whisker Plots)
盒鬚圖顯示了數據集的五數概括 (five-number summary),能讓你即時看出數據的分佈與偏態。它們非常適合用於比較不同的分佈情況。
五數概括包括:
- 最小值 (Minimum Value)(下方鬚線的末端)
- 下四分位數 (\(Q_1\))(盒子的起始端)
- 中位數 (\(Q_2\))(盒子內的線)
- 上四分位數 (\(Q_3\))(盒子的結束端)
- 最大值 (Maximum Value)(上方鬚線的末端)
解讀圖表:
- 盒子代表四分位距 (IQR),涵蓋了數據中 50% 的中間部分。(IQR = \(Q_3 - Q_1\))
- 盒鬚圖的每一部分(每一區段)都包含了 25% 的觀測值。
- 如果中位數線靠近 \(Q_1\),數據呈正偏態(長尾在右側)。如果靠近 \(Q_3\),則呈負偏態(長尾在左側)。
快速記憶小撇步: 盒鬚圖能讓你了解關於四分位數的一切,但無法顯示個別的確切數據點。
1.3 直方圖 (面積法則)
直方圖用於連續數據(或分組後的離散數據)。這可說是學生最容易犯錯的地方。
直方圖的黃金法則:
長條的「面積」代表「頻數」(即觀察值的總數)。
當組距(寬度)不等時,你必須使用頻數密度 (Frequency Density) 作為長條的高度。
公式:
\( \text{頻數密度} = \frac{\text{頻數}}{\text{組距}} \)
例子: 如果組距是 10-20(寬度為 10),且頻數為 50,則頻數密度為 \( \frac{50}{10} = 5 \)。如果下一組組距是 20-25(寬度為 5),且頻數為 30,則頻數密度為 \( \frac{30}{5} = 6 \)。
你知道嗎? 如果所有組距都相等,頻數密度與頻數成正比,因此你可以直接以頻數作為縱軸(但使用頻數密度永遠更保險!)。
重點總結: 對於直方圖,請記住「面積 = 頻數」。如果組距不均勻,請務必計算頻數密度。
1.4 累計頻數圖 (Ogive)
累計頻數圖(通常稱為 Ogive)繪製的是頻數的累計總和。它對於估算位置測量值至關重要。
- 計算: 計算直到每個組別結束時的累計頻數。
- 繪圖: 以組上界 (Upper Class Boundary) 為橫軸,對應累計頻數為縱軸。(使用組上界可確保涵蓋該點之前的所有數據)。
估算位置測量值:
總頻數 \(n\) 決定了估算值的位置:
- 中位數 (\(Q_2\)): 在累計頻數軸上找到 \( \frac{n}{2} \),讀取對應的數據軸數值。
- 下四分位數 (\(Q_1\)): 找到 \( \frac{n}{4} \)(或 \(n\) 的 25%)。
- 上四分位數 (\(Q_3\)): 找到 \( \frac{3n}{4} \)(或 \(n\) 的 75%)。
- 百分位數: 第 \(P\) 百分位數位於 \( \frac{P \times n}{100} \)。
- 比例: 你可以估算分佈中高於或低於某個數值 \(x\) 的人數或比例。(例如:要找出得分高於 60 分的人數,先找出 60 分對應的累計頻數,然後用總頻數 \(n\) 減去該數值。)
重點總結: 累計頻數圖處理的是位置與估算,而非直接數值。繪圖時務必使用組上界。
第二節:集中趨勢測量 (平均值)
集中趨勢是用來衡量數據的「中心」在哪裡。選擇哪種測量方式取決於數據性質以及是否有極端值(離群值)。
2.1 眾數 (Mode)
眾數是出現頻率最高的數值。
- 最佳用途: 適用於質性數據或分類數據(例如:最喜歡的顏色)。
- 缺點: 數據集可能沒有眾數,也可能有多個眾數(雙峰、多峰)。
2.2 中位數 (Median)
中位數是將數據按升序排列後的正中間值。
- 位置: 若有 \(n\) 個數據點,中位數的位置為 \( \frac{n+1}{2} \)。
- 最佳用途: 當數據含有離群值或呈偏態時,因為中位數不受極端值影響。
2.3 平均數 (Mean, \(\bar{x}\))
平均數是算術平均值。它是最常用的集中趨勢測量,因為它運用了每一個數據點。
計算公式:
a) 未分組數據:
\( \bar{x} = \frac{\sum x}{n} \)
b) 分組數據: (使用組中點 \(m\),或者根據 MF19 公式表的 \(x\),以及頻數 \(f\))
\( \bar{x} = \frac{\sum fx}{\sum f} \)
最佳用途: 適用於對稱且沒有嚴重離群值的分佈。
重點總結: 平均數對離群值敏感,而中位數則較具「抗性」。選擇平均值時請務必考慮數據類型。
第三節:離散程度測量 (離散度)
離散程度告訴我們數據有多分散。離散程度高意味著數據不穩定。
3.1 全距 (Range) 與 四分位距 (IQR)
- 全距: 最大值 - 最小值。(簡單,但極易受離群值影響。)
- 四分位距 (IQR): \( Q_3 - Q_1 \)。(比全距更穩健,因為它只測量中間 50% 數據的離散度,忽略了極端值。)
類比: 可以把 IQR 想成數據的「安全區域」,那裡發生了大部分可預測的情況。
3.2 標準差 (\(\sigma\) 或 \(s\)) 與 方差 (Variance)
標準差 (SD) 衡量任何數據點與平均數之間的典型距離。它是方差的平方根。
在考試中,你主要會使用從總和 \( \sum x \)、\( \sum x^2 \) 或其編碼等價形式衍生出的計算公式。
方差公式 (MF19):
a) 未分組數據:
\( \text{方差} = \frac{\sum x^2}{n} - \bar{x}^2 \)
\( \text{標準差} = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \)
b) 分組數據:
\( \text{方差} = \frac{\sum fx^2}{\sum f} - \bar{x}^2 \)
\( \text{標準差} = \sqrt{\frac{\sum fx^2}{\sum f} - \bar{x}^2} \)
(註:對於分組數據,\(x\) 代表組中點。)
重點提醒: 考官通常會提供 \( \sum x \) 和 \( \sum x^2 \),或要求你計算它們。請小心不要將 \( (\sum x)^2 \)(總和的平方)與 \( \sum x^2 \)(平方後的總和)混淆。
常見錯誤警示: 處理分組連續數據時,確保使用正確的組界(例如:若數據給出為 10-19,真實邊界為 9.5 到 19.5,組中點為 14.5)。
3.3 數據編碼 (Coding Data) 的威力
有時數據值非常大或不易處理。我們使用線性變換(編碼)來簡化計算。
設原始變量為 \(X\),編碼變量為 \(Y\),定義如下:
\( Y = \frac{X - a}{b} \) 或 \( X = a + bY \)
其中 \(a\) 是假定平均值(減法),\(b\) 是比例因子(除法)。
編碼對平均數與標準差的影響:
1. 對平均數 (\(\bar{x}\)) 的影響:
- 平均數會受到減法 (\(a\)) 和除法 (\(b\)) 兩者的影響。
- 解碼回平均數:\( \bar{x} = a + b\bar{y} \)
2. 對標準差 (SD) 和方差的影響:
- 減法 (\(a\)) 對離散度沒有影響。 平移整組數據並不會改變點與點之間的散佈距離。
- 除法 (\(b\)) 會影響離散度。 如果將數值減半,離散度也會減半。
- 解碼回標準差:\( SD_x = b \times SD_y \)
- 解碼回方差:\( \text{Var}(X) = b^2 \times \text{Var}(Y) \)
記憶小撇步:
平均數/平均值: 受加、減、乘、除所有運算的影響。
離散度 (SD/方差): 僅受乘、除運算的影響。(請記住:MAD - Multiply and Divide only)。
重點總結: 編碼能簡化計算。務必記得在算出最終結果後,利用轉換公式 \( X = a + bY \) 將平均數和標準差/方差「解碼」回原本的單位。
章節複習:必備清單
若要精通「數據呈現」,請確保你能做到以下事項:
- 繪製/解讀四種主要圖表:莖葉圖、盒鬚圖、直方圖(使用頻數密度)和累計頻數圖。
- 從累計頻數圖中估算四分位數和百分位數。
- 使用涉及 \( \sum x^2 \) 的高效公式計算未分組和分組數據的平均數與標準差。
- 正確處理並解讀經過編碼的數據,並能將解碼後的結果正確轉換回原始單位。
持續練習你的直方圖計算——它們是本章中最具技術性的部分!你可以做到的!