Numerical measures, graphs and diagrams - Statistics (9ST0) - Pearson Edexcel A Level

歡迎來到數據的世界！

歡迎踏出掌握 Pearson Edexcel A Level 統計學的第一步！在本章中，我們將學習如何將雜亂無章的數字轉化為清晰易懂的資訊。我們會利用數值度量（概括數據的數字）以及圖表與圖像（數據的視覺呈現）來達成這個目標。

將統計學家想像成偵探。原始數據是線索，而圖表則是幫助我們發現規律的放大鏡。如果起初覺得某些公式看起來很複雜，請不用擔心——我們會逐步拆解，很快你就會發現大部分繁重的工作其實都是由計算機代勞的！

1. 縱觀全局：統計圖表

課程綱要 (1.1) 重點在於詮釋圖表，而非繪製圖表。這意味著你需要成為一名「數據評論家」——透過觀察圖表，理解它向你揭示了哪些關於現實世界的訊息。

你需要掌握的關鍵圖表：

長條圖 (Bar Charts)：最適合分類數據（例如眼睛顏色或汽車品牌）。
莖葉圖 (Stem and Leaf Diagrams)：能清楚展示每一個數據點，同時保持數據的「分佈形狀」。提示：請務必檢查圖例 (key)（例如，4|2 可能代表 42 或 4.2）。
盒鬚圖 (Box and Whisker Plots)：展示「五數概括」：最小值、下四分位數 (\(Q_1\))、中位數 (\(Q_2\))、上四分位數 (\(Q_3\)) 以及最大值。
累積頻數圖 (Cumulative Frequency Diagrams)：用於尋找中位數和百分位數。這是一種「累計加總」圖。
直方圖 (Histograms)：這與長條圖不同！直方圖的長方形面積代表頻數。
公式：\(\text{頻數密度} = \frac{\text{頻數}}{\text{組距}}\)
時間序列圖 (Time Series)：顯示事物隨時間變化情況的圖表（例如股價）。重點觀察趨勢（長期變動）和季節性（規律模式）。
散點圖 (Scatter Diagrams)：用於查看兩個不同變量之間的關係（相關性）。

你知道嗎？ 直方圖通常用於「連續」數據（如身高或體重），數據可以是任何數值；而長條圖則用於「離散」類別。

快速複習：觀察任何圖表時，請務必自問：平均值（中心）在哪裡？數據的分佈範圍有多廣？是否有任何異常的缺口或聚類？

2. 選擇合適的工具並避開陷阱

並非每一種圖表都適用於所有情況 (1.2, 1.3)。如果你想展示儲蓄在一年內的增長情況，時間序列圖是最佳選擇。如果你想比較兩個不同班級的考試成績，盒鬚圖則是你的好幫手，因為你可以將它們並排比較。

圖表如何誤導他人（錯誤表述）：

數據可能會被刻意誤導 (1.8) 以誤導他人。請提防以下情況：

壓縮或拉伸軸線：透過改變刻度，讓微小的增長看起來非常巨大。
縱軸不從零開始：如果縱軸不是從零開始，差異會看起來比實際情況大得多。
3D 效果：讓長條或圓餅圖的扇區看起來比實際比例更大。
忽略背景資訊：宣稱犯罪率上升，卻未提及同時期人口也翻倍了！

核心重點：在相信圖表講述的「故事」之前，請務必先檢查坐標軸的標籤和刻度。

3. 度量中心：平均數、中位數與眾數

這些是「集中趨勢的度量」(1.4)，告訴我們數據的「中間」位置在哪裡。

平均數 (\(\bar{x}\))：算術平均值。
公式：\(\bar{x} = \frac{\sum x}{n}\)
優點：利用了每一個數據點。缺點：容易受到極大或極小值（離群值）的影響。
中位數 (\(Q_2\))：數據按順序排列後的正中間數值。
優點：不受離群值影響，可視為「典型」值。
眾數：出現頻率最高的值。最適合非數值數據（例如「最常見」的汽車顏色）。

類比：想像咖啡廳裡有五個人，他們的平均收入為 3 萬英鎊。接著，一位億萬富翁走進來。平均數收入可能會飆升至 1 億英鎊（具有誤導性！），但中位數收入幾乎不會改變。這就是為什麼我們在分析房價等數據時通常使用中位數的原因！

4. 度量離散程度：數據有多「雜亂」？

兩組數據可能有相同的平均值，但其中一組可能非常穩定，另一組則變動極大。我們使用「離散程度」來測量這種現象。

全距 (Range)：最大值減最小值。計算簡單，但極易受離群值影響。
四分位距 (IQR)：\(Q_3 - Q_1\)。這告訴你數據中中間 50% 的離散程度，它避開了兩端的極端值！
變異數 (\(\sigma^2\)) 與標準差 (\(\sigma\))：
標準差是「距離平均值的平均距離」。
公式：\(\sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}}\) 或 \(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

記憶小幫手：標準差 (S.D.) 測量的是 **S**pread（分佈）和 **D**istance（距離）。標準差小表示數據緊密圍繞在平均值周圍；標準差大則表示數據分佈很廣。

1.5 快速提示：在 Paper 1 中，你應該使用計算機的統計模式直接計算平均數和標準差。這既省時又能減少計算錯誤！

5. 發現異類：離群值 (Outliers)

離群值 (1.6) 是指遠大於或遠小於其餘數據的數據點。你可以透過「觀察」（直接看）或使用既定規則來找出它們。

常見的離群值判定規則：

IQR 規則：任何小於 \(Q_1 - 1.5 \times IQR\) 或大於 \(Q_3 + 1.5 \times IQR\) 的數值。
標準差規則：任何距離平均值超過 2 個（有時為 3 個）標準差的數值。

為什麼會出現離群值？(1.7)

實驗誤差：有人讀錯了刻度或輸入了錯誤的數字。（這類數據通常應該剔除）。
自然變異：有時世界就是會產生極端結果，例如奧運選手的表現。（這類數據應保留但須加以註明）。

核心重點：不要直接刪除離群值！先調查它們存在的原因。

6. 比較數據集（考試最愛考）

一個非常常見的考題 (1.4) 是要求你比較兩組數據（例如 A 組與 B 組）。在作答時，請務必使用這兩個步驟的公式：

比較位置度量：「A 組的中位數 (25) 高於 B 組 (20)，顯示 A 組的平均表現較好。」
比較離散程度度量：「A 組的 IQR (5) 小於 B 組 (12)，這意味著 A 組的結果更為穩定。」

關鍵規則：務必將答案結合情境 (in context)。不要只說「平均數較高」，要說「蘋果的平均重量較高」。

總結：章節清單

你是否能夠：

解釋為什麼中位數有時比平均數更具代表性？
為直方圖計算頻數密度？
使用 \(1.5 \times IQR\) 規則來找出離群值？
使用平均值和離散程度比較兩組數據？
識別圖表是否具有誤導性？

如果起初覺得這些很棘手，別擔心——統計學是一門語言，練習的題目越多，你就會越得心應手，感覺越自然！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。