歡迎來到數據的世界!

歡迎踏出掌握 Pearson Edexcel A Level 統計學的第一步!在本章中,我們將學習如何將雜亂無章的數字轉化為清晰易懂的資訊。我們會利用數值度量(概括數據的數字)以及圖表與圖像(數據的視覺呈現)來達成這個目標。

將統計學家想像成偵探。原始數據是線索,而圖表則是幫助我們發現規律的放大鏡。如果起初覺得某些公式看起來很複雜,請不用擔心——我們會逐步拆解,很快你就會發現大部分繁重的工作其實都是由計算機代勞的!

1. 縱觀全局:統計圖表

課程綱要 (1.1) 重點在於詮釋圖表,而非繪製圖表。這意味著你需要成為一名「數據評論家」——透過觀察圖表,理解它向你揭示了哪些關於現實世界的訊息。

你需要掌握的關鍵圖表:

  • 長條圖 (Bar Charts):最適合分類數據(例如眼睛顏色或汽車品牌)。
  • 莖葉圖 (Stem and Leaf Diagrams):能清楚展示每一個數據點,同時保持數據的「分佈形狀」。提示:請務必檢查圖例 (key)(例如,4|2 可能代表 42 或 4.2)。
  • 盒鬚圖 (Box and Whisker Plots):展示「五數概括」:最小值、下四分位數 (\(Q_1\))、中位數 (\(Q_2\))、上四分位數 (\(Q_3\)) 以及最大值。
  • 累積頻數圖 (Cumulative Frequency Diagrams):用於尋找中位數和百分位數。這是一種「累計加總」圖。
  • 直方圖 (Histograms):這與長條圖不同!直方圖的長方形面積代表頻數。
    公式:\(\text{頻數密度} = \frac{\text{頻數}}{\text{組距}}\)
  • 時間序列圖 (Time Series):顯示事物隨時間變化情況的圖表(例如股價)。重點觀察趨勢(長期變動)和季節性(規律模式)。
  • 散點圖 (Scatter Diagrams):用於查看兩個不同變量之間的關係(相關性)。

你知道嗎? 直方圖通常用於「連續」數據(如身高或體重),數據可以是任何數值;而長條圖則用於「離散」類別。

快速複習:觀察任何圖表時,請務必自問:平均值(中心)在哪裡?數據的分佈範圍有多廣?是否有任何異常的缺口或聚類?

2. 選擇合適的工具並避開陷阱

並非每一種圖表都適用於所有情況 (1.2, 1.3)。如果你想展示儲蓄在一年內的增長情況,時間序列圖是最佳選擇。如果你想比較兩個不同班級的考試成績,盒鬚圖則是你的好幫手,因為你可以將它們並排比較。

圖表如何誤導他人(錯誤表述):

數據可能會被刻意誤導 (1.8) 以誤導他人。請提防以下情況:

  • 壓縮或拉伸軸線:透過改變刻度,讓微小的增長看起來非常巨大。
  • 縱軸不從零開始:如果縱軸不是從零開始,差異會看起來比實際情況大得多。
  • 3D 效果:讓長條或圓餅圖的扇區看起來比實際比例更大。
  • 忽略背景資訊:宣稱犯罪率上升,卻未提及同時期人口也翻倍了!

核心重點:在相信圖表講述的「故事」之前,請務必先檢查坐標軸的標籤和刻度。

3. 度量中心:平均數、中位數與眾數

這些是「集中趨勢的度量」(1.4),告訴我們數據的「中間」位置在哪裡。

  • 平均數 (\(\bar{x}\)):算術平均值。
    公式:\(\bar{x} = \frac{\sum x}{n}\)
    優點:利用了每一個數據點。缺點:容易受到極大或極小值(離群值)的影響。
  • 中位數 (\(Q_2\)):數據按順序排列後的正中間數值。
    優點:不受離群值影響,可視為「典型」值。
  • 眾數:出現頻率最高的值。最適合非數值數據(例如「最常見」的汽車顏色)。

類比:想像咖啡廳裡有五個人,他們的平均收入為 3 萬英鎊。接著,一位億萬富翁走進來。平均數收入可能會飆升至 1 億英鎊(具有誤導性!),但中位數收入幾乎不會改變。這就是為什麼我們在分析房價等數據時通常使用中位數的原因!

4. 度量離散程度:數據有多「雜亂」?

兩組數據可能有相同的平均值,但其中一組可能非常穩定,另一組則變動極大。我們使用「離散程度」來測量這種現象。

  • 全距 (Range):最大值減最小值。計算簡單,但極易受離群值影響。
  • 四分位距 (IQR):\(Q_3 - Q_1\)。這告訴你數據中中間 50% 的離散程度,它避開了兩端的極端值!
  • 變異數 (\(\sigma^2\)) 與標準差 (\(\sigma\)):
    標準差是「距離平均值的平均距離」。
    公式:\(\sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}}\) 或 \(\sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2}\)

記憶小幫手:標準差 (S.D.) 測量的是 **S**pread(分佈)和 **D**istance(距離)。標準差小表示數據緊密圍繞在平均值周圍;標準差大則表示數據分佈很廣。

1.5 快速提示:在 Paper 1 中,你應該使用計算機的統計模式直接計算平均數和標準差。這既省時又能減少計算錯誤!

5. 發現異類:離群值 (Outliers)

離群值 (1.6) 是指遠大於或遠小於其餘數據的數據點。你可以透過「觀察」(直接看)或使用既定規則來找出它們。

常見的離群值判定規則:

  • IQR 規則:任何小於 \(Q_1 - 1.5 \times IQR\) 或大於 \(Q_3 + 1.5 \times IQR\) 的數值。
  • 標準差規則:任何距離平均值超過 2 個(有時為 3 個)標準差的數值。

為什麼會出現離群值?(1.7)

  1. 實驗誤差:有人讀錯了刻度或輸入了錯誤的數字。(這類數據通常應該剔除)。
  2. 自然變異:有時世界就是會產生極端結果,例如奧運選手的表現。(這類數據應保留但須加以註明)。

核心重點:不要直接刪除離群值!先調查它們存在的原因。

6. 比較數據集(考試最愛考)

一個非常常見的考題 (1.4) 是要求你比較兩組數據(例如 A 組與 B 組)。在作答時,請務必使用這兩個步驟的公式:

  1. 比較位置度量:「A 組的中位數 (25) 高於 B 組 (20),顯示 A 組的平均表現較好。」
  2. 比較離散程度度量:「A 組的 IQR (5) 小於 B 組 (12),這意味著 A 組的結果更為穩定。」

關鍵規則:務必將答案結合情境 (in context)。不要只說「平均數較高」,要說「蘋果的平均重量較高」。

總結:章節清單

你是否能夠:

  • 解釋為什麼中位數有時比平均數更具代表性?
  • 為直方圖計算頻數密度?
  • 使用 \(1.5 \times IQR\) 規則來找出離群值?
  • 使用平均值和離散程度比較兩組數據?
  • 識別圖表是否具有誤導性?

如果起初覺得這些很棘手,別擔心——統計學是一門語言,練習的題目越多,你就會越得心應手,感覺越自然!