歡迎來到數據呈現與詮釋的世界!

在這一章,我們將不再只是單純地盯著一串串數字,而是要學習如何運用這些數據來「說故事」。無論你是要分析人們的收入水平,還是球隊的入球數,你都需要學會如何總結這些資訊並從中發現規律。對於考卷三 (Paper 3),你必須掌握如何解讀圖表、計算數據的「離散程度」(spread),以及判斷一個數據點究竟是異常的誤差,還是重要的資訊。

如果起初覺得有點棘手,別擔心! 統計學往往只是將常識應用於數學公式中。讓我們一步步拆解這些內容。


1. 單變量數據:強大的直方圖

當我們觀察一類數據時(例如學生的身高),我們稱之為單變量數據 (single-variable data)。這裡最重要的工具就是直方圖 (Histogram)

直方圖的黃金法則

在普通的長條圖中,柱狀的高度代表頻率。但在直方圖中,面積代表頻率 (Area represents the Frequency)。這是學生最容易失分的地方,請謹記這個口訣:

「面積即數量」(Area is the Amount)

計算頻率密度 (Frequency Density)

為了繪製或解讀直方圖,我們需要在縱軸使用頻率密度。其公式為:
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

類比: 想像你在不同大小的吐司上塗抹牛油。如果你有相同份量的牛油(頻率),但吐司的面積比較大(組距),那麼抹上去的牛油層(頻率密度)就會薄得多!

與機率的聯繫

由於直方圖的總面積代表總頻率,我們可以用它來理解機率分佈 (Probability Distributions)。如果你將總面積縮放至 1,那麼每個長條的面積就代表了數據點落入該組的機率。

重點速覽:
頻率 (Frequency) = 長條面積
頻率密度 (Frequency Density) = 長條高度
總面積 (Total Area) = 數據點總數


2. 雙變量數據:散點圖與相關性

雙變量數據 (Bivariate data) 只是個專業術語,意指我們同時觀察兩件事,看看它們之間是否有關聯(例如:「補習時間越長,分數是否越高?」)。

散點圖與迴歸線 (Regression Lines)

我們將這些數據繪製在散點圖上,並可能畫出一條穿過數據點的迴歸線 (Regression Line)(即最佳擬合線)。這條線可用於進行預測:
內插法 (Interpolation): 預測數據範圍「內」的數值(通常較可靠)。
外推法 (Extrapolation): 預測數據範圍「外」的數值(風險極高,且往往不準確!)。

相關性 vs. 因果關係

這是考題的最愛!僅僅因為兩件事有強烈的相關性 (correlation)(它們同時變動),並不代表其中一件是另一件的成因 (cause)

你知道嗎? 統計數據顯示,雪糕銷量和鯊魚襲擊事件的數量會同時上升。吃雪糕會導致鯊魚襲擊嗎?當然不會!背後的「隱藏變量」是天氣——天氣熱的時候,人們既會多買雪糕,也會更多地去海邊游泳。

群體中的不同組別

有時散點圖會顯示兩個混在一起的不同群體。例如,如果你繪製全校師生的身高與體重,你可能會看到兩團明顯的「雲」——一團是年幼的學生,另一團是老師。識別這些子群體 (sub-populations) 是詮釋數據的一項關鍵技能。

關鍵要點: 相關性顯示了兩者的關聯,但永遠無法證明因果關係。


3. 集中趨勢與離散程度的度量

我們需要用數值來描述數據的「中間位置」和「離散程度」。

平均值 (Mean, \( \bar{x} \))

即平均數。計算方法是將所有數值相加,然後除以數據點的總個數:
\( \bar{x} = \frac{\sum x}{n} \)

標準差 (Standard Deviation, \( \sigma \))

這是衡量數據圍繞平均值分散程度的指標。標準差代表數據集中在平均值附近;標準差則代表數據分佈得非常廣泛。

你需要學會利用總結統計量 (summary statistics),透過以下公式計算標準差:
\( \sigma = \sqrt{\frac{\sum x^2}{n} - \left(\frac{\sum x}{n}\right)^2} \)

記住公式的小技巧:
它是「平方的平均值減去平均值的平方,再開根號」。

常見陷阱: 在計算「平均值的平方」時,請務必先算出平均值 (\( \bar{x} \)),然後再將其平方。千萬不要把它跟 \( \sum x^2 \) 搞混了!


4. 極端值 (Outliers) 與數據清洗

極端值 (Outlier) 是指與其餘數據偏離甚遠的數據點。它可能是一個非常罕見的結果,也可能僅僅是一個錯誤(例如某人把 15cm 誤輸入為 150cm)。

如何發現極端值

在考試中,通常會提供判定極端值的準則,常見的包括:
1. 任何大於上四分位數 + 1.5 \(\times\) 四分位距 (IQR) 或小於下四分位數 - 1.5 \(\times\) IQR 的數值。
2. 任何距離平均值超過 2 個標準差的數值。

數據清洗 (Data Cleaning)

在分析數據之前,你必須先將其「清洗」。這包括:
處理缺失數據: 決定是要忽略它們,還是設法補回缺失值。
修正錯誤: 修改明顯的打字錯誤。
移除極端值: 僅在確定其為誤差,或會不公平地扭曲結果時才移除。

選擇正確的圖表

你可能會被要求評論 (critique) 一個數據呈現方式。
箱形圖 (Box Plots) 很適合用來顯示極端值並比較兩個不同組別的「離散程度」。
直方圖 (Histograms) 對於觀察數據的「形態」(是對稱的還是偏態的?)更有優勢。

關鍵要點: 在開始計算之前,請務必檢查數據中是否有「古怪」的數字。單一個極端值就可能完全毀掉你的平均值和標準差計算結果!


最後速覽表

1. 直方圖: 面積 = 頻率。使用頻率密度作為高度。
2. 迴歸: 內插法很安全;外推法是「危險地帶」。
3. 相關性: 不等於因果關係!
4. 標準差: 衡量數據離散程度。使用「平方的平均值減去平均值的平方再開根號」公式。
5. 極端值: 使用 1.5 \(\times\) IQR 準則或 2 個標準差準則來識別它們。