歡迎來到數據表示與詮釋!

在本章中,我們將學習如何將一堆雜亂無章的數字轉化為人人都能讀懂的故事。無論是分析籃球隊的身高,還是比較冰淇淋銷量與天氣之間的關係,統計學都能幫助我們洞察規律。如果你剛開始覺得數字很多、很混亂,別擔心——我們會把所有內容拆解成簡單易懂的小步驟!


1. 單變量數據的表示

當我們只測量一項「事物」(例如蘋果的重量)時,這稱為單變量數據。我們可以使用幾種不同的圖表來將這些數據視覺化。

圖表的主要類型

  • 垂直線圖 (Vertical Line Charts): 適用於離散數據(可以計數的事物)。
  • 莖葉圖 (Stem-and-Leaf Diagrams): 這類圖表非常實用,因為它們既能展示數據的分佈形態,又能保留所有原始數值。
  • 盒鬚圖 (Box-and-Whisker Plots): 這些圖表展示了「五數概括法」(最小值、下四分位數、中位數、上四分位數和最大值)。對於觀察數據的離散程度非常有效。
  • 累積頻數圖 (Cumulative Frequency Diagrams): 一種「累計總和」圖表,用於估算中位數和四分位數。

直方圖 (Histograms): 「面積」法則

直方圖看起來像長條圖,但它們用於連續數據(可以測量的事物,例如時間或重量),且長條的寬度通常不同。
關鍵點: 在直方圖中,長條的面積代表頻數,而不僅僅是高度!

你需要運用的公式為:
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

比喻:把直方圖的一個長條想像成一塊麵糰。如果你把長條拉寬(組距),高度(頻數密度)就必須降低,這樣麵糰的總量(頻數)才會保持不變!

快速回顧:如何選擇圖表
  • 想要保留所有原始數據?使用莖葉圖
  • 想要比較兩組數據的離散程度?使用盒鬚圖
  • 處理連續數據且分組大小不等?使用直方圖

重點提示: 在閱讀直方圖時,一定要檢查座標軸刻度!頻數等於面積,所以你必須將高度乘以寬度,才能算出該組中有多少數據。


2. 平均指標(集中趨勢)

我們使用「平均指標」來找出數據中的「中間」或「典型」數值。

三大核心指標

1. 平均值 (\(\bar{x}\)): 將所有數值相加,再除以數據總個數。
\( \bar{x} = \frac{\sum x}{n} \)
2. 中位數: 當數據按順序排列時,位於中間的數值。
3. 眾數: 出現次數最多的數值。

從頻數分佈表中計算平均值

如果數據是在表格中,我們使用:\( \bar{x} = \frac{\sum fx}{\sum f} \)。
重要提示: 如果數據是分組數據(例如「10至20分鐘」),我們使用每一組的組中點來計算平均值。由於我們使用的是組中點,計算出來的結果僅是平均值的估算值,而非確切數值。

你知道嗎?「中位數」(Median) 這個詞就像公路中間的分隔島,它正好位於中心位置!

重點提示: 平均值容易受極端值(離群值)影響,但中位數則更為「穩健」,即便數據集中出現一個非常怪異的數字,它依然能保持穩定。


3. 離散程度指標(變異)

平均指標告訴我們中間在哪裡,而變異則告訴我們數據是緊密聚集在一起,還是分散得很開。

四分位數與百分位數

  • 下四分位數 (\(Q_1\)): 數據排列後處於 25% 位置的數值。
  • 上四分位數 (\(Q_3\)): 數據排列後處於 75% 位置的數值。
  • 四分位距 (IQR): \(Q_3 - Q_1\)。這能告訴我們中間 50% 的數據分散程度如何。

標準差與方差

標準差 (\(\sigma\)) 是一種更精密的衡量離散程度的方法。它告訴我們數據相對於平均值的「平均距離」。方差則是標準差的平方 (\(\sigma^2\))。

標準差的公式為:
\( \sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \) 或頻數分佈表使用 \( \sigma = \sqrt{\frac{\sum f x^2}{\sum f} - \bar{x}^2} \)。

常見錯誤: 最後忘了進行開根號。如果你忘了開根號,你算出來的是方差,而不是標準差!

重點提示: 標準差小意味著數據非常一致,且非常接近平均值。標準差大則意味著數據「分佈得很廣」。


4. 離群值與數據清理

有時數據中會包含一些不符合規律的「怪異」結果。這些稱為離群值 (outliers)

如何找出離群值

在 OCR 考試中,通常會提供特定的規則來識別離群值。最常見的規則如下:

  1. 任何大於 \(Q_3 + 1.5 \times \text{IQR}\) 或小於 \(Q_1 - 1.5 \times \text{IQR}\) 的數值。
  2. 任何距離平均值超過 2 個標準差的數值 (\(\bar{x} \pm 2\sigma\))。

數據清理

數據清理是指處理這些離群值、缺失值或明顯錯誤的過程。如果某個離群值是因為輸入錯誤(例如某人的身高被輸入為 500 公分!),你可以選擇將其移除,但你必須說明移除它的理由。

重點提示: 不要只是無視奇怪的數字!使用上述公式來證明它們是離群值,然後再決定是否保留它們。


5. 雙變量數據(兩個變量)

當我們同時觀察兩件事物(例如「複習時數」與「考試分數」)時,這稱為雙變量數據

散點圖與相關性

我們將這些數據畫在散點圖上以尋找相關性(一種關係):

  • 正相關: 一個增加,另一個也增加(例如:身高與鞋號)。
  • 負相關: 一個增加,另一個減少(例如:汽車價格與車齡)。
  • 無相關: 沒有明顯的規律(例如:智商與門牌號碼)。

相關性 vs. 因果關係

這是考試的熱門考點! 兩件事物相關並不代表其中一個導致了另一個。
例子:鯊魚襲擊次數和冰淇淋銷量都會在夏天增加。它們是相關的,但吃冰淇淋並不會導致鯊魚襲擊!背後的「隱藏原因」是炎熱的天氣。

迴歸線

迴歸線是一條穿過平均點 \((\bar{x}, \bar{y})\) 的「最佳擬合線」。在 AS Level 中,你不需要計算這條線的方程式,但你必須能夠詮釋它。例如,利用這條線在數據範圍內進行預測(內插法,interpolation)通常是可靠的,但在範圍外進行預測(外推法,extrapolation)則非常有風險!

重點提示: 相關性關乎「規律」,因果關係關乎「原因」。在討論預測時,務必使用「內插法」或「外推法」這些術語。


總結檢查清單

  • 我會使用計算機的統計模式計算平均值和標準差嗎?
  • 我記住了直方圖的面積 = 頻數嗎?
  • 我會使用 \(1.5 \times \text{IQR}\) 規則找出離群值嗎?
  • 我明白為什麼相關性並不總是代表因果關係嗎?

你一定做得到的!多練習這些定義和公式,無論遇到什麼數據集,你都能輕鬆應對並做出詮釋。