前言:歡迎來到數據的世界!

你有沒有想過公司是如何預測你的購物喜好,或者科學家又是如何解讀成千上萬份醫學報告的?這一切都始於數據呈現與解讀(Data Presentation and Interpretation)。在本章中,我們將學習如何將雜亂無章的數字轉化為清晰且具意義的圖表與摘要。別擔心統計學會讓你覺得跟「純數學」格格不入——把它想成是用數字來訴說關於現實世界的故事吧!

1. 數據視覺化:宏觀視野

在進行任何計算之前,我們通常需要先「看見」數據。不同的圖表能告訴我們不同的資訊。

直方圖(Histograms)

與你在學校用過的條形圖不同,直方圖中長條的面積代表的是頻數(frequency),而不僅僅是高度。當「組距」(底部的分組)大小不同時,這一點至關重要。

關鍵公式:
\( \text{頻數密度 (Frequency Density)} = \frac{\text{頻數}}{\text{組距}} \)

比喻:將頻數密度想像成「擁擠程度」。如果你把 10 個人塞進一個極小的房間,你會感覺非常擁擠(高密度)。如果這 10 個人散佈在一個足球場上,感覺就很空曠(低密度)。而「面積」則代表了總人數。

盒鬚圖(Box and Whisker Plots)

這對於觀察數據的「離散程度」非常有效。它們展示了最小值下四分位數 (Q1)中位數 (Q2)上四分位數 (Q3) 以及最大值

快速回顧:
- 中位數:中間的數值。
- 四分位距 (IQR): \( Q3 - Q1 \)。這能告訴你中間 50% 的數據分佈有多廣。

累積頻數(Cumulative Frequency)

這是一種顯示「累計總和」的圖表。它永遠是上升的!我們用它來估算分組數據的中位數和百分位數。

總結:圖表能幫助我們快速發現規律和異常值。記得隨時檢查坐標軸上的標籤!

2. 集中趨勢測量(「平均值」)

我們使用這些測量值來找出數據集中的「典型」數值。

  • 平均數 (\( \bar{x} \)):所有數值的總和除以數據個數。它利用了每一個數據點,但容易被極端值「拉偏」。
  • 中位數:中間的數值。它對異常值具有很強的抗干擾性
  • 眾數:出現次數最多的數值。非常適合處理非數值數據(例如最喜歡的顏色)。

常見錯誤:對於含有幾個巨大異常值的數據(例如普通辦公室中億萬富翁的薪水)使用平均數。在這種情況下,中位數作為「典型」數值會準確得多!

3. 離散程度測量(「變異性」)

僅僅知道平均值是不夠的,我們還需要知道數據是聚在一起,還是分散得很開。

標準差(Standard Deviation)

這是 A Level 中最常見的離散程度測量工具。它告訴我們平均而言,數據點距離平均值有多遠。

\( S_{xx} \) 的「捷徑」公式:
\( S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} \)

標準差 (\( \sigma \)):
\( \sigma = \sqrt{\frac{S_{xx}}{n}} \)

記憶小撇步:要記住公式順序,試著唸:「平方的平均值減去平均值的平方。」

編碼(Coding)

有時數據非常巨大(例如 100,005, 100,010)。我們可以對其進行「編碼」來簡化數據(例如減去 100,000)。
如果我們使用代碼 \( y = \frac{x - a}{b} \):
1. 平均數遵循編碼規律: \( \bar{y} = \frac{\bar{x} - a}{b} \)。
2. 標準差僅受乘除法影響: \( \sigma_y = \frac{\sigma_x}{b} \)。 (加減法不會改變數據的「離散程度」!)

總結:標準差用於衡量分散程度,而編碼能簡化計算過程,同時保留數據內在的規律。

4. 相關性與迴歸(Correlation and Regression)

這用於處理雙變量數據(Bivariate Data)(即包含兩個變量的數據,如身高和體重)。

散點圖(Scatter Diagrams)

  • 解釋(自)變量:通常位於 \( x \)-軸。這是我們認為能「解釋」變化的變量。
  • 響應(因)變量:通常位於 \( y \)-軸。這是我們正在測量的結果。

相關性與因果關係(Correlation vs. Causation)

你知道嗎?鯊魚襲擊次數與雪糕銷量高度相關。但吃雪糕會導致鯊魚攻擊嗎?當然不會!兩者上升是因為夏天到了。這就是為什麼我們說「相關不代表因果」

迴歸線(Regression Lines)

迴歸線(最佳擬合線)讓我們能夠進行預測。
- 內插法(Interpolation):在已知數據範圍「之內」進行預測。這通常比較可靠。
- 外推法(Extrapolation):在已知數據範圍「之外」進行預測。警告!這非常危險且通常不準確。

總結:迴歸線用於預測,但請勿過度依賴數據範圍之外的結果!

5. 數據清理與識別異常值

現實世界的數據通常很雜亂,充滿了錯誤、缺失值以及稱為異常值(outliers)的怪異數據點。

尋找異常值

你通常會得到一套尋找異常值的規則,常見的有:
1. 超出 \( Q3 + 1.5 \times IQR \) 或低於 \( Q1 - 1.5 \times IQR \) 的數值。
2. 距離平均值超過 \( 3 \times \text{標準差} \) 的數值。

數據清理

如果你發現了一個錯誤(例如某人的身高被寫成 20 米),你應該將其剔除,這稱為數據清理(cleaning the data)。如果它是真實存在但數值奇特的數據,你可能會選擇保留,但將其標記為異常值。

重點提示:計算前先看一眼你的數據。如果一個數字看起來「不可能」,那它很可能就是錯誤的!

成功的小撇步

1. 閱讀背景:如果題目是關於「日平均氣溫」,你的答案就不可能是 500 度!
2. 計算機技巧:學會如何在計算機的「統計」模式下輸入數據。它能在幾秒鐘內幫你算出平均數和標準差!
3. 別驚慌:如果公式看起來很嚇人,把它拆解成一步一步來。大部分的分數都是給予那些能正確遵循計算步驟的同學。