歡迎來到數據的呈現與摘要!

看著一大堆數字感到頭昏腦脹?別擔心,我們都曾經歷過!這一章將成為你的工具箱,幫助你將「數據混亂」轉化為清晰且有意義的觀點。無論你是在分析考試成績、天氣模式還是體育數據,這裡學到的技巧都能讓你像專業人士一樣視覺化並總結資訊。

為什麼這很重要? 在現實世界中,「大數據」無處不在。企業正是利用這些方法來決定銷售哪些產品,醫生則利用它們來評估新藥的療效。學完這一章,你就能學會「說」數據的語言!


1. 數據視覺化:圖表會說話

有時候,一張圖表勝過一千個數字。我們在 S1 單元中主要使用三種圖表來觀察數據的「形態」。

A. 莖葉圖 (Stem and Leaf Diagrams)

將此視為將數字整理到「書架」上的方法。「莖」就像書架的分類(例如:十位數),而「葉」則是個別的項目(例如:個位數)。

關鍵點: 一定要包含圖例 (Key)!例如:圖例:2 | 5 代表 25。沒有圖例,你的圖表只是一堆令人困惑的數字。

現實類比: 想像你按顏色對衣服進行分類(莖),然後查看每一堆裡有多少雙襪子、襯衫和褲子(葉)。

B. 箱型圖 (Box Plots / Box-and-Whisker)

這對於並排比較兩組數據(例如兩支籃球隊的身高)非常有效。箱型圖顯示了五個關鍵數值:

  1. 最小值 (Minimum)
  2. 下四分位數 (\(Q_1\)):25% 的標記點。
  3. 中位數 (\(Q_2\)):中間值(50% 的標記點)。
  4. 上四分位數 (\(Q_3\)):75% 的標記點。
  5. 最大值 (Maximum)

C. 直方圖 (Histograms)

直方圖很特別。與長條圖不同,直方圖的面積代表頻數,而不是高度。我們將其用於連續數據(例如我們測量出來的時間或重量)。

黃金公式: \( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

常見錯誤: 如果組距 (Class Width) 不同,千萬不要直接在縱軸繪製頻數。一定要先計算頻數密度 (Frequency Density)

快速回顧:
- 莖葉圖: 最適合查看每個個別數值。
- 箱型圖: 最適合比較數據的分佈範圍和中位數。
- 直方圖: 最適合展示測量數據的分佈情況。


2. 位置度量:尋找「中心」

數據的「位置」在哪裡?我們使用三個主要的「平均數」來找出答案。

三大主力:眾數、中位數和平均數

  • 眾數 (Mode): 出現最多次的數值。(最熱門的!)
  • 中位數 (\(Q_2\)): 當數字按順序排列時中間的數值。如果有 \(n\) 個項目,位置在 \(\frac{n+1}{2}\)。
  • 平均數 (\(\bar{x}\)): 「公平分配」的平均。將所有數值加總,然後除以項數。
    公式:\( \bar{x} = \frac{\sum x}{n} \) 或針對分組數據:\( \bar{x} = \frac{\sum fx}{\sum f} \)。

理解編碼 (Coding)

如果剛開始覺得這很棘手,別擔心!編碼只是一種讓大數字變小、更容易處理的方法。我們使用類似 \( y = \frac{x - a}{b} \) 的公式來「編碼」數據。

簡單技巧:
- 如果你對每個數值加或減一個數,平均數也會隨之改變相同的量。
- 如果你對每個數值乘或除一個數,平均數也會隨之被乘或除。

例子: 如果平均氣溫是 20°C,我們將每個讀數增加 5°,新的平均值就是 25°C。很簡單吧!

重點: 平均數對數據集中的每一個數字都很敏感,而中位數只在乎中間的位置。


3. 離散度度量:數據有多「分散」?

兩組數據可能有相同的平均數,但看起來卻完全不同。離散度告訴我們數據是緊密聚集在一起,還是非常分散。

全距 (Range) 與四分位距 (IQR)

  • 全距: 最大值減最小值。計算簡單,但容易受到一個極端大或極端小數值(離群值)的干擾。
  • 四分位距: \( \text{IQR} = Q_3 - Q_1 \)。它告訴我們中間 50% 數據的分佈範圍。它可靠得多,因為它忽略了兩端的那些「奇怪」數值!

變異數 (Variance) 與標準差 (Standard Deviation)

這些是統計學的「重量級人物」。它們告訴我們數據點距離平均值的平均距離。

  • 變異數 (\(\sigma^2\)): 「平方值的平均數 減去 平均數的平方」。
    公式:\( \sigma^2 = \frac{\sum x^2}{n} - (\bar{x})^2 \)
  • 標準差 (\(\sigma\)): 就是變異數的平方根!
    公式:\( \sigma = \sqrt{\text{Variance}} \)

記憶小撇步: 對於變異數,記住「MS-SM」(Mean of the Squares minus Square of the Mean,平方值的平均減平均的平方)。這在考試中是救命稻草!

你知道嗎? 標準差在金融領域被用來衡量「風險」。股票價格的高標準差意味著它是一個「顛簸的旅程」(高風險)!


4. 偏態與離群值

現在我們來看看數據的「性格」。它是平衡的,還是向一邊傾斜?

偏態 (Skewness)

想像數據分佈是一座小山。
- 正偏態 (Positive Skew): 「尾巴」指向右邊(正向)。大多數數據聚集在低端。(想像:貧困地區裡的少數富人)。
- 負偏態 (Negative Skew): 「尾巴」指向左邊(負向)。大多數數據聚集在高端。(想像:大多數學生都拿高分的簡單考試)。
- 對稱: 它看起來像一個完美的鐘形。平均數 \(\approx\) 中位數 \(\approx\) 眾數。

離群值 (Outliers)

離群值是一個比其餘數據大得多或小得多的「叛逆」數據點。在考試中,會給你一個找出它們的規則。
常見規則: 任何大於 \( Q_3 + 1.5 \times \text{IQR} \) 或小於 \( Q_1 - 1.5 \times \text{IQR} \) 的數值。
逐步操作:
1. 計算 \( \text{IQR} = Q_3 - Q_1 \)。
2. 將其乘以 1.5。
3. 將結果加到 \(Q_3\)(上限)並從 \(Q_1\) 中減去(下限)。
4. 落在這些邊界之外的任何點都是離群值

關鍵提醒: 在繪製箱型圖的鬚線 (whiskers) 之前,請務必檢查離群值!鬚線通常在最後一個「正常」數據點停止,而離群值則用 'x' 標記。


最終總結清單

在繼續學習之前,確保你能:
- 為直方圖計算頻數密度。
- 從清單或表格中找出中位數四分位數
- 使用「平方值的平均減平均的平方」來計算變異數。
- 使用 \(1.5 \times \text{IQR}\) 規則辨識離群值
- 解釋數據是正偏態還是負偏態

你一定做得到的!多練習幾題關於編碼和直方圖的題目,因為那是本章最「棘手」的部分。祝你好運!