歡迎來到單變量數據的世界!

在這個章節中,我們將學習如何將一堆雜亂無章的數字,轉化為有意義的資訊。無論是班上同學的身高,還是劍橋每天的降雨量,統計學都能幫助我們洞察其中的規律。我們將探討如何繪製數據圖表、如何找出數據的「中間值」,以及如何測量數據的「分散程度」。別擔心如果你之前覺得統計學很難,我們會一步一步來帶你掌握!

1. 數據的可視化表達

比起一長串的數字,圖表通常更容易理解。根據你的數據性質,選擇合適的圖表會讓結果更清晰。

莖葉圖 (Stem-and-Leaf Diagrams)

你可以把它想像成一種整理數據的方式,同時還能保留原始數值。「莖」是前面的位數,「葉」是最後一位數。
例子:如果你有數字 21、23 和 35:
莖是 2,葉是 1 和 3。
莖是 3,葉是 5。
記憶小撇步:就像真的植物一樣,葉子從莖長出來。記得一定要加上圖例 (key)(例如:2 | 1 代表 21),這樣大家才會知道你的單位是什麼!

盒鬚圖 (Box-and-Whisker Plots)

這類圖表非常適合展示數據的「分散程度」。它們運用了五個關鍵數字:
1. 最小值 (minimum)(最低數值)
2. 下四分位數 (Q1)(位於數據 25% 的位置)
3. 中位數 (Q2)(位於中間的位置)
4. 上四分位數 (Q3)(位於數據 75% 的位置)
5. 最大值 (maximum)(最高數值)
類比:想像一把尺。盒子代表了排隊人群中間 50% 的人。如果盒子很寬,代表中間這群人的差異很大;如果盒子很窄,代表他們非常相似。

直方圖 (Histograms)

直方圖看起來像柱狀圖,但有一個非常重要的規則:面積代表頻數 (Frequency)
這對於組距 (class width) 不同的數據至關重要。我們不再單純在縱軸繪製「頻數」,而是繪製頻數密度 (Frequency Density)
\( \text{頻數密度} = \frac{\text{頻數}}{\text{組距}} \)
常見錯誤:如果組距不同,千萬不要只根據頻數來畫高度。一定要先計算密度!

重點總結:根據你想呈現的重點來選擇圖表。使用盒鬚圖來比較數據的分散程度,使用直方圖來展示數據分佈的「形狀」。

2. 集中趨勢測量(即「平均值」)

當我們想用一個數字來描述整個群體時,我們會使用平均值。

算術平均數 (Mean, \( \bar{x} \))

這是最「公平」的平均值。將所有數值加總,然後除以數據的總個數。
\( \bar{x} = \frac{\sum x}{n} \)
你知道嗎?平均數非常容易受極端值 (outliers)(異常數值)影響。如果一個億萬富翁走進一間教室,即使其他人都身無分文,整間教室的「平均」財富也會瞬間變成數百萬!

中位數 (Median)

真正的中間值。將數字由小到大排列,找出最中間的那個點。
簡單技巧:如果數據個數是奇數,中位數就是最中間那個;如果是偶數,則取中間兩個數的平均值。

眾數 (Mode)

出現次數最多的數值。這是唯一可以用於非數值數據(如「最喜歡的顏色」)的平均值。

關鍵總結:如果數據中含有極端值,請使用中位數,因為它不會被那些突兀的極大或極小數值給「拉走」。

3. 離散程度測量(即「分散程度」)

只知道平均值是不夠的。我們還需要知道數據是聚在一起,還是四散分佈。

全距與四分位距 (Range and Inter-quartile Range, IQR)

全距:最大值 - 最小值。(極易受極端值影響)。
四分位距 (IQR): \( Q_3 - Q_1 \)。這代表了中間 50% 數據的分散情況,因為忽略了兩端的極端值,所以它更可靠。

方差與標準差 (Variance and Standard Deviation, \( \sigma \))

標準差是「平均距離平均值的距離」。如果標準差很小,代表數據都非常接近平均值。
課程定義標準差與平均值偏差的平方根平均值 (root mean square deviation from the mean)。你可以使用以下公式:
\( \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \) 或計算用公式: \( \sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \)
方差 (Variance) 則是標準差的平方 (\( \sigma^2 \))。

如果這看起來很複雜,別擔心!你的計算機有「統計模式 (Statistics mode)」可以幫你完成大部分繁重的計算。多練習使用 \(\sum x\) 和 \(\sum x^2\) 按鈕吧!

關鍵總結:標準差運用了每一個數據點,因此非常強大;但如果數據非常「混亂」且包含大量極端值,四分位距 (IQR) 會是更好的選擇。

4. 極端值與數據清理

有時數據本身就是錯的——也許有人打錯了字,或者感測器壞了。我們稱這些為極端值 (outliers)

如何找出極端值

在考試中,你通常會使用以下兩種數學「柵欄」來找出極端值:
1. IQR 規則:任何高於 \( Q_3 + 1.5 \times IQR \) 或低於 \( Q_1 - 1.5 \times IQR \) 的數值。
2. 標準差規則:任何距離平均值超過 \( 2 \times \sigma \) 的數值。
類比:把這些規則想成「保安」。如果某個數據點離群體太遠,保安就會把它標記出來進行檢查!

數據清理 (Cleaning Data)

當你找到一個極端值時,必須做出判斷:它是真實存在(但很奇怪)的數據,還是一個錯誤?清理數據的過程就是識別這些錯誤,並決定在開始計算前應該刪除還是修正它們。

快速回顧:
檢查有無輸入錯誤。
計算使用 \( 1.5 \times IQR \) 的「柵欄」。
決定根據實際情境,該極端值是保留還是刪除。

關鍵詞彙總結

總體 (Population):你所感興趣的完整群體。
樣本 (Sample):你實際測量的一小部分總體。
頻數密度 (Frequency Density):直方圖中柱狀的高度。
集中趨勢 (Central Tendency):「平均值」的專業說法(算術平均數、中位數、眾數)。
離散程度 (Variation):「分散程度」的專業說法(四分位距、標準差)。
估計值 (Estimates):當數據被分組時(例如「10-20 分鐘」),我們不知道確切數值,因此計算出的平均值只能是基於組中點的估計值