歡迎來到數據的世界!

歡迎閱讀你的 S1:統計學 1 (Statistics 1) 溫習筆記!在本章「數據的呈現與摘要」中,我們將學習如何將一堆雜亂無章的數字,轉化為清晰且具意義的故事。無論是分析考試成績還是體育統計數據,這些工具都能幫助我們了解什麼是「常態」,以及數據的變異程度。

如果起初覺得某些公式有些深奧,請不用擔心。我們會將它們拆解為簡單的步驟,並運用大量日常生活中的類比,讓你輕鬆記住!

1. 集中趨勢量度:尋找「中心」

當我們查看數據時,通常會想知道「中間」位置在哪裡。我們主要使用三個工具來找出這一點:平均值 (Mean)中位數 (Median)眾數 (Mode)

平均值 (\(\bar{x}\))

這就是大眾口中的「平均數」。你只需將所有數值加起來,再除以數據的總個數即可。

個別數據的公式: \( \bar{x} = \frac{\sum x}{n} \)
頻數分組表的公式: \( \bar{x} = \frac{\sum fx}{\sum f} \)

中位數與眾數

中位數是將數字按順序排列後,處於正中間的數值。你可以想像它是馬路中間的「分隔帶」!眾數則是出現次數最多的數值(即頻數最高的數值)。

編碼 (Coding):數學的「捷徑」

有時候數據值非常大(例如 1,001, 1,005, 1,010)。為了讓計算更輕鬆,我們可以透過減去一個常數或進行除法來對數據進行「編碼」。
重要法則: 如果你對所有數據點進行加/減一個數值,平均值也會隨之加/減該數值。如果你進行乘/除,平均值亦會隨之乘/除。

重點重溫:
平均值: 「公平分配」的平均數。
中位數: 精確的正中間值。
眾數: 最受歡迎的選項。

2. 離差量度:數據的散布程度如何?

僅僅知道中間值是不夠的。想像一下,某個地區的平均氣溫是 20°C。這可能意味著每天都是 20°C,也可能是白天 50°C 而晚上 -10°C!離差 (Dispersion) 能告訴我們實際情況。

全距 (Range) 與 四分位距 (IQR)

全距: 最大值減去最小值。它計算簡單,但容易受到極端偏大或偏小數值的影響。
四分位距 (IQR): \( Q_3 - Q_1 \)。它觀察的是中間 50% 的數據,因此排除了兩端的「極端值」。

方差 (Variance) 與 標準差 (Standard Deviation, \(\sigma\))

這些工具用來衡量每個數據點與平均值的平均偏離程度。
標準差 = \( \sqrt{\text{Variance}} \)
記憶小撇步: 較低的標準差代表數據非常集中;較高的標準差代表數據非常分散。

插值法 (Interpolation):在分組數據中尋找中位數

當數據以分組形式出現(例如「10-20 分鐘」)時,我們不知道確切數值。我們使用線性插值法 (Linear Interpolation) 來估算中位數的位置。
步驟:
1. 找出中位數所在的組別(即 \( \frac{n}{2} \) 的位置)。
2. 計算你需要向該組內推進多少距離。
3. 利用組距找出具體的數值。

關鍵點: 離差衡量的是「穩定性」。分散程度越小,穩定性越高!

3. 視覺化呈現數據

圖表能幫助我們看見數字背後隱藏的規律。雖然考試通常不會要求你從零開始繪製這些圖表,但你必須學會如何解讀它們。

莖葉圖 (Stem and Leaf Diagrams)

這些圖表展示了每一個原始數據,並按其「首位」數字進行分組。背對背莖葉圖 (Back-to-back stem and leaf) 是比較兩組數據(例如甲班 vs 乙班)的絕佳工具。

箱線圖 (Box Plots / Box and Whisker)

箱線圖使用了五個關鍵數字:最小值、\(Q_1\)、中位數、\(Q_3\) 和最大值
• 「箱子」代表中間 50% 的數據(即 IQR)。
• 「鬍鬚」代表全距。

直方圖 (Histograms)

關鍵規則: 在直方圖中,面積代表頻數,而不是高度!
要計算高度(頻數密度 Frequency Density),請使用: \( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

你知道嗎? 直方圖適用於連續數據(即需要測量的數據,如身高或時間),在這類圖表中柱條之間是沒有空隙的。

4. 偏態與離群值

有時候數據並不是對稱的,它可能會向某一邊「傾斜」。

偏態 (Skewness)

正偏態 (Positive Skew): 「尾巴」在右邊,大部分數據集中在左邊。(平均值 > 中位數 > 眾數)。
負偏態 (Negative Skew): 「尾巴」在左邊,大部分數據集中在右邊。(眾數 > 中位數 > 平均值)。
對稱 (Symmetrical): 左右兩邊看起來像鏡像一樣。

離群值 (Outliers)

離群值是指那些遠高於或遠低於其餘數據的「異常」點。
如何識別: 考試會給你一條規則,通常如下:
離群值 > \( Q_3 + 1.5 \times \text{IQR} \)

離群值 < \( Q_1 - 1.5 \times \text{IQR} \)

常見錯誤: 不要僅僅因為一個數字「看起來很大」就猜測它是離群值。務必始終使用題目提供的特定數學規則!

第 4 節總結:
偏態描述了數據的形狀和「傾斜」方向。
離群值是不符合規律的極端數值。

最後的鼓勵

統計學與其說是背誦,不如說是分析。當你查看圖表或平均值時,請隨時問自己:「這些數據實際上向我揭示了現實世界中的什麼情況?」你一定做得到!