Representation and summary of data - Mathematics (XMA01) - Pearson Edexcel International AS Level

歡迎來到數據的世界！

歡迎閱讀你的 S1：統計學 1 (Statistics 1) 溫習筆記！在本章「數據的呈現與摘要」中，我們將學習如何將一堆雜亂無章的數字，轉化為清晰且具意義的故事。無論是分析考試成績還是體育統計數據，這些工具都能幫助我們了解什麼是「常態」，以及數據的變異程度。

如果起初覺得某些公式有些深奧，請不用擔心。我們會將它們拆解為簡單的步驟，並運用大量日常生活中的類比，讓你輕鬆記住！

1. 集中趨勢量度：尋找「中心」

當我們查看數據時，通常會想知道「中間」位置在哪裡。我們主要使用三個工具來找出這一點：平均值 (Mean)、中位數 (Median) 和 眾數 (Mode)。

平均值 (\(\bar{x}\))

這就是大眾口中的「平均數」。你只需將所有數值加起來，再除以數據的總個數即可。

個別數據的公式： \( \bar{x} = \frac{\sum x}{n} \)
頻數分組表的公式： \( \bar{x} = \frac{\sum fx}{\sum f} \)

中位數與眾數

中位數是將數字按順序排列後，處於正中間的數值。你可以想像它是馬路中間的「分隔帶」！眾數則是出現次數最多的數值（即頻數最高的數值）。

編碼 (Coding)：數學的「捷徑」

有時候數據值非常大（例如 1,001, 1,005, 1,010）。為了讓計算更輕鬆，我們可以透過減去一個常數或進行除法來對數據進行「編碼」。
重要法則： 如果你對所有數據點進行加/減一個數值，平均值也會隨之加/減該數值。如果你進行乘/除，平均值亦會隨之乘/除。

重點重溫：
• 平均值： 「公平分配」的平均數。
• 中位數： 精確的正中間值。
• 眾數： 最受歡迎的選項。

2. 離差量度：數據的散布程度如何？

僅僅知道中間值是不夠的。想像一下，某個地區的平均氣溫是 20°C。這可能意味著每天都是 20°C，也可能是白天 50°C 而晚上 -10°C！離差 (Dispersion) 能告訴我們實際情況。

全距 (Range) 與四分位距 (IQR)

• 全距： 最大值減去最小值。它計算簡單，但容易受到極端偏大或偏小數值的影響。
• 四分位距 (IQR)： \( Q_3 - Q_1 \)。它觀察的是中間 50% 的數據，因此排除了兩端的「極端值」。

方差 (Variance) 與標準差 (Standard Deviation, \(\sigma\))

這些工具用來衡量每個數據點與平均值的平均偏離程度。
• 標準差 = \( \sqrt{\text{Variance}} \)
記憶小撇步： 較低的標準差代表數據非常集中；較高的標準差代表數據非常分散。

插值法 (Interpolation)：在分組數據中尋找中位數

當數據以分組形式出現（例如「10-20 分鐘」）時，我們不知道確切數值。我們使用線性插值法 (Linear Interpolation) 來估算中位數的位置。
步驟：
1. 找出中位數所在的組別（即 \( \frac{n}{2} \) 的位置）。
2. 計算你需要向該組內推進多少距離。
3. 利用組距找出具體的數值。

關鍵點： 離差衡量的是「穩定性」。分散程度越小，穩定性越高！

3. 視覺化呈現數據

圖表能幫助我們看見數字背後隱藏的規律。雖然考試通常不會要求你從零開始繪製這些圖表，但你必須學會如何解讀它們。

莖葉圖 (Stem and Leaf Diagrams)

這些圖表展示了每一個原始數據，並按其「首位」數字進行分組。背對背莖葉圖 (Back-to-back stem and leaf) 是比較兩組數據（例如甲班 vs 乙班）的絕佳工具。

箱線圖 (Box Plots / Box and Whisker)

箱線圖使用了五個關鍵數字：最小值、\(Q_1\)、中位數、\(Q_3\) 和最大值。
• 「箱子」代表中間 50% 的數據（即 IQR）。
• 「鬍鬚」代表全距。

直方圖 (Histograms)

關鍵規則： 在直方圖中，面積代表頻數，而不是高度！
要計算高度（頻數密度 Frequency Density），請使用： \( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

你知道嗎？ 直方圖適用於連續數據（即需要測量的數據，如身高或時間），在這類圖表中柱條之間是沒有空隙的。

4. 偏態與離群值

有時候數據並不是對稱的，它可能會向某一邊「傾斜」。

偏態 (Skewness)

• 正偏態 (Positive Skew)： 「尾巴」在右邊，大部分數據集中在左邊。（平均值 > 中位數 > 眾數）。
• 負偏態 (Negative Skew)： 「尾巴」在左邊，大部分數據集中在右邊。（眾數 > 中位數 > 平均值）。
• 對稱 (Symmetrical)： 左右兩邊看起來像鏡像一樣。

離群值 (Outliers)

離群值是指那些遠高於或遠低於其餘數據的「異常」點。
如何識別： 考試會給你一條規則，通常如下：
離群值 > \( Q_3 + 1.5 \times \text{IQR} \)
或
離群值 < \( Q_1 - 1.5 \times \text{IQR} \)

常見錯誤： 不要僅僅因為一個數字「看起來很大」就猜測它是離群值。務必始終使用題目提供的特定數學規則！

第 4 節總結：
• 偏態描述了數據的形狀和「傾斜」方向。
• 離群值是不符合規律的極端數值。

最後的鼓勵

統計學與其說是背誦，不如說是分析。當你查看圖表或平均值時，請隨時問自己：「這些數據實際上向我揭示了現實世界中的什麼情況？」你一定做得到！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。