Single variable data - Mathematics A - H230 - Cambridge OCR AS Level

歡迎來到單變量數據的世界！

在這個章節中，我們將學習如何將一堆雜亂無章的數字，轉化為有意義的資訊。無論是班上同學的身高，還是劍橋每天的降雨量，統計學都能幫助我們洞察其中的規律。我們將探討如何繪製數據圖表、如何找出數據的「中間值」，以及如何測量數據的「分散程度」。別擔心如果你之前覺得統計學很難，我們會一步一步來帶你掌握！

1. 數據的可視化表達

比起一長串的數字，圖表通常更容易理解。根據你的數據性質，選擇合適的圖表會讓結果更清晰。

莖葉圖 (Stem-and-Leaf Diagrams)

你可以把它想像成一種整理數據的方式，同時還能保留原始數值。「莖」是前面的位數，「葉」是最後一位數。
例子：如果你有數字 21、23 和 35：
莖是 2，葉是 1 和 3。
莖是 3，葉是 5。
記憶小撇步：就像真的植物一樣，葉子從莖長出來。記得一定要加上圖例 (key)（例如：2 | 1 代表 21），這樣大家才會知道你的單位是什麼！

盒鬚圖 (Box-and-Whisker Plots)

這類圖表非常適合展示數據的「分散程度」。它們運用了五個關鍵數字：
1. 最小值 (minimum)（最低數值）
2. 下四分位數 (Q1)（位於數據 25% 的位置）
3. 中位數 (Q2)（位於中間的位置）
4. 上四分位數 (Q3)（位於數據 75% 的位置）
5. 最大值 (maximum)（最高數值）
類比：想像一把尺。盒子代表了排隊人群中間 50% 的人。如果盒子很寬，代表中間這群人的差異很大；如果盒子很窄，代表他們非常相似。

直方圖 (Histograms)

直方圖看起來像柱狀圖，但有一個非常重要的規則：面積代表頻數 (Frequency)。
這對於組距 (class width) 不同的數據至關重要。我們不再單純在縱軸繪製「頻數」，而是繪製頻數密度 (Frequency Density)。
\( \text{頻數密度} = \frac{\text{頻數}}{\text{組距}} \)
常見錯誤：如果組距不同，千萬不要只根據頻數來畫高度。一定要先計算密度！

重點總結：根據你想呈現的重點來選擇圖表。使用盒鬚圖來比較數據的分散程度，使用直方圖來展示數據分佈的「形狀」。

2. 集中趨勢測量（即「平均值」）

當我們想用一個數字來描述整個群體時，我們會使用平均值。

算術平均數 (Mean, \( \bar{x} \))

這是最「公平」的平均值。將所有數值加總，然後除以數據的總個數。
\( \bar{x} = \frac{\sum x}{n} \)
你知道嗎？平均數非常容易受極端值 (outliers)（異常數值）影響。如果一個億萬富翁走進一間教室，即使其他人都身無分文，整間教室的「平均」財富也會瞬間變成數百萬！

中位數 (Median)

真正的中間值。將數字由小到大排列，找出最中間的那個點。
簡單技巧：如果數據個數是奇數，中位數就是最中間那個；如果是偶數，則取中間兩個數的平均值。

眾數 (Mode)

出現次數最多的數值。這是唯一可以用於非數值數據（如「最喜歡的顏色」）的平均值。

關鍵總結：如果數據中含有極端值，請使用中位數，因為它不會被那些突兀的極大或極小數值給「拉走」。

3. 離散程度測量（即「分散程度」）

只知道平均值是不夠的。我們還需要知道數據是聚在一起，還是四散分佈。

全距與四分位距 (Range and Inter-quartile Range, IQR)

全距：最大值 - 最小值。（極易受極端值影響）。
四分位距 (IQR)： \( Q_3 - Q_1 \)。這代表了中間 50% 數據的分散情況，因為忽略了兩端的極端值，所以它更可靠。

方差與標準差 (Variance and Standard Deviation, \( \sigma \))

標準差是「平均距離平均值的距離」。如果標準差很小，代表數據都非常接近平均值。
課程定義標準差為與平均值偏差的平方根平均值 (root mean square deviation from the mean)。你可以使用以下公式：
\( \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \) 或計算用公式： \( \sigma = \sqrt{\frac{\sum x^2}{n} - \bar{x}^2} \)
方差 (Variance) 則是標準差的平方 (\( \sigma^2 \))。

如果這看起來很複雜，別擔心！你的計算機有「統計模式 (Statistics mode)」可以幫你完成大部分繁重的計算。多練習使用 \(\sum x\) 和 \(\sum x^2\) 按鈕吧！

關鍵總結：標準差運用了每一個數據點，因此非常強大；但如果數據非常「混亂」且包含大量極端值，四分位距 (IQR) 會是更好的選擇。

4. 極端值與數據清理

有時數據本身就是錯的——也許有人打錯了字，或者感測器壞了。我們稱這些為極端值 (outliers)。

如何找出極端值

在考試中，你通常會使用以下兩種數學「柵欄」來找出極端值：
1. IQR 規則：任何高於 \( Q_3 + 1.5 \times IQR \) 或低於 \( Q_1 - 1.5 \times IQR \) 的數值。
2. 標準差規則：任何距離平均值超過 \( 2 \times \sigma \) 的數值。
類比：把這些規則想成「保安」。如果某個數據點離群體太遠，保安就會把它標記出來進行檢查！

數據清理 (Cleaning Data)

當你找到一個極端值時，必須做出判斷：它是真實存在（但很奇怪）的數據，還是一個錯誤？清理數據的過程就是識別這些錯誤，並決定在開始計算前應該刪除還是修正它們。

快速回顧：
• 檢查有無輸入錯誤。
• 計算使用 \( 1.5 \times IQR \) 的「柵欄」。
• 決定根據實際情境，該極端值是保留還是刪除。

關鍵詞彙總結

總體 (Population)：你所感興趣的完整群體。
樣本 (Sample)：你實際測量的一小部分總體。
頻數密度 (Frequency Density)：直方圖中柱狀的高度。
集中趨勢 (Central Tendency)：「平均值」的專業說法（算術平均數、中位數、眾數）。
離散程度 (Variation)：「分散程度」的專業說法（四分位距、標準差）。
估計值 (Estimates)：當數據被分組時（例如「10-20 分鐘」），我們不知道確切數值，因此計算出的平均值只能是基於組中點的估計值。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。