Interpreting statistical data - Mathematics (0580) - Cambridge IGCSE

歡迎來到統計學：數據解讀！

各位未來的數據小神童，大家好！這一章「統計數據解讀」是數學中最實用的部分之一。為什麼這麼說？因為我們生活在一個資訊氾濫的世界，從薪資水平的新聞報導到追蹤氣候變化的圖表，無處不在。理解統計學意味著你可以釐清這些數據背後的意義，避免被誤導！
我們將學習如何整理數據、計算關鍵指標（如平均值），並運用圖表來清晰地傳達資訊。讓我們開始吧！

第一節：數據分類與列表 (C10.1, C10.3)

1.1 統計數據的類型

在進行任何計算之前，我們必須知道我們處理的是哪種數據。數據主要分為兩類：

離散數據 (Discrete Data)

離散數據源自於點算 (counting)，其數值通常只能是特定的整數。它不能透過測量得出。
例子：學生的兄弟姊妹人數（1、2、3...）、停車場內的汽車數量、鞋碼（這是標準化的數值）。

連續數據 (Continuous Data)

連續數據源自於測量 (measuring)，在特定範圍內可以取任何數值，精度通常受限於測量工具的準確度。
例子：身高、體重、溫度、跑完賽程所需的時間（例如：1.5秒、1.57秒、1.573秒等）。

小貼士： 如果你需要「點算」出來的，它就是離散數據。如果你需要用尺或磅秤來「測量」的，它就是連續數據。

1.2 數據列表（正字統計與雙向表格）

數據通常剛開始是一團亂的，我們會使用表格來整理它。

正字統計與頻數分佈

簡單的頻數分佈表 (frequency distribution) 顯示了每個數據值出現的次數。你可以使用「正」字或劃線（每五個一組：| | | | $\cancel{||||}$）來統計出現次數。
例子：如果詢問 30 位學生養了多少隻寵物，頻數表會顯示有多少學生養 0 隻、1 隻、2 隻寵物，以此類推。

雙向表格 (Two-Way Tables)

當你需要根據兩個不同的類別對數據進行分類時，會使用雙向表格。
例子：同時根據性別（男/女）和選修科目（數學/科學）對學生進行分類。

重點： 良好的組織（使用正字統計或雙向表格）是分析前的必要第一步。區分離散與連續數據對於日後繪製特定類型的圖表至關重要。

第二節：統計圖表與示意圖 (C10.6)

我們經常使用圖表以視覺化方式呈現已整理的數據，這樣更容易看出規律和趨勢。

2.1 長條圖與象形圖

長條圖通常用於離散數據或類別數據。

簡單長條圖： 長條之間分開繪製（不相連）。長條的高度代表頻數。
組合（堆疊）長條圖： 用於顯示單個長條內的各種子類別。長條的總高度代表總頻數。
雙重（並排）長條圖： 用於並排比較兩組相關數據。例子：比較男女生在同一次考試中的分數。
象形圖： 使用圖片或符號來代表頻數。切記，象形圖必須包含圖例 (key)，解釋一個符號代表多少數值。

2.2 圓形圖 (Pie Charts)

圓形圖將數據顯示為圓形的扇區，每個扇區的面積與其代表的頻數成正比。

步驟：繪製圓形圖

計算數據的總頻數（總數 $N$）。
計算每個類別的分數：$\frac{\text{該類別頻數}}{\text{總頻數}}$。
將分數轉換為角度：$\text{角度} = \frac{\text{該類別頻數}}{\text{總頻數}} \times 360^{\circ}$。
使用量角器繪製扇區。

2.3 莖葉圖 (Stem-and-Leaf Diagrams)

莖葉圖是一種在保留原始數值的情況下顯示數值數據的好方法。

規則： 數據必須排序（由小到大）並包含圖例。
例子：如果圖例顯示「2 | 5 代表 25」，則莖（2）代表十位數，葉（5）代表個位數。

重點： 圖表讓解讀變得更快速。請務必為座標軸加上標籤（針對長條圖）或提供圖例（針對圓形圖和莖葉圖），確保圖表容易被理解。

第三節：集中趨勢測量（平均值）(C10.4, E10.4)

平均值（或稱集中趨勢測量）告訴我們數據集的「中間」或「典型」數值在哪裡。

3.1 眾數 (Mode)

眾數是出現次數最多的數值。

即使是非數值（類別）數據，眾數也很容易找出。
數據集可能沒有眾數（如果所有數值只出現一次），也可能是雙眾數 (bimodal) 或多眾數。

3.2 中位數 (Median)

中位數是將數據按大小排序後的中間值。

步驟：找中位數

將數據由小到大排序。
使用公式找到中位數的位置：位置 $ = \frac{n+1}{2}$，其中 $n$ 是數據點的總數。
數到該位置即可找到中位數。

如果 $n$ 是奇數，位置會是一個整數（例如第 5 位）。如果 $n$ 是偶數，位置會以 .5 結尾（例如第 5.5 位）。後者情況下，中位數是該位置前後兩個數值的平均值（第 5 個數與第 6 個數的平均）。

3.3 平均數 (Mean)

平均數是透過將所有數值加總後，除以數值個數來計算。

個別數據的公式： $$ \text{Mean} = \frac{\sum x}{n} $$ （所有數值總和除以數值個數）

頻數表數據（未分組）的公式： $$ \text{Mean} = \frac{\sum fx}{\sum f} $$ （其中 $f$ 為頻數，$x$ 為數據值。）

3.4 分組數據的估算平均數 (Extended E10.4)

當數據以分組形式呈現（例如：10 < 體重 $\le$ 20）時，我們無法算出確切平均數，只能計算一個估算值。

步驟：估算分組數據的平均數

找出每個組距的中點 (midpoint)（$x$）。（中點是該組上下邊界的平均值）。
將每組的頻數 ($f$) 乘以中點 ($x$) 得到 $fx$。
使用相同的頻數公式計算估算平均數：$\text{Estimated Mean} = \frac{\sum fx}{\sum f}$。

眾數組 (Modal Class)： 對於分組數據，眾數被眾數組取代，即頻數最高的那組。

常見錯誤： 計算中位數時，請記住先找位置，再對應那個位置的數值。不要將「位置」與「中位數本身」搞混了！

重點： 選擇最能代表數據的平均指標。平均數利用了所有數據，但會受到極端值影響；中位數對極端值較具穩健性；眾數則適用於類別數據。

第四節：離散程度測量 (C10.4, E10.4)

離散程度測量（或稱變異量）告訴我們數據的分散情況。

4.1 全距 (Range)

全距是最簡單的離散程度測量。 $$ \text{Range} = \text{最大值} - \text{最小值} $$ 別擔心，就是這麼簡單！

全距計算簡單，但極易受到極端值（離群值）的影響。

4.2 四分位數與四分位距 (IQR)

四分位數將排序後的數據分為四個相等的部分。

下四分位數 ($Q_1$)： 25% 位置處的數值（數據的四分之一處）。
中位數 ($Q_2$)： 50% 位置處的數值（中間）。
上四分位數 ($Q_3$)： 75% 位置處的數值（數據的四分之三處）。

若要找個別數據的四分位數位置，可以使用與中位數類似的公式： $$ Q_1 \text{ 位置} = \frac{1}{4}(n+1) $$ $$ Q_3 \text{ 位置} = \frac{3}{4}(n+1) $$

四分位距 (Interquartile Range, IQR) 測量中間 50% 數據的離散程度。 $$ \text{IQR} = Q_3 - Q_1 $$ IQR 比全距更可靠，因為它不受極端離群值的影響。

你知道嗎？ 當比較兩組數據（例如比較 A 班與 B 班的考試分數）時，應同時比較一個平均指標（如平均數）和一個離散指標（如全距或 IQR）來提供完整的畫面。平均數越高通常表現越好；IQR 越小表示結果越穩定。

重點： 全距提供整體離散度；IQR 提供中間、最可靠數據的離散度。使用 IQR 來比較不同數據集的一致性。

第五節：散點圖與相關性 (C10.7)

散點圖用於研究兩個變量之間的關係，即相關性 (correlation)。

5.1 繪製與解讀散點圖

1. 繪製： 使用小叉號 ($x$) 在圖表上標出數據點。每個點代表兩個相關的數據（例如：人的身高與體重）。
2. 解讀： 觀察點的分佈規律來確定相關性類型。

5.2 最佳擬合線 (Line of Best Fit)

最佳擬合線是一條用直尺「目測」畫出的直線，代表相關性的趨勢。它讓我們能進行預測（外推法 extrapolation 或 內插法 interpolation）。

繪製最佳擬合線的重要規則：

它必須是一條單一直線。
它應該貫穿整個數據範圍。
它應該盡量靠近計算出的平均點（由平均 $x$ 和平均 $y$ 組成的點）。
整條線上方的點數和下方的點數應該大致均勻分佈。

注意：課程綱要說明不需要知道「相關係數 (coefficient of correlation)」。

進階內容：線性迴歸方程式 (E10.7)

對於 Extended 考生，你可能會被要求使用圖形計算機 (GDC) 來求出並使用線性迴歸方程式。這是數學上最精確的最佳擬合線，通常形式為 $y = ax + b$ 或 $y = mx + c$。你通常會使用 GDC 內建的統計功能來完成此任務。

重點： 相關性顯示的是關係，而非必然的因果。最佳擬合線用於根據趨勢進行合理的估算（預測）。

第六節：累積頻數圖 (僅限 Extended E10.8)

如果你是修讀 Core Maths 的同學請放心——這部分僅適用於 Extended 考生！

6.1 累積頻數表與累積頻數圖

累積頻數是頻數的連加總和。它告訴你總共有多少數據值小於或等於某個上限邊界。

步驟：繪製累積頻數圖

將頻數依序相加，製作累積頻數表。
繪圖時，累積頻數必須對應組距的上限邊界。例子：對於 10 < x $\le$ 20 這組，將累積頻數標記在 $x = 20$ 處。
清晰地標記點（如用小叉號 $x$）。
將這些點用平滑曲線連接（通常稱為「累加頻數曲線」或 Ogive）。

6.2 從圖表估算指標

繪製好累積頻數圖後，你可以從累積頻數軸水平讀取到曲線，再垂直讀取到數據軸，從而估算出中位數、四分位數和百分位數。

若總頻數為 $N$：

中位數 ($Q_2$)： 從 $\frac{1}{2} N$ 的位置水平讀取。
下四分位數 ($Q_1$)： 從 $\frac{1}{4} N$ 的位置水平讀取。
上四分位數 ($Q_3$)： 從 $\frac{3}{4} N$ 的位置水平讀取。
四分位距 (IQR)： 計算為 $Q_3 - Q_1$。
百分位數： 若要找第 80 百分位數，從 $0.80 \times N$ 的位置水平讀取。（百分位數是指低於該數值的數據佔總體的百分比）。

備註： 累積頻數圖比較具挑戰性，因為標記點的方式很特別。記住規則：累積頻數（連加總）要對應上限邊界（組別結尾）。繪圖應始於原點 (0, 0) 或第一組的下界。

重點： 累積頻數圖幫助我們輕鬆找出大型分組數據集的定位指標（如中位數和四分位數）。

第七節：數據解讀與得出結論 (C10.2)

統計學最後也是最重要的一步就是解讀。

7.1 閱讀與推論

你必須能夠從表格和圖表中直接閱讀事實（例如：「眾數薪資為 $40,000」），並得出並非顯而易見的推論（例如：「甲公司比乙公司銷售更穩定，因為其 IQR 較小」）。

7.2 比較數據集

當被要求比較兩個數據集時，務必使用統計指標：

比較一個平均指標（平均數或中位數），評論整體的平均表現。
比較一個離散指標（全距或 IQR），評論穩定性或變異度。

例子：「1 班獲得了較高的平均分（75 對比 68），但 2 班表現更穩定，因為他們的 IQR 較小（5 對比 12）。」

7.3 結論的局限性

必須意識到，從數據得出的結論其可靠性取決於數據本身。你必須認清畫出結論的限制：

樣本大小： 如果樣本非常小，結果可能無法推廣到整個群體。
偏差： 樣本採集是否公平（隨機）？如果不是，數據可能會出現偏差。
離群值： 極端值會扭曲平均數或全距，使其無法良好代表數據集。

重點： 你的統計比較必須永遠由清晰的數學證據（數字！）支持，並對數據的來源與採集方法保持批判性思考。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。