歡迎來到統計學:數據解讀!

各位未來的數據小神童,大家好!這一章「統計數據解讀」是數學中最實用的部分之一。為什麼這麼說?因為我們生活在一個資訊氾濫的世界,從薪資水平的新聞報導到追蹤氣候變化的圖表,無處不在。理解統計學意味著你可以釐清這些數據背後的意義,避免被誤導!
我們將學習如何整理數據、計算關鍵指標(如平均值),並運用圖表來清晰地傳達資訊。讓我們開始吧!

第一節:數據分類與列表 (C10.1, C10.3)

1.1 統計數據的類型

在進行任何計算之前,我們必須知道我們處理的是哪種數據。數據主要分為兩類:

離散數據 (Discrete Data)

離散數據源自於點算 (counting),其數值通常只能是特定的整數。它不能透過測量得出。
例子:學生的兄弟姊妹人數(1、2、3...)、停車場內的汽車數量、鞋碼(這是標準化的數值)。

連續數據 (Continuous Data)

連續數據源自於測量 (measuring),在特定範圍內可以取任何數值,精度通常受限於測量工具的準確度。
例子:身高、體重、溫度、跑完賽程所需的時間(例如:1.5秒、1.57秒、1.573秒等)。

小貼士: 如果你需要「點算」出來的,它就是離散數據。如果你需要用尺或磅秤來「測量」的,它就是連續數據

1.2 數據列表(正字統計與雙向表格)

數據通常剛開始是一團亂的,我們會使用表格來整理它。

正字統計與頻數分佈

簡單的頻數分佈表 (frequency distribution) 顯示了每個數據值出現的次數。你可以使用「正」字或劃線(每五個一組:| | | | $\cancel{||||}$)來統計出現次數。
例子:如果詢問 30 位學生養了多少隻寵物,頻數表會顯示有多少學生養 0 隻、1 隻、2 隻寵物,以此類推。

雙向表格 (Two-Way Tables)

當你需要根據兩個不同的類別對數據進行分類時,會使用雙向表格
例子:同時根據性別(男/女)和選修科目(數學/科學)對學生進行分類。

重點: 良好的組織(使用正字統計或雙向表格)是分析前的必要第一步。區分離散與連續數據對於日後繪製特定類型的圖表至關重要。

第二節:統計圖表與示意圖 (C10.6)

我們經常使用圖表以視覺化方式呈現已整理的數據,這樣更容易看出規律和趨勢。

2.1 長條圖與象形圖

長條圖通常用於離散數據或類別數據。

  • 簡單長條圖: 長條之間分開繪製(不相連)。長條的高度代表頻數。

  • 組合(堆疊)長條圖: 用於顯示單個長條內的各種子類別。長條的總高度代表總頻數。

  • 雙重(並排)長條圖: 用於並排比較兩組相關數據。例子:比較男女生在同一次考試中的分數。

  • 象形圖: 使用圖片或符號來代表頻數。切記,象形圖必須包含圖例 (key),解釋一個符號代表多少數值。

2.2 圓形圖 (Pie Charts)

圓形圖將數據顯示為圓形的扇區,每個扇區的面積與其代表的頻數成正比。

步驟:繪製圓形圖

  1. 計算數據的總頻數(總數 $N$)。
  2. 計算每個類別的分數:\(\frac{\text{該類別頻數}}{\text{總頻數}}\)。
  3. 將分數轉換為角度:\(\text{角度} = \frac{\text{該類別頻數}}{\text{總頻數}} \times 360^{\circ}\)。
  4. 使用量角器繪製扇區。

2.3 莖葉圖 (Stem-and-Leaf Diagrams)

莖葉圖是一種在保留原始數值的情況下顯示數值數據的好方法。

規則: 數據必須排序(由小到大)並包含圖例
例子:如果圖例顯示「2 | 5 代表 25」,則莖(2)代表十位數,葉(5)代表個位數。

重點: 圖表讓解讀變得更快速。請務必為座標軸加上標籤(針對長條圖)或提供圖例(針對圓形圖和莖葉圖),確保圖表容易被理解。

第三節:集中趨勢測量(平均值)(C10.4, E10.4)

平均值(或稱集中趨勢測量)告訴我們數據集的「中間」或「典型」數值在哪裡。

3.1 眾數 (Mode)

眾數是出現次數最多的數值。

  • 即使是非數值(類別)數據,眾數也很容易找出。

  • 數據集可能沒有眾數(如果所有數值只出現一次),也可能是雙眾數 (bimodal) 或多眾數。

3.2 中位數 (Median)

中位數是將數據按大小排序後的中間值。

步驟:找中位數

  1. 將數據由小到大排序。
  2. 使用公式找到中位數的位置:位置 \( = \frac{n+1}{2}\),其中 $n$ 是數據點的總數。
  3. 數到該位置即可找到中位數。

如果 $n$ 是奇數,位置會是一個整數(例如第 5 位)。如果 $n$ 是偶數,位置會以 .5 結尾(例如第 5.5 位)。後者情況下,中位數是該位置前後兩個數值的平均值(第 5 個數與第 6 個數的平均)。

3.3 平均數 (Mean)

平均數是透過將所有數值加總後,除以數值個數來計算。

個別數據的公式: $$ \text{Mean} = \frac{\sum x}{n} $$ (所有數值總和除以數值個數)

頻數表數據(未分組)的公式: $$ \text{Mean} = \frac{\sum fx}{\sum f} $$ (其中 $f$ 為頻數,$x$ 為數據值。)

3.4 分組數據的估算平均數 (Extended E10.4)

當數據以分組形式呈現(例如:10 < 體重 $\le$ 20)時,我們無法算出確切平均數,只能計算一個估算值

步驟:估算分組數據的平均數

  1. 找出每個組距的中點 (midpoint)(\(x\))。(中點是該組上下邊界的平均值)。
  2. 將每組的頻數 ($f$) 乘以中點 ($x$) 得到 $fx$。
  3. 使用相同的頻數公式計算估算平均數:\(\text{Estimated Mean} = \frac{\sum fx}{\sum f}\)。

眾數組 (Modal Class): 對於分組數據,眾數被眾數組取代,即頻數最高的那組。

常見錯誤: 計算中位數時,請記住先找位置,再對應那個位置的數值。不要將「位置」與「中位數本身」搞混了!

重點: 選擇最能代表數據的平均指標。平均數利用了所有數據,但會受到極端值影響;中位數對極端值較具穩健性;眾數則適用於類別數據。

第四節:離散程度測量 (C10.4, E10.4)

離散程度測量(或稱變異量)告訴我們數據的分散情況。

4.1 全距 (Range)

全距是最簡單的離散程度測量。 $$ \text{Range} = \text{最大值} - \text{最小值} $$ 別擔心,就是這麼簡單!

全距計算簡單,但極易受到極端值(離群值)的影響。

4.2 四分位數與四分位距 (IQR)

四分位數將排序後的數據分為四個相等的部分。

  • 下四分位數 (\(Q_1\)): 25% 位置處的數值(數據的四分之一處)。

  • 中位數 (\(Q_2\)): 50% 位置處的數值(中間)。

  • 上四分位數 (\(Q_3\)): 75% 位置處的數值(數據的四分之三處)。

若要找個別數據的四分位數位置,可以使用與中位數類似的公式: $$ Q_1 \text{ 位置} = \frac{1}{4}(n+1) $$ $$ Q_3 \text{ 位置} = \frac{3}{4}(n+1) $$

四分位距 (Interquartile Range, IQR) 測量中間 50% 數據的離散程度。 $$ \text{IQR} = Q_3 - Q_1 $$ IQR 比全距更可靠,因為它不受極端離群值的影響。

你知道嗎? 當比較兩組數據(例如比較 A 班與 B 班的考試分數)時,應同時比較一個平均指標(如平均數)和一個離散指標(如全距或 IQR)來提供完整的畫面。平均數越高通常表現越好;IQR 越小表示結果越穩定。

重點: 全距提供整體離散度;IQR 提供中間、最可靠數據的離散度。使用 IQR 來比較不同數據集的一致性。

第五節:散點圖與相關性 (C10.7)

散點圖用於研究兩個變量之間的關係,即相關性 (correlation)

5.1 繪製與解讀散點圖

1. 繪製: 使用小叉號 ($x$) 在圖表上標出數據點。每個點代表兩個相關的數據(例如:人的身高與體重)。
2. 解讀: 觀察點的分佈規律來確定相關性類型。

相關性類型
  • 正相關: 當一個變量增加時,另一個變量也傾向增加。點從左下向右上延伸。例子:學習時數 vs. 考試分數。

  • 負相關: 當一個變量增加時,另一個變量傾向減少。點從左上向右下延伸。例子:汽車車齡 vs. 價值。

  • 零相關(無相關): 變量之間沒有明顯關係,點隨意散佈。例子:身高 vs. 最喜歡的顏色。

5.2 最佳擬合線 (Line of Best Fit)

最佳擬合線是一條用直尺「目測」畫出的直線,代表相關性的趨勢。它讓我們能進行預測(外推法 extrapolation內插法 interpolation)。

繪製最佳擬合線的重要規則:

  1. 它必須是一條單一直線
  2. 它應該貫穿整個數據範圍
  3. 它應該盡量靠近計算出的平均點(由平均 $x$ 和平均 $y$ 組成的點)。
  4. 整條線上方的點數和下方的點數應該大致均勻分佈

注意:課程綱要說明不需要知道「相關係數 (coefficient of correlation)」。

進階內容:線性迴歸方程式 (E10.7)

對於 Extended 考生,你可能會被要求使用圖形計算機 (GDC) 來求出並使用線性迴歸方程式。這是數學上最精確的最佳擬合線,通常形式為 \(y = ax + b\) 或 \(y = mx + c\)。你通常會使用 GDC 內建的統計功能來完成此任務。

重點: 相關性顯示的是關係,而非必然的因果。最佳擬合線用於根據趨勢進行合理的估算(預測)。

第六節:累積頻數圖 (僅限 Extended E10.8)

如果你是修讀 Core Maths 的同學請放心——這部分僅適用於 Extended 考生!

6.1 累積頻數表與累積頻數圖

累積頻數是頻數的連加總和。它告訴你總共有多少數據值小於或等於某個上限邊界。

步驟:繪製累積頻數圖

  1. 將頻數依序相加,製作累積頻數表。
  2. 繪圖時,累積頻數必須對應組距的上限邊界例子:對於 10 < x $\le$ 20 這組,將累積頻數標記在 \(x = 20\) 處。
  3. 清晰地標記點(如用小叉號 $x$)。
  4. 將這些點用平滑曲線連接(通常稱為「累加頻數曲線」或 Ogive)。

6.2 從圖表估算指標

繪製好累積頻數圖後,你可以從累積頻數軸水平讀取到曲線,再垂直讀取到數據軸,從而估算出中位數、四分位數和百分位數。

若總頻數為 $N$:

  • 中位數 (\(Q_2\)): 從 \(\frac{1}{2} N\) 的位置水平讀取。

  • 下四分位數 (\(Q_1\)): 從 \(\frac{1}{4} N\) 的位置水平讀取。

  • 上四分位數 (\(Q_3\)): 從 \(\frac{3}{4} N\) 的位置水平讀取。

  • 四分位距 (IQR): 計算為 \(Q_3 - Q_1\)。

  • 百分位數: 若要找第 80 百分位數,從 \(0.80 \times N\) 的位置水平讀取。(百分位數是指低於該數值的數據佔總體的百分比)。

備註: 累積頻數圖比較具挑戰性,因為標記點的方式很特別。記住規則:累積頻數(連加總)要對應上限邊界(組別結尾)。繪圖應始於原點 (0, 0) 或第一組的下界。

重點: 累積頻數圖幫助我們輕鬆找出大型分組數據集的定位指標(如中位數和四分位數)。

第七節:數據解讀與得出結論 (C10.2)

統計學最後也是最重要的一步就是解讀。

7.1 閱讀與推論

你必須能夠從表格和圖表中直接閱讀事實(例如:「眾數薪資為 $40,000」),並得出並非顯而易見的推論(例如:「甲公司比乙公司銷售更穩定,因為其 IQR 較小」)。

7.2 比較數據集

當被要求比較兩個數據集時,務必使用統計指標

  1. 比較一個平均指標(平均數或中位數),評論整體的平均表現。
  2. 比較一個離散指標(全距或 IQR),評論穩定性或變異度。

例子:「1 班獲得了較高的平均分(75 對比 68),但 2 班表現更穩定,因為他們的 IQR 較小(5 對比 12)。」

7.3 結論的局限性

必須意識到,從數據得出的結論其可靠性取決於數據本身。你必須認清畫出結論的限制

  • 樣本大小: 如果樣本非常小,結果可能無法推廣到整個群體。

  • 偏差: 樣本採集是否公平(隨機)?如果不是,數據可能會出現偏差。

  • 離群值: 極端值會扭曲平均數或全距,使其無法良好代表數據集。

重點: 你的統計比較必須永遠由清晰的數學證據(數字!)支持,並對數據的來源與採集方法保持批判性思考。