歡迎來到統計學!統計數據的分類

各位 IGCSE 數學科的同學你好!歡迎來到統計學的世界。別擔心,這一章還不會有複雜的公式,我們主要學習基本功:如何整理我們收集到的一堆雜亂無章的原始資料。

試著把數據想像成散落在房間裡的玩具。在你搭建出什麼厲害的東西之前,你需要先把它們按類型分類(積木、車子、人偶),然後整齊地放進收納盒(表格)裡。學會如何正確地分類數據,是進行任何有效統計分析的關鍵第一步!

第一節:量化數據的兩種基本類型 (C10.3 / E10.3)

當我們處理數值資訊(量化數據)時,根據數據的收集或測量方式,我們主要將其分為兩大類:離散數據 (Discrete)連續數據 (Continuous)

1.1 離散數據 (Discrete Data)

離散數據是指只能取特定、固定數值的數據,通常為整數。它是透過「數數」而得來的。

  • 主要特徵: 數據必須是可數的。在固定的數值之間,不存在其他數值。
  • 類比/小撇步: 想像一下數手指的數量(你不可能有 8.5 根手指)。

離散數據的例子:

  • 課室內的學生人數(10, 11, 12 等)。
  • 測驗得分(1/10, 2/10 等)。
  • 一小時內經過校門口的車輛數目

1.2 連續數據 (Continuous Data)

連續數據是指在給定範圍內可以取任何數值的數據。它是透過「測量」而得來的。

  • 主要特徵: 數值僅受限於測量工具的精確度。理論上,你可以有無窮多位的小數點。
  • 類比: 想像測量身高。你可能會說 175 公分,但精確數值可能是 175.3 公分、175.34 公分,或是 175.3458 公分……它是連續不斷變化的。

連續數據的例子:

  • 人的身高體重
  • 跑 100 公尺所花的時間
  • 燒杯中水的溫度

速查箱:離散 vs. 連續

離散: 計算(例如:小孩人數、入球數、鞋碼)。
連續: 測量(例如:時間、重量、長度)。


第二節:透過製表來整理數據 (C10.1 / E10.1)

一旦我們了解了數據的類型,就需要使用表格來整理。這個過程稱為統計數據製表。最常用的方法是使用頻數分佈表 (Frequency distributions)

2.1 簡單的劃記法與頻數表

當你收集原始數據時,通常只是一長串雜亂無章的清單。劃記表 (Tally Table) 能幫助我們有系統地統計每個數值出現的次數。

如何製作一個簡單的劃記表:

  1. 在第一欄列出所有可能的數據值(或類別)。
  2. 逐一檢查原始數據清單,並在相應數值的旁邊加上一個劃記符號(豎線)。
  3. 使用標準分組法:四條豎線,然後加上一條斜線跨過這四條 (\(H\)) 來代表五。這能讓統計變得更快。
  4. 頻數 (Frequency) 欄位列出每個數值的最終總數(實際數字)。

例子: 如果一班學生記錄他們擁有的寵物數量:2, 0, 1, 3, 2, 1, 1, 0, 2。

表格片段:
數值 (寵物數量) | 劃記 | 頻數
0 | II | 2
1 | III | 3
2 | III | 3
3 | I | 1

2.2 分組頻數分佈表

如果你處理的是連續數據(如身高或時間),或是範圍非常廣的離散數據(如 100 個人的考試分數),簡單的劃記表會變得太長。

在這種情況下,我們使用分組頻數分佈表,將數據分成不同的組距 (Class Intervals)(或組別)。

組距的重要性

你定義組別的方式至關重要。組距必須符合:

  • 互斥 (Non-overlapping): 一個數據點只能歸入一組。
  • 窮盡 (Exhaustive): 所有數據點都必須被涵蓋在組別內。
  • 寬度一致 (通常): 為了便於日後比較,組距通常保持相同寬度(例如:0-10, 10-20, 20-30)。

常見錯誤警報!處理界線問題

在設定連續數據的界線時,必須清楚像 10.0 這樣的數值應該歸在哪一組。

以身高 (h, 單位 cm) 為例的良好記法:

  • \(150 \leq h < 160\):這組包含 150 公分,但止於 160 公分之前
  • \(160 \leq h < 170\):這組包含 160 公分。

這能確保對於精確測量值(如 160 公分)應歸入哪一組不會產生歧義。

2.3 雙向表格 (Two-Way Tables)

雙向表格(或稱列聯表)用於顯示涉及兩個不同類別的數據。它能讓你看到這兩類分類之間的關係或重疊部分。

你知道嗎? 這些表格在現實世界的調查和品質檢查中非常普遍,因為它們讓研究人員可以同時比較兩個因素。

結構:

  • 一個類別的分類列在側邊(橫列,Rows)。
  • 第二個類別的分類列在上方(縱欄,Columns)。
  • 表格內部的儲存格顯示同時符合兩項分類的項目的頻數(計數)。
  • 最後一欄和最後一列通常留作總計 (Totals) 使用。

例子:調查學生偏好數學還是科學,並按性別(男/女)分組。

題目可能會問:「有多少位女性學生偏好科學?」 你只需找到「女性」橫列與「科學」縱欄的交叉點即可。

重點總結:

分類始於識別數據是離散的(可數)還是連續的(可測量)。隨後,我們利用劃記表、針對大型數據集的分組頻數表,或是能同時檢視兩個類別的雙向表格來進行整理。精通製表能讓後續的所有統計計算變得輕鬆許多!


第三節:分類與製表術語摘要

以下是本章重要詞彙的快速參考指南:

  • 統計數據 (Statistical Data): 為分析而收集的原始事實與數字。
  • 量化數據 (Quantitative Data): 數值數據(可分為離散或連續)。
  • 離散數據 (Discrete Data): 透過計數獲得的數據(固定的、具體的數值)。
  • 連續數據 (Continuous Data): 透過測量獲得的數據(在範圍內可取任何值)。
  • 劃記表 (Tally Table): 使用符號(如 \(H\))來統計個別數值出現次數的製表方法。
  • 頻數 (Frequency): 特定數值或類別在數據集中出現的次數。
  • 組距 (Class Interval): 用於在頻數表中對連續數據進行分組的範圍(例如:\(10 \leq x < 20\))。
  • 雙向表格 (Two-Way Table): 用於根據兩個不同類別對數據進行分類的表格。