歡迎來到統計學!統計數據的分類
各位 IGCSE 數學科的同學你好!歡迎來到統計學的世界。別擔心,這一章還不會有複雜的公式,我們主要學習基本功:如何整理我們收集到的一堆雜亂無章的原始資料。
試著把數據想像成散落在房間裡的玩具。在你搭建出什麼厲害的東西之前,你需要先把它們按類型分類(積木、車子、人偶),然後整齊地放進收納盒(表格)裡。學會如何正確地分類數據,是進行任何有效統計分析的關鍵第一步!
第一節:量化數據的兩種基本類型 (C10.3 / E10.3)
當我們處理數值資訊(量化數據)時,根據數據的收集或測量方式,我們主要將其分為兩大類:離散數據 (Discrete) 或 連續數據 (Continuous)。
1.1 離散數據 (Discrete Data)
離散數據是指只能取特定、固定數值的數據,通常為整數。它是透過「數數」而得來的。
- 主要特徵: 數據必須是可數的。在固定的數值之間,不存在其他數值。
- 類比/小撇步: 想像一下數手指的數量(你不可能有 8.5 根手指)。
離散數據的例子:
- 課室內的學生人數(10, 11, 12 等)。
- 測驗得分(1/10, 2/10 等)。
- 一小時內經過校門口的車輛數目。
1.2 連續數據 (Continuous Data)
連續數據是指在給定範圍內可以取任何數值的數據。它是透過「測量」而得來的。
- 主要特徵: 數值僅受限於測量工具的精確度。理論上,你可以有無窮多位的小數點。
- 類比: 想像測量身高。你可能會說 175 公分,但精確數值可能是 175.3 公分、175.34 公分,或是 175.3458 公分……它是連續不斷變化的。
連續數據的例子:
- 人的身高或體重。
- 跑 100 公尺所花的時間。
- 燒杯中水的溫度。
速查箱:離散 vs. 連續
離散: 計算(例如:小孩人數、入球數、鞋碼)。
連續: 測量(例如:時間、重量、長度)。
第二節:透過製表來整理數據 (C10.1 / E10.1)
一旦我們了解了數據的類型,就需要使用表格來整理。這個過程稱為統計數據製表。最常用的方法是使用頻數分佈表 (Frequency distributions)。
2.1 簡單的劃記法與頻數表
當你收集原始數據時,通常只是一長串雜亂無章的清單。劃記表 (Tally Table) 能幫助我們有系統地統計每個數值出現的次數。
如何製作一個簡單的劃記表:
- 在第一欄列出所有可能的數據值(或類別)。
- 逐一檢查原始數據清單,並在相應數值的旁邊加上一個劃記符號(豎線)。
- 使用標準分組法:四條豎線,然後加上一條斜線跨過這四條 (\(H\)) 來代表五。這能讓統計變得更快。
- 頻數 (Frequency) 欄位列出每個數值的最終總數(實際數字)。
例子: 如果一班學生記錄他們擁有的寵物數量:2, 0, 1, 3, 2, 1, 1, 0, 2。
表格片段:
數值 (寵物數量) | 劃記 | 頻數
0 | II | 2
1 | III | 3
2 | III | 3
3 | I | 1
2.2 分組頻數分佈表
如果你處理的是連續數據(如身高或時間),或是範圍非常廣的離散數據(如 100 個人的考試分數),簡單的劃記表會變得太長。
在這種情況下,我們使用分組頻數分佈表,將數據分成不同的組距 (Class Intervals)(或組別)。
組距的重要性
你定義組別的方式至關重要。組距必須符合:
- 互斥 (Non-overlapping): 一個數據點只能歸入一組。
- 窮盡 (Exhaustive): 所有數據點都必須被涵蓋在組別內。
- 寬度一致 (通常): 為了便於日後比較,組距通常保持相同寬度(例如:0-10, 10-20, 20-30)。
常見錯誤警報!處理界線問題
在設定連續數據的界線時,必須清楚像 10.0 這樣的數值應該歸在哪一組。
以身高 (h, 單位 cm) 為例的良好記法:
- \(150 \leq h < 160\):這組包含 150 公分,但止於 160 公分之前。
- \(160 \leq h < 170\):這組包含 160 公分。
這能確保對於精確測量值(如 160 公分)應歸入哪一組不會產生歧義。
2.3 雙向表格 (Two-Way Tables)
雙向表格(或稱列聯表)用於顯示涉及兩個不同類別的數據。它能讓你看到這兩類分類之間的關係或重疊部分。
你知道嗎? 這些表格在現實世界的調查和品質檢查中非常普遍,因為它們讓研究人員可以同時比較兩個因素。
結構:
- 一個類別的分類列在側邊(橫列,Rows)。
- 第二個類別的分類列在上方(縱欄,Columns)。
- 表格內部的儲存格顯示同時符合兩項分類的項目的頻數(計數)。
- 最後一欄和最後一列通常留作總計 (Totals) 使用。
例子:調查學生偏好數學還是科學,並按性別(男/女)分組。
題目可能會問:「有多少位女性學生偏好科學?」 你只需找到「女性」橫列與「科學」縱欄的交叉點即可。
重點總結:
分類始於識別數據是離散的(可數)還是連續的(可測量)。隨後,我們利用劃記表、針對大型數據集的分組頻數表,或是能同時檢視兩個類別的雙向表格來進行整理。精通製表能讓後續的所有統計計算變得輕鬆許多!
第三節:分類與製表術語摘要
以下是本章重要詞彙的快速參考指南:
- 統計數據 (Statistical Data): 為分析而收集的原始事實與數字。
- 量化數據 (Quantitative Data): 數值數據(可分為離散或連續)。
- 離散數據 (Discrete Data): 透過計數獲得的數據(固定的、具體的數值)。
- 連續數據 (Continuous Data): 透過測量獲得的數據(在範圍內可取任何值)。
- 劃記表 (Tally Table): 使用符號(如 \(H\))來統計個別數值出現次數的製表方法。
- 頻數 (Frequency): 特定數值或類別在數據集中出現的次數。
- 組距 (Class Interval): 用於在頻數表中對連續數據進行分組的範圍(例如:\(10 \leq x < 20\))。
- 雙向表格 (Two-Way Table): 用於根據兩個不同類別對數據進行分類的表格。