The collection of data - Statistics (1ST0) - Pearson Edexcel GCSE (9-1)

歡迎來到統計學的世界！

你有沒有想過，公司是如何決定推出哪款新口味的巧克力？或者科學家是如何知道一種新藥是否有效？這一切都始於收集數據。在本章中，你將學習如何規劃一項調查、識別不同類型的數據，以及選擇最合適的方法來挑選研究對象。你可以把這看作是統計學的「偵探工作」階段！

1. 規劃你的調查

在開始點算或測量之前，你需要一個計劃。第一步是建立一個假設（Hypothesis）。這只是一個花俏的術語，指的是一個可以進行測試以驗證其真偽的陳述。
例子：「隨著電單車車齡增加，其價值很可能會下降。」

現實世界中的挑戰

測試假設並不總是那麼容易。科學家和研究人員會面臨各種限制（Constraints）：
• 時間： 你可能沒有 10 年的時間去觀察一輛電單車貶值的過程。
• 成本： 跨越全國去訪問人們是非常昂貴的！
• 道德與保密： 你必須確保人們的個人資料安全，並公平對待所有參與者。
• 方便性： 有時你必須使用最容易獲得的數據，即使它並不完美。

快速回顧： 為了避免之後出現問題，請務必制定應對「如果......會怎樣」的策略。例如，如果你發出的問卷有一半人沒有填寫，你會怎麼辦？這被稱為無回應（Non-response）問題。

重點總結： 一項好的統計調查始於一個清晰、可測試的假設，同時必須考慮涉及的時間、成本和道德因素。

2. 理解不同類型的數據

統計學使用特定的詞彙來描述數據。掌握這些詞彙就像解開這門學科的「秘密代碼」一樣！

定性數據 vs. 定量數據

• 定性數據（Qualitative Data）： 用文字或標籤描述（非數值）。例子：眼睛顏色（藍色、棕色、綠色）。
• 定量數據（Quantitative Data）： 用數字描述。例子：身高或體重。

離散數據 vs. 連續數據

如果這些聽起來很相似，別擔心；這裡有一個簡單的技巧：
• 離散數據（Discrete Data）： 你數出來的東西。它只能取特定的數值（如整數）。你不可能有 2.5 個兄弟姐妹！
• 連續數據（Continuous Data）： 你測量出來的東西。它可以在一定範圍內取任何數值。例子：一個人的身高可能是 165.23 厘米。

其他重要術語

• 類別數據（Categorical Data）： 可以歸入不同組別的數據（例如：中一、中二、中三）。
• 順序數據（Ordinal Data）： 具有自然順序的數據。例子：考試成績（A、B、C）或電影的「星級評分」。
• 雙變量數據（Bivariate Data）： 涉及兩個變量以觀察它們之間是否存在關聯的數據。例子：比較學習時間與考試分數之間的關係。
• 原始數據（Raw Data）： 未經整理、收集時最原本的數據。

分組數據

有時我們會將數據合併為組距（Class intervals）（例如 0-10, 11-20 等分組），以便閱讀。
警告： 雖然分組使數據更容易呈現，但你會因為不再知道確切的原始數值而損失準確性！

重點總結： 數據分為定性（文字）或定量（數字）。定量數據又分為離散（用數的）或連續（用量的）。

3. 解釋變量與反應變量

當我們觀察兩個變量（雙變量數據）時，我們會給它們特殊的稱呼：
1. 解釋變量（Explanatory Variable / 自變量）： 你認為可能會導致變化的那個變量。在圖表中，它總是放在「x」軸（水平軸）上。
2. 反應變量（Response Variable / 因變量）： 對變化作出反應的那個變量。它放在「y」軸（垂直軸）上。

類比：想像一棵植物。你給它的澆水量就是解釋變量，而它長多高就是反應變量。

4. 數據從哪裡來？

一手數據 vs. 二手數據

• 一手數據（Primary Data）： 由你（或你的團隊）為了特定目的而收集。
優點： 你清楚知道它是如何收集的；數據非常及時。
缺點： 耗費大量的時間和金錢。

• 二手數據（Secondary Data）： 由其他人（如政府或網站）收集。
優點： 快速且通常免費。
缺點： 可能已經過時，或者包含你不知道的錯誤。

你知道嗎？ 當使用二手數據時，必須始終註明來源（說明你從哪裡取得數據）！

5. 母體與抽樣

你通常無法詢問世界上每一個人，這就是抽樣（Sampling）發揮作用的地方。

• 母體（Population）： 你感興趣的整個群體（例如：「英國所有的學生」）。
• 抽樣框（Sample Frame）： 你實際可以從中挑選的母體名單（例如：「學校的學生名冊」）。
• 樣本（Sample）： 你實際挑選出來進行研究的小組。

抽樣方法

1. 簡單隨機抽樣： 每個人被抽中的機會均等。你可以使用電腦、抽籤或骰子來決定。
2. 系統抽樣： 每隔 \( n \) 個人挑選一個（例如：名單上每第 10 個人）。
3. 配額抽樣： 從不同群體中挑選一定數量的樣本（例如：「我需要 20 名男生和 20 名女生」）。
4. 機會抽樣（方便抽樣）： 挑選當時在場的人（例如：詢問你在公園裡遇到的前 10 個人）。風險： 這種抽樣通常有偏差，因為它不能代表所有人。

分層抽樣

這是一種非常公平的抽樣方式。你將母體分為不同群體（層，strata），例如按年級分組，然後從每個群體中抽取與母體比例相同的樣本。
例子：如果學校裡 60% 是女生，那麼你的樣本中也應該有 60% 是女生。

重點總結： 一個好的樣本必須避免偏差，以便準確反映整個母體。

6. 信度與效度

這兩個詞對於你的考試至關重要：
• 信度（Reliability）： 如果你再次進行測試，能否得到相同的結果？（思考：測量是否一致？）
• 效度（Validity）： 測試是否真的測量了它應該測量的東西？（思考：它是達成目標的正確工具嗎？）

常見錯誤： 一個壞掉的體重計總是顯示你輕了 5 公斤，它具有信度（每次都給出同樣錯誤的答案），但它不具備效度（它顯示的不是你真實的體重）。

7. 設計優質問題

在製作問卷時，要避開這些陷阱：
• 誘導性問題： 「你不覺得學校午餐很好吃嗎？」（這會強迫人們說「是」）。
• 封閉式問題 vs. 開放式問題： 封閉式問題提供選項（勾選框），使數據易於分析。開放式問題讓回答者填寫任何內容，這能提供更多細節，但難以統計。

專家建議： 務必進行一次先導研究（Pilot study）。這是一個小型的「預演」，在發送給所有人之前，先找幾個人看看你的問題是否合理！

8. 清洗數據

在分析數據之前，你必須「清洗」它。這意味著要找出：
• 離群值（Outliers）： 比其餘數據大得多或小得多的數值（可能是錯誤）。
• 缺失數據： 有人跳過了一個問題。
• 錯誤格式： 有人寫了「ten」而不是「10」。

總結： 收集數據的關鍵在於小心規劃、公平抽樣，並清洗你的結果，以確保它們具備信度與效度。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。