歡迎來到統計學的世界!

你有沒有想過,公司是如何決定推出哪款新口味的巧克力?或者科學家是如何知道一種新藥是否有效?這一切都始於收集數據。在本章中,你將學習如何規劃一項調查、識別不同類型的數據,以及選擇最合適的方法來挑選研究對象。你可以把這看作是統計學的「偵探工作」階段!

1. 規劃你的調查

在開始點算或測量之前,你需要一個計劃。第一步是建立一個假設(Hypothesis)。這只是一個花俏的術語,指的是一個可以進行測試以驗證其真偽的陳述。
例子:「隨著電單車車齡增加,其價值很可能會下降。」

現實世界中的挑戰

測試假設並不總是那麼容易。科學家和研究人員會面臨各種限制(Constraints)
時間: 你可能沒有 10 年的時間去觀察一輛電單車貶值的過程。
成本: 跨越全國去訪問人們是非常昂貴的!
道德與保密: 你必須確保人們的個人資料安全,並公平對待所有參與者。
方便性: 有時你必須使用最容易獲得的數據,即使它並不完美。

快速回顧: 為了避免之後出現問題,請務必制定應對「如果......會怎樣」的策略。例如,如果你發出的問卷有一半人沒有填寫,你會怎麼辦?這被稱為無回應(Non-response)問題。

重點總結: 一項好的統計調查始於一個清晰、可測試的假設,同時必須考慮涉及的時間、成本和道德因素。

2. 理解不同類型的數據

統計學使用特定的詞彙來描述數據。掌握這些詞彙就像解開這門學科的「秘密代碼」一樣!

定性數據 vs. 定量數據

定性數據(Qualitative Data): 用文字或標籤描述(非數值)。例子:眼睛顏色(藍色、棕色、綠色)。
定量數據(Quantitative Data): 用數字描述。例子:身高或體重。

離散數據 vs. 連續數據

如果這些聽起來很相似,別擔心;這裡有一個簡單的技巧:
離散數據(Discrete Data):數出來的東西。它只能取特定的數值(如整數)。你不可能有 2.5 個兄弟姐妹!
連續數據(Continuous Data):測量出來的東西。它可以在一定範圍內取任何數值。例子:一個人的身高可能是 165.23 厘米。

其他重要術語

類別數據(Categorical Data): 可以歸入不同組別的數據(例如:中一、中二、中三)。
順序數據(Ordinal Data): 具有自然順序的數據。例子:考試成績(A、B、C)或電影的「星級評分」。
雙變量數據(Bivariate Data): 涉及兩個變量以觀察它們之間是否存在關聯的數據。例子:比較學習時間與考試分數之間的關係。
原始數據(Raw Data): 未經整理、收集時最原本的數據。

分組數據

有時我們會將數據合併為組距(Class intervals)(例如 0-10, 11-20 等分組),以便閱讀。
警告: 雖然分組使數據更容易呈現,但你會因為不再知道確切的原始數值而損失準確性

重點總結: 數據分為定性(文字)或定量(數字)。定量數據又分為離散(用數的)或連續(用量的)。

3. 解釋變量與反應變量

當我們觀察兩個變量(雙變量數據)時,我們會給它們特殊的稱呼:
1. 解釋變量(Explanatory Variable / 自變量): 你認為可能會導致變化的那個變量。在圖表中,它總是放在「x」軸(水平軸)上。
2. 反應變量(Response Variable / 因變量): 對變化作出反應的那個變量。它放在「y」軸(垂直軸)上。

類比:想像一棵植物。你給它的澆水量就是解釋變量,而它長多高就是反應變量

4. 數據從哪裡來?

一手數據 vs. 二手數據

一手數據(Primary Data):(或你的團隊)為了特定目的而收集。
優點: 你清楚知道它是如何收集的;數據非常及時。
缺點: 耗費大量的時間和金錢。

二手數據(Secondary Data):其他人(如政府或網站)收集。
優點: 快速且通常免費。
缺點: 可能已經過時,或者包含你不知道的錯誤。

你知道嗎? 當使用二手數據時,必須始終註明來源(說明你從哪裡取得數據)!

5. 母體與抽樣

你通常無法詢問世界上每一個人,這就是抽樣(Sampling)發揮作用的地方。

母體(Population): 你感興趣的整個群體(例如:「英國所有的學生」)。
抽樣框(Sample Frame): 你實際可以從中挑選的母體名單(例如:「學校的學生名冊」)。
樣本(Sample):實際挑選出來進行研究的小組。

抽樣方法

1. 簡單隨機抽樣: 每個人被抽中的機會均等。你可以使用電腦、抽籤或骰子來決定。
2. 系統抽樣: 每隔 \( n \) 個人挑選一個(例如:名單上每第 10 個人)。
3. 配額抽樣: 從不同群體中挑選一定數量的樣本(例如:「我需要 20 名男生和 20 名女生」)。
4. 機會抽樣(方便抽樣): 挑選當時在場的人(例如:詢問你在公園裡遇到的前 10 個人)。風險: 這種抽樣通常有偏差,因為它不能代表所有人。

分層抽樣

這是一種非常公平的抽樣方式。你將母體分為不同群體(,strata),例如按年級分組,然後從每個群體中抽取與母體比例相同的樣本。
例子:如果學校裡 60% 是女生,那麼你的樣本中也應該有 60% 是女生。

重點總結: 一個好的樣本必須避免偏差,以便準確反映整個母體

6. 信度與效度

這兩個詞對於你的考試至關重要:
信度(Reliability): 如果你再次進行測試,能否得到相同的結果?(思考:測量是否一致?)
效度(Validity): 測試是否真的測量了它應該測量的東西?(思考:它是達成目標的正確工具嗎?)

常見錯誤: 一個壞掉的體重計總是顯示你輕了 5 公斤,它具有信度(每次都給出同樣錯誤的答案),但它不具備效度(它顯示的不是你真實的體重)。

7. 設計優質問題

在製作問卷時,要避開這些陷阱:
誘導性問題: 「你不覺得學校午餐很好吃嗎?」(這會強迫人們說「是」)。
封閉式問題 vs. 開放式問題: 封閉式問題提供選項(勾選框),使數據易於分析。開放式問題讓回答者填寫任何內容,這能提供更多細節,但難以統計。

專家建議: 務必進行一次先導研究(Pilot study)。這是一個小型的「預演」,在發送給所有人之前,先找幾個人看看你的問題是否合理!

8. 清洗數據

在分析數據之前,你必須「清洗」它。這意味著要找出:
離群值(Outliers): 比其餘數據大得多或小得多的數值(可能是錯誤)。
缺失數據: 有人跳過了一個問題。
錯誤格式: 有人寫了「ten」而不是「10」。

總結: 收集數據的關鍵在於小心規劃、公平抽樣,並清洗你的結果,以確保它們具備信度與效度