歡迎來到數據分析!
你有沒有想過遊戲公司是如何決定開發哪款遊戲,或者老師是如何預測你的最終成績?這一切都歸功於數據分析。在本章中,我們要成為「數據偵探」。我們會學習如何將堆積如山且雜亂無章的數字,轉化為有助於我們決策的清晰資訊。別擔心,如果你覺得面對大堆數據會感到害怕,我們會將它們拆解成簡單且易於跟隨的步驟。
1. 「四大」總結統計量
當我們擁有一系列數據(稱為未分組數據)時,我們會使用四種主要工具來理解什麼是「常規」,以及這些數字的分佈情況。這些就是平均數 (Mean)、中位數 (Median)、眾數 (Mode) 和 極差 (Range)。
平均值(集中趨勢的度量)
- 平均數 (Mean): 即「平均分配」的數值。將所有數字相加,然後除以數字的個數。
例子: 對於數字 3、5 和 10:\( \frac{3 + 5 + 10}{3} = \frac{18}{3} = 6 \)。 - 中位數 (Median): 中間的數值。你必須先將數字由小到大排列!
類比: 想像高速公路中間的「中央分隔帶」——它就在正中間。 - 眾數 (Mode): 出現次數最多的數值。
記憶小撇步: MOde = MOst often(出現最多次)。
離散程度
- 極差 (Range): 這告訴我們數據有多「穩定」。計算方法是最大值 - 最小值。
提示: 極差小代表數據非常相近(穩定);極差大則代表數據分佈非常廣。
快速複習盒:
1. 平均數: 相加後相除。
2. 中位數: 中間的數(一定要先排列!)。
3. 眾數: 最常見的。
4. 極差: 最大值減最小值。
常見錯誤(要避免): 許多同學在找中位數之前忘記將數字重新排列。如果沒有排序,找出來的中間數就會是錯的!
2. 處理分組數據
有時數據太多,我們無法列出每一個數字。這時我們會將它們放進「分組」(類別)中。例如:「0 到 10 分鐘」、「11 到 20 分鐘」等。
為什麼我們需要「估算」?
當數據被分組後,我們就不知道確切的原始數值了。我們只知道有多少人落在某個區間內。因此,我們只能計算平均數的估算值,而不是確切答案。
如何估算平均數:
- 找出每一組的組中點 (midpoint)(即正好在中間的數字)。
- 將組中點乘以該組的頻數 (frequency)(即該組有多少人/項目)。
- 將所有乘積相加。
- 除以總頻數(所有人/項目的總數)。
眾數組 (Modal Class)
分組數據中沒有單一的「眾數」,我們會找眾數組。這就是頻數最高的那一組。它是「最熱門」的類別。
關鍵點: 對於分組數據,計算平均數時請務必使用組中點來代表該組。
3. 比較數據集
考試題目經常要求你比較兩組數據(例如「A班」對比「B班」)。要獲得滿分,你必須比較兩件事:
- 平均值: 使用平均數或中位數來比較誰的表現「更好」或分數「更高」。
- 離散程度的度量: 使用極差(或進階課程的四分位距)來比較誰更「穩定」。
例子句式: 「平均而言,A班的得分較高,因為他們的平均數為 75,而 B班為 62;但 B班表現更穩定,因為他們的極差只有 10,而 A班為 25。」
4. 進階課程:四分位數與箱線圖
如果你正在學習進階課程 (Higher Tier),你需要超越極差,進一步了解四分位數 (Quartiles)。四分位數將數據分成四等份(每份佔 25%)。
- 下四分位數 (LQ): 數據中 25% 位置的數值。
- 上四分位數 (UQ): 數據中 75% 位置的數值。
- 四分位距 (IQR): \( UQ - LQ \)。這告訴你中間 50% 數據的離散程度。它比極差更好,因為它不受「極端值」(異常大或小的數字)的影響。
箱線圖 (Box-and-Whisker Diagrams)
箱線圖是一種以視覺方式呈現「五數概括」的統計圖:
- 最小值(左邊鬍鬚的末端)
- 下四分位數(箱子的左側)
- 中位數(箱子內部的線)
- 上四分位數(箱子的右側)
- 最大值(右邊鬍鬚的末端)
你知道嗎? 箱線圖非常適合用來即時比較兩個分佈。如果一個「箱子」越靠右,該組數據通常就有較高的數值!
5. 雙變量數據:散點圖
雙變量數據是指我們同時查看兩個不同的變量,看看它們是否相關。例如:「氣溫」和「雪糕銷量」。
相關性 (Correlation)
相關性是用來描述兩個變量之間關係的詞彙:
- 正相關: 當一個變量增加,另一個也增加(點的趨勢向右上方傾斜)。
- 負相關: 當一個變量增加,另一個卻減少(點的趨勢向右下方傾斜)。
- 無相關: 點分佈散亂,沒有規律。
最佳擬合線 (Line of Best Fit)
這是一條穿過數據點「中間」的直線。嘗試讓線條上方和下方的點數大致相等。我們使用這條線來進行預測。
- 內插法 (Interpolation): 預測數據範圍之內的數值。這通常相當可靠。
- 外推法 (Extrapolation): 預測數據範圍之外的數值。要小心! 這通常不可靠,因為趨勢可能不會永遠持續下去。
核心概念:相關性與因果關係
僅僅因為兩件事有關聯(相關性),並不代表其中一個導致 (cause) 了另一個。
例子: 太陽眼鏡銷量與雪糕銷量有相關性,但戴太陽眼鏡並不會「導致」你想吃雪糕——是因為天氣炎熱導致了這兩者的發生!
6. 極端值與誤導性數據
有時候,數據中會包含極端值 (outliers)。這些數值不符合其餘數據的模式。它們可能是測量錯誤,或者僅僅是非常罕見的事件。
圖表如何誤導我們
統計數據可以用來欺騙大眾!務必檢查以下事項:
- 刻度: Y 軸是否從 0 開始?如果從一個較大的數字開始,微小的差異看起來會被放大。
- 標籤: 軸是否有清楚標明單位?
- 象形圖: 圖片的比例是否正確?(例如:將圖片的高度加倍,實際面積會變為原來的四倍!)。
關鍵點: 永遠要看軸上的數字,而不僅僅是柱狀圖或線條的「形狀」!
最後的鼓勵
統計學的本質就是用數字講故事。只要記住排列數據、在分組時使用組中點,並總是比較平均值和離散程度,你就能輕鬆掌握這一章。繼續練習平均數計算——你一定可以的!