Analysing data

歡迎來到數據分析！

你有沒有想過遊戲公司是如何決定開發哪款遊戲，或者老師是如何預測你的最終成績？這一切都歸功於數據分析。在本章中，我們要成為「數據偵探」。我們會學習如何將堆積如山且雜亂無章的數字，轉化為有助於我們決策的清晰資訊。別擔心，如果你覺得面對大堆數據會感到害怕，我們會將它們拆解成簡單且易於跟隨的步驟。

1. 「四大」總結統計量

當我們擁有一系列數據（稱為未分組數據）時，我們會使用四種主要工具來理解什麼是「常規」，以及這些數字的分佈情況。這些就是平均數 (Mean)、中位數 (Median)、眾數 (Mode) 和 極差 (Range)。

平均值（集中趨勢的度量）

平均數 (Mean)： 即「平均分配」的數值。將所有數字相加，然後除以數字的個數。
例子： 對於數字 3、5 和 10：\( \frac{3 + 5 + 10}{3} = \frac{18}{3} = 6 \)。
中位數 (Median)： 中間的數值。你必須先將數字由小到大排列！
類比： 想像高速公路中間的「中央分隔帶」——它就在正中間。
眾數 (Mode)： 出現次數最多的數值。
記憶小撇步： MOde = MOst often（出現最多次）。

離散程度

極差 (Range)： 這告訴我們數據有多「穩定」。計算方法是最大值 - 最小值。
提示： 極差小代表數據非常相近（穩定）；極差大則代表數據分佈非常廣。

快速複習盒：
1. 平均數： 相加後相除。
2. 中位數： 中間的數（一定要先排列！）。
3. 眾數： 最常見的。
4. 極差： 最大值減最小值。

常見錯誤（要避免）： 許多同學在找中位數之前忘記將數字重新排列。如果沒有排序，找出來的中間數就會是錯的！

2. 處理分組數據

有時數據太多，我們無法列出每一個數字。這時我們會將它們放進「分組」（類別）中。例如：「0 到 10 分鐘」、「11 到 20 分鐘」等。

為什麼我們需要「估算」？

當數據被分組後，我們就不知道確切的原始數值了。我們只知道有多少人落在某個區間內。因此，我們只能計算平均數的估算值，而不是確切答案。

如何估算平均數：

找出每一組的組中點 (midpoint)（即正好在中間的數字）。
將組中點乘以該組的頻數 (frequency)（即該組有多少人/項目）。
將所有乘積相加。
除以總頻數（所有人/項目的總數）。

眾數組 (Modal Class)

分組數據中沒有單一的「眾數」，我們會找眾數組。這就是頻數最高的那一組。它是「最熱門」的類別。

關鍵點： 對於分組數據，計算平均數時請務必使用組中點來代表該組。

3. 比較數據集

考試題目經常要求你比較兩組數據（例如「A班」對比「B班」）。要獲得滿分，你必須比較兩件事：

平均值： 使用平均數或中位數來比較誰的表現「更好」或分數「更高」。
離散程度的度量： 使用極差（或進階課程的四分位距）來比較誰更「穩定」。

例子句式： 「平均而言，A班的得分較高，因為他們的平均數為 75，而 B班為 62；但 B班表現更穩定，因為他們的極差只有 10，而 A班為 25。」

4. 進階課程：四分位數與箱線圖

如果你正在學習進階課程 (Higher Tier)，你需要超越極差，進一步了解四分位數 (Quartiles)。四分位數將數據分成四等份（每份佔 25%）。

下四分位數 (LQ)： 數據中 25% 位置的數值。
上四分位數 (UQ)： 數據中 75% 位置的數值。
四分位距 (IQR)： \( UQ - LQ \)。這告訴你中間 50% 數據的離散程度。它比極差更好，因為它不受「極端值」（異常大或小的數字）的影響。

箱線圖 (Box-and-Whisker Diagrams)

箱線圖是一種以視覺方式呈現「五數概括」的統計圖：

最小值（左邊鬍鬚的末端）
下四分位數（箱子的左側）
中位數（箱子內部的線）
上四分位數（箱子的右側）
最大值（右邊鬍鬚的末端）

你知道嗎？ 箱線圖非常適合用來即時比較兩個分佈。如果一個「箱子」越靠右，該組數據通常就有較高的數值！

5. 雙變量數據：散點圖

雙變量數據是指我們同時查看兩個不同的變量，看看它們是否相關。例如：「氣溫」和「雪糕銷量」。

最佳擬合線 (Line of Best Fit)

這是一條穿過數據點「中間」的直線。嘗試讓線條上方和下方的點數大致相等。我們使用這條線來進行預測。

內插法 (Interpolation)： 預測數據範圍之內的數值。這通常相當可靠。
外推法 (Extrapolation)： 預測數據範圍之外的數值。要小心！ 這通常不可靠，因為趨勢可能不會永遠持續下去。

核心概念：相關性與因果關係
僅僅因為兩件事有關聯（相關性），並不代表其中一個導致 (cause) 了另一個。
例子： 太陽眼鏡銷量與雪糕銷量有相關性，但戴太陽眼鏡並不會「導致」你想吃雪糕——是因為天氣炎熱導致了這兩者的發生！

6. 極端值與誤導性數據

有時候，數據中會包含極端值 (outliers)。這些數值不符合其餘數據的模式。它們可能是測量錯誤，或者僅僅是非常罕見的事件。

圖表如何誤導我們

統計數據可以用來欺騙大眾！務必檢查以下事項：

刻度： Y 軸是否從 0 開始？如果從一個較大的數字開始，微小的差異看起來會被放大。
標籤： 軸是否有清楚標明單位？
象形圖： 圖片的比例是否正確？（例如：將圖片的高度加倍，實際面積會變為原來的四倍！）。

關鍵點： 永遠要看軸上的數字，而不僅僅是柱狀圖或線條的「形狀」！

最後的鼓勵

統計學的本質就是用數字講故事。只要記住排列數據、在分組時使用組中點，並總是比較平均值和離散程度，你就能輕鬆掌握這一章。繼續練習平均數計算——你一定可以的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。