Processing, representing and analysing data - Statistics (1ST0) - Pearson Edexcel GCSE (9-1)

歡迎來到數據分析的世界！

在本章中，我們不只是單純地收集數字，而是要學習如何處理、視覺化這些數據，並讀懂它們背後真正的含義。你可以把統計學家想像成偵探：數據就是證據，而本章所學的工具就是你破解謎團的關鍵！

由於這是高階（Higher Tier）內容，我們將探討一些進階技巧，幫助你比較不同的數據集並做出極為精準的預測。如果一開始覺得某些公式看起來很複雜，別擔心，我們會一步步將它們拆解。

1. 數據呈現：超越簡單圖表

你已經熟悉長條圖和象形圖了，但在高階課程中，我們需要比較不同的數據集，並觀察數據的「分佈形態」。

比較圓形圖（Comparative Pie Charts）

當我們使用圓形圖比較兩個規模不同的群體（例如：小型學校對比大型學校）時，不能只將它們畫成一樣大。我們必須讓圓形的面積代表總頻數（total frequency）。

小撇步：要計算新圓形圖的半徑，請使用這個關係式：
\( \frac{\text{Area}_1}{\text{Area}_2} = \frac{\text{Total Frequency}_1}{\text{Total Frequency}_2} \)

由於面積與半徑的平方（\( r^2 \)）有關，因此半徑的比率即為頻數比率的平方根。
範例：如果圖表 B 的數據量是圖表 A 的 4 倍，那麼它的半徑應該是圖表 A 的 2 倍（\( \sqrt{4} = 2 \)）。

直方圖（不等寬組距）

在直方圖中，長條的面積代表頻數，而非高度。當你的分組（組距）大小不一，這一點至關重要。

關鍵公式：
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

快速複習：除非組距相等，否則請務必將 y 軸標記為「頻數密度（Frequency Density）」！

理解偏態（Skewness）

偏態能告訴我們數據是否「偏向」某一側。
正偏態（Positive Skew）：大部分數據集中在數值較小的一端（右側有一條長尾）。
負偏態（Negative Skew）：大部分數據集中在數值較大的一端（左側有一條長尾）。

你可以使用以下公式計算偏態（考卷會提供此公式）：
\( \text{Skew} = \frac{3(\text{mean} - \text{median})}{\text{standard deviation}} \)

關鍵結論：如果 平均值（mean） > 中位數（median），數據通常呈正偏態。如果 中位數 > 平均值，則通常呈負偏態。

2. 進階平均數（集中趨勢）

我們通常討論「三大統計量」（平均數、中位數、眾數），但對於高階學生來說，還需要更多工具。

加權平均數（Weighted Mean）

當某些數字比其他數字更重要時使用。
類比：你的最終成績可能由 20% 平時作業和 80% 期末考試組成，考試的「權重」就更高！
\( \text{Weighted Mean} = \frac{\sum (value \times weight)}{\sum weights} \)

幾何平均數（Geometric Mean）

這主要用於增長率或百分比。如果你想找出五年的平均利率，就要用這個。
\( \text{Geometric Mean} = \sqrt[n]{x_1 \times x_2 \times ... \times x_n} \)

該用哪種平均數？

平均數（Mean）：最適合沒有離群值（outliers）且對稱的數據。
中位數（Median）：最適合數據偏斜或含有離群值的情況（它對極端數值有「抗干擾性」）。
眾數（Mode）：最適合非數值（質性）數據，例如「最喜歡的顏色」。

關鍵結論：平均數最敏感——如果房間裡進來了一位億萬富翁，平均財富會飆升，但中位數卻保持不變！

3. 測量離散程度（離差）

光知道平均值是不夠的，我們需要知道數據是聚在一起還是分散開來。

標準差（Standard Deviation, \( \sigma \)）

這是衡量離散程度的「黃金標準」。它告訴我們數據點與平均值之間的平均距離。

別慌：公式會提供給你！你只需記住：
1. 大 \( \sigma \) = 數據非常分散。
2. 小 \( \sigma \) = 數據很穩定且靠近平均值。

識別離群值（Outliers）

離群值是不符合規律的數據點。我們使用數學方法來「正式」判定一個數值是否為離群值：
1. 四分位距法則（IQR Rule）：若數值符合以下情況，即為離群值：
小於 \( LQ - (1.5 \times IQR) \) 或大於 \( UQ + (1.5 \times IQR) \)

2. 標準差法則：任何落在 \( \mu \pm 3\sigma \) 範圍之外（距離平均值超過 3 個標準差）的數值通常被視為離群值。

標準分數（Z-Scores）

如何比較艱深數學考卷的分數與簡單英文考卷的分數？這時就要用 Z-分數！它告訴你一個數值距離平均值有多少個標準差。
\( \text{Standardized Score} = \frac{x - \mu}{\sigma} \)

關鍵結論：正值的 Z-分數高於平均值；負值的 Z-分數低於平均值。Z-分數為 0 代表剛好位於平均值。

4. 相關性與回歸

這部分主要探討兩個變數之間的關係（雙變數數據）。

Spearman 等級相關係數 vs. 皮爾森相關係數 (PMCC)

PMCC (Pearson’s)：衡量線性（直線）關係的強度。數值介於 -1 到 +1 之間。
Spearman 等級相關係數：衡量排序之間的匹配程度。如果數據不是直線，但仍呈現單一方向的趨勢（非線性），請使用此方法。

回歸線（Regression Line）

「最佳擬合線」的方程式為：\( y = a + bx \)。
- \( a \) 是截距（線與 y 軸的交點）。
- \( b \) 是斜率（每增加 1 個單位的 \( x \)，\( y \) 會改變多少）。

常見錯誤：外推法（Extrapolation）。這是在你測量範圍之外進行預測。這是非常危險的，因為趨勢可能會改變！

關鍵結論：相關不代表因果！冰淇淋銷量和鯊魚攻擊事件在夏天同時增加，並不代表冰淇淋導致了鯊魚攻擊。它們兩者都是由第三個因素造成的：溫暖的天氣。

5. 時間序列與品質保證

統計不僅僅是快照，它往往像電影一樣，展示隨時間發生的變化。

移動平均數（Moving Averages）

像「每日氣溫」這類數據會大幅波動（這稱為「雜訊」）。4 點移動平均數可以平滑這些波動，從而顯示潛在的趨勢。

品質管制圖（Quality Control Charts）

工廠使用這些圖表來確保機器沒有故障。
- 警戒線（Warning Lines）：通常設在 \( \pm 2\sigma \)。如果數據點觸及此線，你需要密切關注。
- 行動線（Action Lines）：通常設在 \( \pm 3\sigma \)。如果數據點觸及此線，立刻停機！肯定出了問題。

你知道嗎？在正常的作業流程中，僅憑機率，每 20 個點中只有 1 個會落在警戒線之外。

6. 估算：彼得森標記重捕法（Petersen Capture-Recapture）

如何在不把湖裡的魚全部捕獲的情況下計算數量？
1. 捕獲一組魚，標記它們 (\( M \))，然後放回。
2. 之後，捕獲第二組魚 (\( n \))。
3. 計算第二組中有多少是被標記過的 (\( m \))。

公式：
\( \text{Total Population (N)} = \frac{M \times n}{m} \)

必須了解的假設：
- 標記沒有掉落。
- 兩次捕獲之間沒有生物出生或死亡。
- 標記過的生物已完全混入族群中。

最後鼓勵：統計學是用數字說故事。別讓符號嚇到你——它們只是簡單概念的速記法。你一定沒問題的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。