歡迎來到數據分析的世界!

在本章中,我們不只是單純地收集數字,而是要學習如何處理視覺化這些數據,並讀懂它們背後真正的含義。你可以把統計學家想像成偵探:數據就是證據,而本章所學的工具就是你破解謎團的關鍵!

由於這是高階(Higher Tier)內容,我們將探討一些進階技巧,幫助你比較不同的數據集並做出極為精準的預測。如果一開始覺得某些公式看起來很複雜,別擔心,我們會一步步將它們拆解。

1. 數據呈現:超越簡單圖表

你已經熟悉長條圖和象形圖了,但在高階課程中,我們需要比較不同的數據集,並觀察數據的「分佈形態」。

比較圓形圖(Comparative Pie Charts)

當我們使用圓形圖比較兩個規模不同的群體(例如:小型學校對比大型學校)時,不能只將它們畫成一樣大。我們必須讓圓形的面積代表總頻數(total frequency)。

小撇步:要計算新圓形圖的半徑,請使用這個關係式:
\( \frac{\text{Area}_1}{\text{Area}_2} = \frac{\text{Total Frequency}_1}{\text{Total Frequency}_2} \)

由於面積與半徑的平方(\( r^2 \))有關,因此半徑的比率即為頻數比率的平方根
範例:如果圖表 B 的數據量是圖表 A 的 4 倍,那麼它的半徑應該是圖表 A 的 2 倍(\( \sqrt{4} = 2 \))。

直方圖(不等寬組距)

在直方圖中,長條的面積代表頻數,而非高度。當你的分組(組距)大小不一,這一點至關重要。

關鍵公式:
\( \text{Frequency Density} = \frac{\text{Frequency}}{\text{Class Width}} \)

快速複習:除非組距相等,否則請務必將 y 軸標記為「頻數密度(Frequency Density)」!

理解偏態(Skewness)

偏態能告訴我們數據是否「偏向」某一側。
正偏態(Positive Skew):大部分數據集中在數值較小的一端(右側有一條長尾)。
負偏態(Negative Skew):大部分數據集中在數值較大的一端(左側有一條長尾)。

你可以使用以下公式計算偏態(考卷會提供此公式):
\( \text{Skew} = \frac{3(\text{mean} - \text{median})}{\text{standard deviation}} \)

關鍵結論:如果 平均值(mean) > 中位數(median),數據通常呈正偏態。如果 中位數 > 平均值,則通常呈負偏態

2. 進階平均數(集中趨勢)

我們通常討論「三大統計量」(平均數、中位數、眾數),但對於高階學生來說,還需要更多工具。

加權平均數(Weighted Mean)

當某些數字比其他數字更重要時使用。
類比:你的最終成績可能由 20% 平時作業和 80% 期末考試組成,考試的「權重」就更高!
\( \text{Weighted Mean} = \frac{\sum (value \times weight)}{\sum weights} \)

幾何平均數(Geometric Mean)

這主要用於增長率或百分比。如果你想找出五年的平均利率,就要用這個。
\( \text{Geometric Mean} = \sqrt[n]{x_1 \times x_2 \times ... \times x_n} \)

該用哪種平均數?

  • 平均數(Mean):最適合沒有離群值(outliers)且對稱的數據。
  • 中位數(Median):最適合數據偏斜或含有離群值的情況(它對極端數值有「抗干擾性」)。
  • 眾數(Mode):最適合非數值(質性)數據,例如「最喜歡的顏色」。

關鍵結論:平均數最敏感——如果房間裡進來了一位億萬富翁,平均財富會飆升,但中位數卻保持不變!

3. 測量離散程度(離差)

光知道平均值是不夠的,我們需要知道數據是聚在一起還是分散開來。

標準差(Standard Deviation, \( \sigma \))

這是衡量離散程度的「黃金標準」。它告訴我們數據點與平均值之間的平均距離

別慌:公式會提供給你!你只需記住:
1. 大 \( \sigma \) = 數據非常分散。
2. 小 \( \sigma \) = 數據很穩定且靠近平均值。

識別離群值(Outliers)

離群值是不符合規律的數據點。我們使用數學方法來「正式」判定一個數值是否為離群值:
1. 四分位距法則(IQR Rule):若數值符合以下情況,即為離群值:
小於 \( LQ - (1.5 \times IQR) \) 或 大於 \( UQ + (1.5 \times IQR) \)

2. 標準差法則:任何落在 \( \mu \pm 3\sigma \) 範圍之外(距離平均值超過 3 個標準差)的數值通常被視為離群值。

標準分數(Z-Scores)

如何比較艱深數學考卷的分數與簡單英文考卷的分數?這時就要用 Z-分數!它告訴你一個數值距離平均值有多少個標準差。
\( \text{Standardized Score} = \frac{x - \mu}{\sigma} \)

關鍵結論:正值的 Z-分數高於平均值;負值的 Z-分數低於平均值。Z-分數為 0 代表剛好位於平均值。

4. 相關性與回歸

這部分主要探討兩個變數之間的關係(雙變數數據)。

Spearman 等級相關係數 vs. 皮爾森相關係數 (PMCC)

  • PMCC (Pearson’s):衡量線性(直線)關係的強度。數值介於 -1 到 +1 之間。
  • Spearman 等級相關係數:衡量排序之間的匹配程度。如果數據不是直線,但仍呈現單一方向的趨勢(非線性),請使用此方法。

回歸線(Regression Line)

「最佳擬合線」的方程式為:\( y = a + bx \)。
- \( a \) 是截距(線與 y 軸的交點)。
- \( b \) 是斜率(每增加 1 個單位的 \( x \),\( y \) 會改變多少)。

常見錯誤:外推法(Extrapolation)。這是在你測量範圍之外進行預測。這是非常危險的,因為趨勢可能會改變!

關鍵結論:相關不代表因果!冰淇淋銷量和鯊魚攻擊事件在夏天同時增加,並不代表冰淇淋導致了鯊魚攻擊。它們兩者都是由第三個因素造成的:溫暖的天氣。

5. 時間序列與品質保證

統計不僅僅是快照,它往往像電影一樣,展示隨時間發生的變化。

移動平均數(Moving Averages)

像「每日氣溫」這類數據會大幅波動(這稱為「雜訊」)。4 點移動平均數可以平滑這些波動,從而顯示潛在的趨勢

品質管制圖(Quality Control Charts)

工廠使用這些圖表來確保機器沒有故障。
- 警戒線(Warning Lines):通常設在 \( \pm 2\sigma \)。如果數據點觸及此線,你需要密切關注。
- 行動線(Action Lines):通常設在 \( \pm 3\sigma \)。如果數據點觸及此線,立刻停機!肯定出了問題。

你知道嗎?在正常的作業流程中,僅憑機率,每 20 個點中只有 1 個會落在警戒線之外。

6. 估算:彼得森標記重捕法(Petersen Capture-Recapture)

如何在不把湖裡的魚全部捕獲的情況下計算數量?
1. 捕獲一組魚,標記它們 (\( M \)),然後放回。
2. 之後,捕獲第二組魚 (\( n \))。
3. 計算第二組中有多少是被標記過的 (\( m \))。

公式:
\( \text{Total Population (N)} = \frac{M \times n}{m} \)

必須了解的假設:
- 標記沒有掉落。
- 兩次捕獲之間沒有生物出生或死亡。
- 標記過的生物已完全混入族群中。

最後鼓勵:統計學是用數字說故事。別讓符號嚇到你——它們只是簡單概念的速記法。你一定沒問題的!