歡迎來到單元 S1:數據的表示與摘要!
你好,未來的統計學家!本章是你統計學領域的基石。我們將不再僅僅是瀏覽數字,而是學習如何整理、視覺化並總結龐大的數據集,從而得出有意義的結論。把自己想像成一位數據偵探吧!
如果有些術語乍看之下令人望而生畏,請別擔心。我們會透過簡單的步驟和現實生活中的例子,為你拆解每一個概念,從繪製棘手的直方圖到計算標準差。讓我們開始吧!
1. 理解數據:類型與收集
1.1 變數類型
當我們收集數據時,需要對其進行分類。變數就是我們所測量的特徵。
數量數據 (Quantitative Data):涉及數字(數值)的數據。
-
離散數據 (Discrete Data):只能取特定、固定值(通常為整數)的數據。它通常涉及「點算」。
例子:經過學校的汽車數量(你不可能有 2.5 輛車)。 -
連續數據 (Continuous Data):可以在給定範圍內取任何值的數據。它通常涉及「測量」。
例子:身高、體重或溫度。
定性數據 (Qualitative Data / Categorical):描述性質或類別的數據,而非以數值測量。
- 例子:頭髮顏色、車型或最喜歡的雪糕口味。(雖然這些也很重要,但 S1 主要集中在數量數據上。)
✅ 快速提示:離散與連續
如果你需要用「數」的,那就是離散。如果你需要用儀器來「測量」(並且理論上可以添加更多小數位),那就是連續。
1.2 數據收集方法:普查與抽樣
我們如何獲取所需的數據呢?
-
普查 (Census):普查是對群體中每一個成員進行觀察或測量。
優點:結果非常準確(真實參數)。
缺點:耗時、昂貴,且通常不切實際或不可能執行。 -
抽樣 (Sample):抽樣是對群體的子集進行觀察或測量。
優點:執行速度快、成本低且較容易進行。
缺點:可能無法完美反映群體特徵(結果為估算值)。
重點:了解數據類型(離散/連續)至關重要,因為它決定了你必須使用哪種圖表(例如直方圖)或計算方法。
2. 數據的視覺化表示
數據收集後,需要清晰地展示出來。我們將重點介紹 S1 中使用的三種主要圖表。
2.1 莖葉圖 (Stem and Leaf Diagrams)
這是快速查看小型數據集形狀並保留原始數值的絕佳工具。
- 結構:「莖」代表較大的位值(例如十位數或百位數),而「葉」代表最後一位數字。
-
規則:葉必須按數值順序排列,且必須包含圖例 (Key)。
例子圖例:4 | 7 代表 47。 - 背對背莖葉圖 (Back-to-Back Stem and Leaf):用於並排比較兩個數據集,共用一個中央莖。
2.2 箱線圖 (Box Plots / Box and Whisker Diagrams)
箱線圖顯示了數據的分佈情況,並有助於識別極端值。它是使用五數概括 (Five-Number Summary) 構建的。
五數概括包括:
- 最小值(左側觸鬚的末端)
- 下四分位數 (\(Q_1\))(箱子的起點 - 25% 的數據低於此值)
- 中位數 (\(Q_2\))(箱內的線 - 50% 的數據低於此值)
- 上四分位數 (\(Q_3\))(箱子的終點 - 75% 的數據低於此值)
- 最大值(右側觸鬚的末端)
無論看起來有多寬,每個部分(觸鬚或箱子的區段)都代表了 25% 的數據。
2.3 直方圖:面積法則
這通常是最棘手的表達方式。直方圖用於連續數據,特別是在組距(組寬)不相等時。
關鍵區別:與條形圖(高度代表頻數)不同,在直方圖中,長條的面積才代表頻數。
這意味著我們不能簡單地將頻數繪製在組距上。我們必須計算縱軸的頻數密度 (Frequency Density)。
公式警示!
$$ \text{頻數密度} = \frac{\text{頻數}}{\text{組寬}} $$
繪製直方圖的步驟指南:
- 在頻數表中增加一列用於計算組寬(上限 – 下限)。
- 使用上述公式增加一列計算頻數密度。
- 將頻數密度繪製在縱軸(y軸)。
- 將組界繪製在橫軸(x軸)。
- 繪製長條。請記住,長條之間不應有間隙(因為數據是連續的)。
常見錯誤:將頻數密度與頻數混淆。如果題目要求從直方圖找出頻數,你必須計算:
$$ \text{頻數} = \text{頻數密度} \times \text{組寬} $$
你知道嗎?如果所有組寬相等,直方圖的形狀看起來會與簡單的頻數圖完全一樣。統計學家通常只在組寬不相等時才使用直方圖。
重點:對於直方圖,面積 = 頻數。務必在 y 軸上使用頻數密度,特別是在組寬不相等時。
3. 集中趨勢測度(平均值)
集中趨勢測量的是數據集的「中間」或「典型」數值所在的位置。
3.1 眾數、中位數和平均值
我們主要使用三種平均值:
-
眾數 (Mode):出現最頻繁的數值。
最適用於:定性數據,或描述最受歡迎的項目。 -
中位數 (\(Q_2\)):將數據按升序排列後的中間值。
中位數位置:如果 \(n\) 是數據點的數量,中位數位於 \((\frac{n+1}{2})\) 的位置。
最適用於:包含極端值(離群值)的數據,因为它比平均值受到的影響更小。 -
平均值 (\(\bar{x}\)):所有數值之和除以數值個數。它是最常用的平均值。
原始數據公式: $$ \bar{x} = \frac{\sum x}{n} $$
最適用於:沒有極端離群值的對稱數據。
3.2 分組數據的估算測度
當數據以包含組距(例如 10-20, 20-30)的頻數表呈現時,我們無法得知確切數值,因此必須估算平均值和中位數。
估算平均值
要從分組數據計算平均值,我們假設組內的所有數值都由該組的組中點 (\(m\)) 代表。
$$ \bar{x} \approx \frac{\sum (m \times f)}{\sum f} $$ 其中 \(m\) 是組中點,\(f\) 是頻數。
估算中位數(線性插值法)
對於分組連續數據,我們使用線性插值法 (Linear Interpolation) 來估算中位數 (\(Q_2\)) 和其他四分位數 (\(Q_1, Q_3\))。
插值概念:我們假設數據均勻分佈在包含中位數的組別中。我們定位中位數的位置(取決於具體書籍方法,通常為 \(\frac{n}{2}\) 或 \(\frac{n+1}{2}\),對於分組連續數據通常取 \(\frac{n}{2}\)),並透過比例關係求出其對應數值。
類比:如果你知道有 50 人身高在 10m 到 20m 之間,而中位數是第 25 個人,那麼中位數就位於 10 和 20 的正中間(即 15m)。插值法將此過程正規化。
重點:平均值使用了每個數據點,但對離群值敏感。中位數忽略了離群值,但需要排列數據。對於分組數據,結果是使用組中點(平均值)或插值法(四分位數)得到的估算值。
4. 離散程度測度(散佈度)
離散程度測量數據的分散程度。兩個數據集可能有相同的平均值,但其分散程度卻大相徑庭!
4.1 全距與四分位距 (IQR)
-
全距 (Range):最高值與最低值之間的差額。
$$ \text{全距} = \text{最大值} - \text{最小值} $$
問題:對離群值高度敏感。 -
四分位距 (IQR):上四分位數 (\(Q_3\)) 與下四分位數 (\(Q_1\)) 之間的差額。
$$ \text{IQR} = Q_3 - Q_1 $$
優點:描述了中間 50% 數據的分散程度,且不受離群值影響。
4.2 方差與標準差
這是最強大的分散度測量方式,因為它們考慮了每一個數據點與平均值的距離。
方差 (\(\sigma^2\)):離均差平方的平均值。
標準差 (\(\sigma\)):方差的平方根。它更受青睞,因為它與原始數據具有相同的單位。
小的標準差意味著數據緊密聚集在平均值周圍。
大的標準差意味著數據分佈非常廣泛。
計算公式(考試必備!)
計算通常使用由平方和 \(S_{xx}\) 導出的計算公式。
1. 平方和 (\(S_{xx}\)): $$ S_{xx} = \sum x^2 - \frac{(\sum x)^2}{n} $$ (注意:如果是從頻數表計算,\(\sum x^2\) 變成 \(\sum f x^2\),而 \(n\) 變成 \(\sum f\))。
2. 方差 (\(\sigma^2\)): $$ \sigma^2 = \frac{S_{xx}}{n} $$
3. 標準差 (\(\sigma\)): $$ \sigma = \sqrt{\frac{S_{xx}}{n}} $$
⚠️ 記憶輔助:方差公式
記住 \(S_{xx}\) 的結構:它是「平方和」減去「和的平方」(全部除以 \(n\))。
\(S_{xx}\) 通常被稱為方差計算中的「分子」。務必先計算 \(S_{xx}\)!
重點:標準差是測量散佈度的黃金標準。使用計算機的統計模式快速驗證數值,但要準備好在過程中展示 \(S_{xx}\) 公式。
5. 數據解釋:偏態與離群值
5.1 偏態 (Skewness)
偏態描述了分佈的對稱性(或缺乏對稱性)。它告訴我們數據是向左還是向右拖尾。
-
正偏態(右偏態):尾部向右延伸。
關係: 眾數 < 中位數 < 平均值。(平均值被拉向尾部方向最遠)。
類比:考試成績中,大多數人得分很高,但少數學生考得很低,拖累了平均分。 -
負偏態(左偏態):尾部向左延伸。
關係: 平均值 < 中位數 < 眾數。(平均值被拉向尾部方向最遠)。
類比:房價中,大多數房屋價格便宜,但幾座豪宅將平均價格拉高了。 -
對稱分佈:數據是平衡的。
關係: 平均值 \(\approx\) 中位數 \(\approx\) 眾數。
5.2 識別與處理離群值
離群值 (Outlier) 是指與數據集中其他值距離異常的觀測值。它們可能是真實的極端值,也可能是記錄錯誤。
在 S1 中,我們有一個基於 IQR 的正式規則來識別潛在的離群值:
數值 \(x\) 若符合以下條件即為離群值:
- \(x < Q_1 - 1.5 \times \text{IQR}\) (下界)
- \(x > Q_3 + 1.5 \times \text{IQR}\) (上界)
離群值的影響:離群值對平均值和全距影響重大,但對中位數和IQR的影響最小。
繪製箱線圖時:如果發現離群值,通常用星號 (\( * \)) 或交叉 (\( \times \)) 標記。觸鬚則僅延伸至不是離群值的最大/最小值。
重點:偏態告訴我們形狀(使用平均值-中位數-眾數關係)。離群值使用 \(1.5 \times \text{IQR}\) 規則進行數學定義,在計算箱線圖邊界時必須小心處理。