歡迎來到統計學:數據解讀!
各位未來的數據小神童,大家好!這一章「統計數據解讀」是數學中最實用的部分之一。為什麼這麼說?因為我們生活在一個資訊氾濫的世界,從薪資水平的新聞報導到追蹤氣候變化的圖表,無處不在。理解統計學意味著你可以釐清這些數據背後的意義,避免被誤導!
我們將學習如何整理數據、計算關鍵指標(如平均值),並運用圖表來清晰地傳達資訊。讓我們開始吧!
第一節:數據分類與列表 (C10.1, C10.3)
1.1 統計數據的類型
在進行任何計算之前,我們必須知道我們處理的是哪種數據。數據主要分為兩類:
離散數據 (Discrete Data)
離散數據源自於點算 (counting),其數值通常只能是特定的整數。它不能透過測量得出。
例子:學生的兄弟姊妹人數(1、2、3...)、停車場內的汽車數量、鞋碼(這是標準化的數值)。
連續數據 (Continuous Data)
連續數據源自於測量 (measuring),在特定範圍內可以取任何數值,精度通常受限於測量工具的準確度。
例子:身高、體重、溫度、跑完賽程所需的時間(例如:1.5秒、1.57秒、1.573秒等)。
小貼士: 如果你需要「點算」出來的,它就是離散數據。如果你需要用尺或磅秤來「測量」的,它就是連續數據。
1.2 數據列表(正字統計與雙向表格)
數據通常剛開始是一團亂的,我們會使用表格來整理它。
正字統計與頻數分佈
簡單的頻數分佈表 (frequency distribution) 顯示了每個數據值出現的次數。你可以使用「正」字或劃線(每五個一組:| | | | $\cancel{||||}$)來統計出現次數。
例子:如果詢問 30 位學生養了多少隻寵物,頻數表會顯示有多少學生養 0 隻、1 隻、2 隻寵物,以此類推。
雙向表格 (Two-Way Tables)
當你需要根據兩個不同的類別對數據進行分類時,會使用雙向表格。
例子:同時根據性別(男/女)和選修科目(數學/科學)對學生進行分類。
重點: 良好的組織(使用正字統計或雙向表格)是分析前的必要第一步。區分離散與連續數據對於日後繪製特定類型的圖表至關重要。
第二節:統計圖表與示意圖 (C10.6)
我們經常使用圖表以視覺化方式呈現已整理的數據,這樣更容易看出規律和趨勢。
2.1 長條圖與象形圖
長條圖通常用於離散數據或類別數據。
-
簡單長條圖: 長條之間分開繪製(不相連)。長條的高度代表頻數。
-
組合(堆疊)長條圖: 用於顯示單個長條內的各種子類別。長條的總高度代表總頻數。
-
雙重(並排)長條圖: 用於並排比較兩組相關數據。例子:比較男女生在同一次考試中的分數。
-
象形圖: 使用圖片或符號來代表頻數。切記,象形圖必須包含圖例 (key),解釋一個符號代表多少數值。
2.2 圓形圖 (Pie Charts)
圓形圖將數據顯示為圓形的扇區,每個扇區的面積與其代表的頻數成正比。
步驟:繪製圓形圖
- 計算數據的總頻數(總數 $N$)。
- 計算每個類別的分數:\(\frac{\text{該類別頻數}}{\text{總頻數}}\)。
- 將分數轉換為角度:\(\text{角度} = \frac{\text{該類別頻數}}{\text{總頻數}} \times 360^{\circ}\)。
- 使用量角器繪製扇區。
2.3 莖葉圖 (Stem-and-Leaf Diagrams)
莖葉圖是一種在保留原始數值的情況下顯示數值數據的好方法。
規則: 數據必須排序(由小到大)並包含圖例。
例子:如果圖例顯示「2 | 5 代表 25」,則莖(2)代表十位數,葉(5)代表個位數。
重點: 圖表讓解讀變得更快速。請務必為座標軸加上標籤(針對長條圖)或提供圖例(針對圓形圖和莖葉圖),確保圖表容易被理解。
第三節:集中趨勢測量(平均值)(C10.4, E10.4)
平均值(或稱集中趨勢測量)告訴我們數據集的「中間」或「典型」數值在哪裡。
3.1 眾數 (Mode)
眾數是出現次數最多的數值。
-
即使是非數值(類別)數據,眾數也很容易找出。
-
數據集可能沒有眾數(如果所有數值只出現一次),也可能是雙眾數 (bimodal) 或多眾數。
3.2 中位數 (Median)
中位數是將數據按大小排序後的中間值。
步驟:找中位數
- 將數據由小到大排序。
- 使用公式找到中位數的位置:位置 \( = \frac{n+1}{2}\),其中 $n$ 是數據點的總數。
- 數到該位置即可找到中位數。
如果 $n$ 是奇數,位置會是一個整數(例如第 5 位)。如果 $n$ 是偶數,位置會以 .5 結尾(例如第 5.5 位)。後者情況下,中位數是該位置前後兩個數值的平均值(第 5 個數與第 6 個數的平均)。
3.3 平均數 (Mean)
平均數是透過將所有數值加總後,除以數值個數來計算。
個別數據的公式: $$ \text{Mean} = \frac{\sum x}{n} $$ (所有數值總和除以數值個數)
頻數表數據(未分組)的公式: $$ \text{Mean} = \frac{\sum fx}{\sum f} $$ (其中 $f$ 為頻數,$x$ 為數據值。)
3.4 分組數據的估算平均數 (Extended E10.4)
當數據以分組形式呈現(例如:10 < 體重 $\le$ 20)時,我們無法算出確切平均數,只能計算一個估算值。
步驟:估算分組數據的平均數
- 找出每個組距的中點 (midpoint)(\(x\))。(中點是該組上下邊界的平均值)。
- 將每組的頻數 ($f$) 乘以中點 ($x$) 得到 $fx$。
- 使用相同的頻數公式計算估算平均數:\(\text{Estimated Mean} = \frac{\sum fx}{\sum f}\)。
眾數組 (Modal Class): 對於分組數據,眾數被眾數組取代,即頻數最高的那組。
重點: 選擇最能代表數據的平均指標。平均數利用了所有數據,但會受到極端值影響;中位數對極端值較具穩健性;眾數則適用於類別數據。
第四節:離散程度測量 (C10.4, E10.4)
離散程度測量(或稱變異量)告訴我們數據的分散情況。
4.1 全距 (Range)
全距是最簡單的離散程度測量。 $$ \text{Range} = \text{最大值} - \text{最小值} $$ 別擔心,就是這麼簡單!
全距計算簡單,但極易受到極端值(離群值)的影響。
4.2 四分位數與四分位距 (IQR)
四分位數將排序後的數據分為四個相等的部分。
-
下四分位數 (\(Q_1\)): 25% 位置處的數值(數據的四分之一處)。
-
中位數 (\(Q_2\)): 50% 位置處的數值(中間)。
-
上四分位數 (\(Q_3\)): 75% 位置處的數值(數據的四分之三處)。
若要找個別數據的四分位數位置,可以使用與中位數類似的公式: $$ Q_1 \text{ 位置} = \frac{1}{4}(n+1) $$ $$ Q_3 \text{ 位置} = \frac{3}{4}(n+1) $$
四分位距 (Interquartile Range, IQR) 測量中間 50% 數據的離散程度。 $$ \text{IQR} = Q_3 - Q_1 $$ IQR 比全距更可靠,因為它不受極端離群值的影響。
重點: 全距提供整體離散度;IQR 提供中間、最可靠數據的離散度。使用 IQR 來比較不同數據集的一致性。
第五節:散點圖與相關性 (C10.7)
散點圖用於研究兩個變量之間的關係,即相關性 (correlation)。
5.1 繪製與解讀散點圖
1. 繪製: 使用小叉號 ($x$) 在圖表上標出數據點。每個點代表兩個相關的數據(例如:人的身高與體重)。
2. 解讀: 觀察點的分佈規律來確定相關性類型。
相關性類型
-
正相關: 當一個變量增加時,另一個變量也傾向增加。點從左下向右上延伸。例子:學習時數 vs. 考試分數。
-
負相關: 當一個變量增加時,另一個變量傾向減少。點從左上向右下延伸。例子:汽車車齡 vs. 價值。
-
零相關(無相關): 變量之間沒有明顯關係,點隨意散佈。例子:身高 vs. 最喜歡的顏色。
5.2 最佳擬合線 (Line of Best Fit)
最佳擬合線是一條用直尺「目測」畫出的直線,代表相關性的趨勢。它讓我們能進行預測(外推法 extrapolation 或 內插法 interpolation)。
繪製最佳擬合線的重要規則:
- 它必須是一條單一直線。
- 它應該貫穿整個數據範圍。
- 它應該盡量靠近計算出的平均點(由平均 $x$ 和平均 $y$ 組成的點)。
- 整條線上方的點數和下方的點數應該大致均勻分佈。
注意:課程綱要說明不需要知道「相關係數 (coefficient of correlation)」。
進階內容:線性迴歸方程式 (E10.7)
對於 Extended 考生,你可能會被要求使用圖形計算機 (GDC) 來求出並使用線性迴歸方程式。這是數學上最精確的最佳擬合線,通常形式為 \(y = ax + b\) 或 \(y = mx + c\)。你通常會使用 GDC 內建的統計功能來完成此任務。
重點: 相關性顯示的是關係,而非必然的因果。最佳擬合線用於根據趨勢進行合理的估算(預測)。
第六節:累積頻數圖 (僅限 Extended E10.8)
如果你是修讀 Core Maths 的同學請放心——這部分僅適用於 Extended 考生!
6.1 累積頻數表與累積頻數圖
累積頻數是頻數的連加總和。它告訴你總共有多少數據值小於或等於某個上限邊界。
步驟:繪製累積頻數圖
- 將頻數依序相加,製作累積頻數表。
- 繪圖時,累積頻數必須對應組距的上限邊界。例子:對於 10 < x $\le$ 20 這組,將累積頻數標記在 \(x = 20\) 處。
- 清晰地標記點(如用小叉號 $x$)。
- 將這些點用平滑曲線連接(通常稱為「累加頻數曲線」或 Ogive)。
6.2 從圖表估算指標
繪製好累積頻數圖後,你可以從累積頻數軸水平讀取到曲線,再垂直讀取到數據軸,從而估算出中位數、四分位數和百分位數。
若總頻數為 $N$:
-
中位數 (\(Q_2\)): 從 \(\frac{1}{2} N\) 的位置水平讀取。
-
下四分位數 (\(Q_1\)): 從 \(\frac{1}{4} N\) 的位置水平讀取。
-
上四分位數 (\(Q_3\)): 從 \(\frac{3}{4} N\) 的位置水平讀取。
-
四分位距 (IQR): 計算為 \(Q_3 - Q_1\)。
-
百分位數: 若要找第 80 百分位數,從 \(0.80 \times N\) 的位置水平讀取。(百分位數是指低於該數值的數據佔總體的百分比)。
重點: 累積頻數圖幫助我們輕鬆找出大型分組數據集的定位指標(如中位數和四分位數)。
第七節:數據解讀與得出結論 (C10.2)
統計學最後也是最重要的一步就是解讀。
7.1 閱讀與推論
你必須能夠從表格和圖表中直接閱讀事實(例如:「眾數薪資為 $40,000」),並得出並非顯而易見的推論(例如:「甲公司比乙公司銷售更穩定,因為其 IQR 較小」)。
7.2 比較數據集
當被要求比較兩個數據集時,務必使用統計指標:
- 比較一個平均指標(平均數或中位數),評論整體的平均表現。
- 比較一個離散指標(全距或 IQR),評論穩定性或變異度。
例子:「1 班獲得了較高的平均分(75 對比 68),但 2 班表現更穩定,因為他們的 IQR 較小(5 對比 12)。」
7.3 結論的局限性
必須意識到,從數據得出的結論其可靠性取決於數據本身。你必須認清畫出結論的限制:
-
樣本大小: 如果樣本非常小,結果可能無法推廣到整個群體。
-
偏差: 樣本採集是否公平(隨機)?如果不是,數據可能會出現偏差。
-
離群值: 極端值會扭曲平均數或全距,使其無法良好代表數據集。
重點: 你的統計比較必須永遠由清晰的數學證據(數字!)支持,並對數據的來源與採集方法保持批判性思考。