歡迎來到統計學的世界!

歡迎!在這個章節中,我們將學習如何收集、整理並理解各種資訊。這些資訊我們稱之為數據 (data)。統計學就像偵探工作一樣;你透過觀察線索(數字)來說出圍繞在我們身邊的故事。無論是預測天氣還是分析哪支球隊最強,統計學無處不在!

如果你一開始對數字感到有點畏懼,不用擔心。我們會將所有內容拆解成簡單、易懂的步驟。讓我們開始吧!


1. 抽樣:縱觀全局

想像一下,你想知道英國每位學生最喜歡的披薩配料是什麼。你不可能去問數百萬人!因此,你會詢問一個較小的群體,這就叫做抽樣 (sampling)

關鍵詞彙:
- 總體 (Population):你感興趣的整個群體(例如:全英國的所有學生)。
- 樣本 (Sample):你實際詢問的小組(例如:來自你所在城鎮的 100 名學生)。
- 具代表性樣本 (Representative Sample):能夠真實反映總體情況的樣本。如果你只去問「辣肉腸愛好者俱樂部」的成員,那你的樣本就會產生偏差 (biased)

類比:想像一位廚師嚐了一匙湯。如果這匙湯味道好,他就會假設整鍋湯都好。整鍋湯就是總體;那一匙湯就是樣本!

快速回顧:為了確保樣本公正,它應該是隨機選取的,並且數量要足夠大,才能公平地代表所有人。


2. 展示你的數據:表格與圖表

一旦你收集到了數據,就需要將其呈現給別人看。不同的數據需要不同的圖表來展現。

數據類型

- 分類數據 (Categorical):適合分組的數據(例如:眼睛顏色、汽車品牌)。
- 離散數據 (Discrete):只能是特定數值的數據(例如:寵物數量、鞋碼)。
- 連續數據 (Continuous):可以在某個範圍內取任何值的數據(例如:身高、時間)。

常見圖表

- 象形圖 (Pictograms):使用圖片來代表數量。一定要看圖例!如果一個圓形代表 4 個人,那麼半個圓形就代表 2 個人。
- 長條圖 (Bar Charts):非常適合比較不同類別。對於分類數據,記得在長條之間留出間隙。
- 圓形圖 (Pie Charts):顯示總體是如何被拆分的。要計算扇形的角度,請使用以下公式:
\( \text{角度} = \frac{\text{頻數}}{\text{總頻數}} \times 360 \)

時間序列圖 (Time Series Graphs)

這是顯示事物隨時間變化情況的折線圖,例如你過去五年的身高,或是一整天的氣溫變化。我們主要觀察趨勢 (trend)(它是總體向上、向下還是保持不變?)。

重點提示:記得標記坐標軸並為圖表加上標題,這樣大家才知道在看什麼!


3. 平均數與離散程度:數據總結

有時,我們只想用一兩個數字來「總結」整組數據。我們使用平均數 (Averages)(尋找中心點)和全距 (Range)(尋找離散程度)。

三個平均數(與一個「離散程度」)

1. 眾數 (Mode):出現最頻繁 (Most)的數值。(記憶小撇步:MOde = MOst)
2. 中位數 (Median):當數字按順序排列時,位於中間 (middle)的數值。(記憶小撇步:中位數就像公路中間的綠化帶)
3. 平均值 (Mean):這是最「費工」的一個!將所有數字相加,再除以數字的個數。
\( \text{平均值} = \frac{\Sigma x}{n} \)
4. 全距 (Range):最大值與最小值之間的差。這告訴我們數據是穩定的還是分佈得很廣。

常見錯誤!

計算中位數時,你必須先將數字從小到大排序。如果不這樣做,答案就會錯!

快速回顧:
- 平均數:告訴我們什麼是「典型」數值。
- 全距:告訴我們數據有多「可靠」或「分散」。


4. 進階圖表(高階試卷重點)

如果你處理的是更複雜的數據,可能會用到這些工具:

累積頻數 (Cumulative Frequency)

這是一種「累計總數」。隨著數據增加,你將頻數逐一相加。繪製出來後,通常會形成一個「S」型曲線。我們用它來找中位數四分位數 (Quartiles)

箱線圖 (Box Plots / Box and Whisker)

箱線圖顯示了五個關鍵資訊:
1. 最小值
2. 下四分位數 (LQ - 25% 的位置)
3. 中位數 (50% 的位置)
4. 上四分位數 (UQ - 75% 的位置)
5. 最大值

四分位距 (IQR): \( \text{UQ} - \text{LQ} \)。這顯示了中間 50% 數據的位置。它比全距更好,因為它排除了奇怪的「離群值」(outliers)(遠高於或遠低於其餘數據的數字)。

直方圖 (Histograms)

它們看起來像長條圖,但用於連續數據。長條的面積代表頻數。垂直軸稱為頻數密度 (Frequency Density)
\( \text{頻數密度} = \frac{\text{頻數}}{\text{組距}} \)

重點提示:當分組(組區間)的寬度不同時,要使用直方圖。


5. 散點圖:發現關係

我們使用散點圖來處理雙變量數據 (bivariate data)(具有兩個變量的數據,例如「氣溫」和「雪糕銷量」)。

相關性 (Correlation)

這描述了兩者之間的關係:
- 正相關 (Positive Correlation):一個上升,另一個也上升(例如:學習時間 vs. 考試成績)。
- 負相關 (Negative Correlation):一個上升,另一個下降(例如:戶外氣溫 vs. 取暖費)。
- 無相關 (No Correlation):點散佈在各處;兩者沒有連結。

最佳擬合線 (Line of Best Fit)

這是一條穿過點群中間的直線。線上方和下方的點數應該大致相等。我們用它來做預測

你知道嗎?
相關性不等於因果關係!例如,雪糕銷量和鯊魚攻擊事件在夏天都會增加。它們有正相關,但吃雪糕並不會導致鯊魚攻擊!兩者只是都被溫暖的天氣所影響而已。

進行預測

- 內插法 (Interpolation):預測數據範圍以內的數值。這通常相當可靠。
- 外推法 (Extrapolation):預測數據範圍以外的數值(沿著線繼續延伸)。這是有風險的,因為趨勢可能會改變!

重點提示:畫最佳擬合線時要用尺,並儘量只在現有數據範圍內進行預測!


考試成功最終清單

- 檢查圖例:永遠檢查象形圖或地圖上的圖例。
- 將數字排序:計算中位數或四分位數前,務必先將數據排序。
- 標籤:你的圖表有標題和坐標軸標籤嗎?
- 單位:你使用的是正確單位(厘米、公斤、秒)嗎?
- 保持冷靜:統計題目通常有很多文字。多讀兩遍,畫出數字,一步一步來!