Statistics

歡迎來到統計學的世界！

歡迎！在這個章節中，我們將學習如何收集、整理並理解各種資訊。這些資訊我們稱之為數據 (data)。統計學就像偵探工作一樣；你透過觀察線索（數字）來說出圍繞在我們身邊的故事。無論是預測天氣還是分析哪支球隊最強，統計學無處不在！

如果你一開始對數字感到有點畏懼，不用擔心。我們會將所有內容拆解成簡單、易懂的步驟。讓我們開始吧！

1. 抽樣：縱觀全局

想像一下，你想知道英國每位學生最喜歡的披薩配料是什麼。你不可能去問數百萬人！因此，你會詢問一個較小的群體，這就叫做抽樣 (sampling)。

關鍵詞彙：
- 總體 (Population)：你感興趣的整個群體（例如：全英國的所有學生）。
- 樣本 (Sample)：你實際詢問的小組（例如：來自你所在城鎮的 100 名學生）。
- 具代表性樣本 (Representative Sample)：能夠真實反映總體情況的樣本。如果你只去問「辣肉腸愛好者俱樂部」的成員，那你的樣本就會產生偏差 (biased)！

類比：想像一位廚師嚐了一匙湯。如果這匙湯味道好，他就會假設整鍋湯都好。整鍋湯就是總體；那一匙湯就是樣本！

快速回顧：為了確保樣本公正，它應該是隨機選取的，並且數量要足夠大，才能公平地代表所有人。

2. 展示你的數據：表格與圖表

一旦你收集到了數據，就需要將其呈現給別人看。不同的數據需要不同的圖表來展現。

數據類型

- 分類數據 (Categorical)：適合分組的數據（例如：眼睛顏色、汽車品牌）。
- 離散數據 (Discrete)：只能是特定數值的數據（例如：寵物數量、鞋碼）。
- 連續數據 (Continuous)：可以在某個範圍內取任何值的數據（例如：身高、時間）。

常見圖表

- 象形圖 (Pictograms)：使用圖片來代表數量。一定要看圖例！如果一個圓形代表 4 個人，那麼半個圓形就代表 2 個人。
- 長條圖 (Bar Charts)：非常適合比較不同類別。對於分類數據，記得在長條之間留出間隙。
- 圓形圖 (Pie Charts)：顯示總體是如何被拆分的。要計算扇形的角度，請使用以下公式：
\( \text{角度} = \frac{\text{頻數}}{\text{總頻數}} \times 360 \)

時間序列圖 (Time Series Graphs)

這是顯示事物隨時間變化情況的折線圖，例如你過去五年的身高，或是一整天的氣溫變化。我們主要觀察趨勢 (trend)（它是總體向上、向下還是保持不變？）。

重點提示：記得標記坐標軸並為圖表加上標題，這樣大家才知道在看什麼！

3. 平均數與離散程度：數據總結

有時，我們只想用一兩個數字來「總結」整組數據。我們使用平均數 (Averages)（尋找中心點）和全距 (Range)（尋找離散程度）。

三個平均數（與一個「離散程度」）

1. 眾數 (Mode)：出現最頻繁 (Most)的數值。（記憶小撇步：MOde = MOst）
2. 中位數 (Median)：當數字按順序排列時，位於中間 (middle)的數值。（記憶小撇步：中位數就像公路中間的綠化帶）
3. 平均值 (Mean)：這是最「費工」的一個！將所有數字相加，再除以數字的個數。
\( \text{平均值} = \frac{\Sigma x}{n} \)
4. 全距 (Range)：最大值與最小值之間的差。這告訴我們數據是穩定的還是分佈得很廣。

常見錯誤！

計算中位數時，你必須先將數字從小到大排序。如果不這樣做，答案就會錯！

快速回顧：
- 平均數：告訴我們什麼是「典型」數值。
- 全距：告訴我們數據有多「可靠」或「分散」。

4. 進階圖表（高階試卷重點）

如果你處理的是更複雜的數據，可能會用到這些工具：

累積頻數 (Cumulative Frequency)

這是一種「累計總數」。隨著數據增加，你將頻數逐一相加。繪製出來後，通常會形成一個「S」型曲線。我們用它來找中位數和四分位數 (Quartiles)。

箱線圖 (Box Plots / Box and Whisker)

箱線圖顯示了五個關鍵資訊：
1. 最小值
2. 下四分位數 (LQ - 25% 的位置)
3. 中位數 (50% 的位置)
4. 上四分位數 (UQ - 75% 的位置)
5. 最大值

四分位距 (IQR)： \( \text{UQ} - \text{LQ} \)。這顯示了中間 50% 數據的位置。它比全距更好，因為它排除了奇怪的「離群值」(outliers)（遠高於或遠低於其餘數據的數字）。

直方圖 (Histograms)

它們看起來像長條圖，但用於連續數據。長條的面積代表頻數。垂直軸稱為頻數密度 (Frequency Density)。
\( \text{頻數密度} = \frac{\text{頻數}}{\text{組距}} \)

重點提示：當分組（組區間）的寬度不同時，要使用直方圖。

5. 散點圖：發現關係

我們使用散點圖來處理雙變量數據 (bivariate data)（具有兩個變量的數據，例如「氣溫」和「雪糕銷量」）。

最佳擬合線 (Line of Best Fit)

這是一條穿過點群中間的直線。線上方和下方的點數應該大致相等。我們用它來做預測。

你知道嗎？
相關性不等於因果關係！例如，雪糕銷量和鯊魚攻擊事件在夏天都會增加。它們有正相關，但吃雪糕並不會導致鯊魚攻擊！兩者只是都被溫暖的天氣所影響而已。

進行預測

- 內插法 (Interpolation)：預測數據範圍以內的數值。這通常相當可靠。
- 外推法 (Extrapolation)：預測數據範圍以外的數值（沿著線繼續延伸）。這是有風險的，因為趨勢可能會改變！

重點提示：畫最佳擬合線時要用尺，並儘量只在現有數據範圍內進行預測！

考試成功最終清單

- 檢查圖例：永遠檢查象形圖或地圖上的圖例。
- 將數字排序：計算中位數或四分位數前，務必先將數據排序。
- 標籤：你的圖表有標題和坐標軸標籤嗎？
- 單位：你使用的是正確單位（厘米、公斤、秒）嗎？
- 保持冷靜：統計題目通常有很多文字。多讀兩遍，畫出數字，一步一步來！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。