Statistics and probability - Mathematics (Specification B) - Pearson Edexcel IGCSE

統計與機率：理解數據與機率

各位數學家大家好！歡迎來到統計與機率的精彩世界。如果數字有時讓你感到不知所措，請別擔心；這一章的重點是理解我們身邊的世界——從預測天氣到解讀調查結果，都與此息息相關。

我們將學習如何收集、整理、展示和分析數據。我們還將掌握機率的法則，讓你具備計算不同事件發生可能性的能力。準備好成為一名數據偵探了嗎？讓我們開始吧！

第 1 部分：數據處理與呈現

1.1 數據類型

統計的第一步是了解你所處理的是哪種資訊。數據通常分為兩大類：

定性數據 (Qualitative Data)：

描述性質或特徵（例如：最喜歡的顏色、汽車品牌）。
它不是數值。

定量數據 (Quantitative Data)：

涉及數值（例如：身高、年齡、寵物數量）。
這正是我們在計算中最常處理的類型。

定量數據又可進一步細分為兩個重要的子類別：

a) 離散數據 (Discrete Data)：

只能取特定的、分開的數值。通常是透過「點算」得出的。
例子：學生的數量（你不可能有 3.5 個學生）。

b) 連續數據 (Continuous Data)：

可以在給定範圍內取任何數值。通常是透過「測量」得出的。
例子：身高、體重、溫度（一個人的身高可以是 170.1 公分）。

1.2 展示離散數據

我們經常使用圖表來讓數據在視覺上更容易理解。

頻數表 (Frequency Tables)：

用於顯示每個數值出現的頻率。
如果數據量很大，我們可能會將其分組為組距 (Class Intervals)（例如：0–10, 11–20）。

長條圖 (Bar Charts)：

用於離散數據或定性數據。
長條的高度代表頻數。
重要： 長條之間必須有空隙！

圓形圖 (Pie Charts)：

顯示每個類別佔整體的比例。
計算扇形角度的公式：
\(\text{角度} = \left(\frac{\text{頻數}}{\text{總頻數}}\right) \times 360^\circ\)

1.3 展示連續數據：直方圖 (Histograms)

直方圖專門為已分組為組距的連續數據而設計。它們看起來像長條圖，但有重要的區別！

關鍵特徵：面積與頻數成正比

在直方圖中，代表頻數的是長條的面積，而非高度。由於面積 = 寬度 × 高度，我們使用一個新術語來計算高度：

頻數密度 (Frequency Density, FD)：

\[ \text{頻數密度} = \frac{\text{頻數}}{\text{組寬}} \]

繪製直方圖的步驟：

計算每一組的組寬（上限 - 下限）。
計算每一組的頻數密度。
在垂直軸 (y 軸) 上繪製頻數密度，在水平軸 (x 軸) 上繪製數據值。
繪製長條。因為數據是連續的，所以長條必須緊密相連！

避免常見錯誤：不要混淆直方圖和長條圖。請記住：長條圖有空隙，直方圖沒有。在直方圖中，高度是頻數密度，而不是頻數！

1.4 累積頻數 (Cumulative Frequency)

這用於找出有多少個數據點小於某個特定值。

累積頻數 (CF)： 這是頻數的累加總和。

繪製累積頻數曲線的步驟：

在你的表中增加一列累積頻數。從第一個頻數開始，不斷加上下一個頻數。
以各組的組上限 (Upper Class Boundary) 為橫坐標，累積頻數為縱坐標進行繪圖。
圖表應從（第一組的組下限, 0）開始，並呈現向上彎曲的 S 型。
圖表上的最高點等於數據總項數 (N)。

第 1 部分重點摘要： 了解你的數據類型。使用有空隙的長條圖來表示離散數據和頻數；對連續數據使用直方圖，其中高度代表頻數密度。

第 2 部分：數據分析 – 平均值與離散度

2.1 集中趨勢測量（平均值）

平均值告訴我們數據的「中心」位置在哪裡。

a) 眾數 (Mode)：

出現次數最多的數值。
最容易找到，但沒有使用到所有數據。

b) 中位數 (Median)：

將數據由小到大排列後，位於中間的值。
如果 N（數據項數）是奇數，位置為 \((N+1)/2\)。
如果 N 是偶數，則為中間兩個項的平均值。
相較於平均數，較不易受極端值影響。

c) 平均數 (Mean, \(\bar{x}\))：

所有數值之和除以數值總個數。
原始數據公式：\(\bar{x} = \frac{\sum x}{n}\)
使用了每一項數據，因此很可靠。

從頻數表中計算平均數：

如果 \(x\) 是數據值，\(f\) 是頻數： \[ \bar{x} = \frac{\sum fx}{\sum f} \]

***處理分組數據（估算）***

當數據分組時（例如 10-20），我們不知道具體數值。為了估算平均數，我們必須使用組距的組中點 (Midpoint, m) 來代表該組內的所有數據。

\[ \text{估算平均數} = \frac{\sum fm}{\sum f} \]

別擔心！這是一個估算值，所以你必須在計算中使用組中點。

2.2 離散程度測量（離散度）

離散度告訴我們數據的分散程度。這些數值是聚集在一起，還是散得很開？

a) 全距 (Range)：

\(\text{全距} = \text{最大值} - \text{最小值}\)。
非常簡單，但極易受極端值（離群值）影響。

b) 四分位距 (Interquartile Range, IQR)：

這測量了中間 50% 數據的分散程度，因此排除了極端的高值和低值。

\[ \text{IQR} = Q_3 - Q_1 \]

其中：

\(Q_1\)（下四分位數）： 數據中四分之一（25%）位置的值。
\(Q_2\)（中位數）： 數據中二分之一（50%）位置的值。
\(Q_3\)（上四分位數）： 數據中四分之三（75%）位置的值。

利用累積頻數曲線找四分位數：

如果總頻數為 \(N\)：

從累積頻數軸的 \(N/4\) 位置向右對照，即可找到 \(Q_1\)。
從 \(N/2\) 位置向右對照，即可找到 \(Q_2\)（中位數）。
從 \(3N/4\) 位置向右對照，即可找到 \(Q_3\)。

c) 標準差 (Standard Deviation, \(\sigma\))：

這是最精確的離散度測量。它告訴我們數據值偏離平均值的平均數額。

類比： 如果平均值是你的目標，標準差則告訴你你的射擊通常離目標有多遠。

IGCSE Spec B 中通常使用的公式是： \[ \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \]

標準差計算步驟（過程是關鍵！）：

計算數據集的平均數 (\(\bar{x}\))。
計算偏差 (Deviation)：從每個數據點減去平均數 (\(x - \bar{x}\))。
將偏差平方：\((x - \bar{x})^2\)。(這消除了負號。)
計算偏差平方的總和：\(\sum (x - \bar{x})^2\)。
將總和除以數據個數 (\(n\))。(這得出變異數/方差 Variance)。
對結果取平方根。這就是 \(\sigma\)！

快速檢閱（分析）：

平均數： 最好的平均指標，但會受極端值影響。
中位數/四分位距： 如果數據中有極端值，請使用這些。
標準差： 告訴你數據點平均偏離平均值多少。

第 3 部分：機率

機率是關於「機會」的研究。它衡量事件發生的可能性。

3.1 基本機率與符號

機率的值永遠介於 0 和 1 之間。

\(P=0\)：不可能發生的事件。
\(P=1\)：必然發生的事件。

機率的基本定義是：

\[ P(A) = \frac{\text{有利結果的數量}}{\text{所有可能結果的總數}} \]

互補事件 (Complementary Events)：

如果 \(A\) 是一個事件，那麼 \(A'\)（讀作「A 的補集」或「非 A」）就是 \(A\) 不發生的事件。

\[ P(A') = 1 - P(A) \]

例子：如果下雨的機率是 0.3，那麼不下雨的機率就是 \(1 - 0.3 = 0.7\)。

3.2 組合事件（OR 與 AND）

a) 互斥事件 (Mutually Exclusive Events)（OR 法則）：

這些事件不可能同時發生。（例如：投擲一顆骰子，同時出現 3 和 5。）

要找出 A **或** B 發生的機率，你需要將機率相加： \[ P(A \text{ 或 } B) = P(A) + P(B) \]

b) 獨立事件 (Independent Events)（AND 法則）：

這些事件中，一個事件的結果不會影響另一個事件的結果。（例如：拋兩次硬幣。）

要找出 A **且** B 發生的機率，你需要將機率相乘： \[ P(A \text{ 且 } B) = P(A) \times P(B) \]

3.3 樹狀圖 (Tree Diagrams)

樹狀圖是視覺化兩次或多次連續事件的絕佳工具。

使用樹狀圖的步驟：

畫出第一次事件的分支，並在每個分支上標註機率。
從這些分支的末端，畫出第二次事件的分支，同樣標註機率。
要找出組合路徑（例如：成功後接失敗）的機率，將路徑上的機率相乘（AND 法則）。
要找出多個成功結果（例如：成功/失敗或失敗/成功）的機率，將最終結果的機率相加（OR 法則）。

記住從屬關係：如果你處理的是「不放回」的情況（例如從一副牌中抽兩張牌），第二組分支的機率必須改變，因為總數量已經減少了！

3.4 條件機率 (Conditional Probability)

這是指在已經發生事件 B 的前提下，事件 A 發生的機率。

記作 \(P(A | B)\)，讀作「在 B 發生的條件下，A 發生的機率」。

如何解決條件機率問題：

關鍵在於意識到條件 (B) 縮小了樣本空間。你不再看所有的結果，而只看 B 發生了的情況下的那部分結果。

其正式定義為： \[ P(A | B) = \frac{P(A \text{ 且 } B)}{P(B)} \]

例子：在已知學生搭巴士 (B) 的情況下，被選中的學生是女性 (A) 的機率是多少？你只需要看搭巴士的學生，忽略其他人。

你知道嗎？ 獨立事件的公式實際上是條件機率的一個特例。如果 A 和 B 是獨立的，\(P(A | B) = P(A)\)，因為 B 對 A 沒有影響！

第 3 部分重點摘要： 互斥意味著相加 (OR)。獨立意味著相乘 (AND)。樹狀圖用於整理連續事件。條件機率將你的焦點限制在一個縮小的群組內。

結語鼓勵

統計與機率是非常實用的學科。掌握了這些工具，你就能批判性地評估數據，這是在課堂之外也至關重要的技能。繼續練習那些直方圖和標準差計算吧——你一定做得到的！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。