統計與機率:理解數據與機率

各位數學家大家好!歡迎來到統計與機率的精彩世界。如果數字有時讓你感到不知所措,請別擔心;這一章的重點是理解我們身邊的世界——從預測天氣到解讀調查結果,都與此息息相關。

我們將學習如何收集、整理、展示和分析數據。我們還將掌握機率的法則,讓你具備計算不同事件發生可能性的能力。準備好成為一名數據偵探了嗎?讓我們開始吧!

第 1 部分:數據處理與呈現

1.1 數據類型

統計的第一步是了解你所處理的是哪種資訊。數據通常分為兩大類:

定性數據 (Qualitative Data):

  • 描述性質或特徵(例如:最喜歡的顏色、汽車品牌)。
  • 它不是數值。

定量數據 (Quantitative Data):

  • 涉及數值(例如:身高、年齡、寵物數量)。
  • 這正是我們在計算中最常處理的類型。

定量數據又可進一步細分為兩個重要的子類別:

a) 離散數據 (Discrete Data):

  • 只能取特定的、分開的數值。通常是透過「點算」得出的。
  • 例子:學生的數量(你不可能有 3.5 個學生)。

b) 連續數據 (Continuous Data):

  • 可以在給定範圍內取任何數值。通常是透過「測量」得出的。
  • 例子:身高、體重、溫度(一個人的身高可以是 170.1 公分)。
1.2 展示離散數據

我們經常使用圖表來讓數據在視覺上更容易理解。

頻數表 (Frequency Tables):

  • 用於顯示每個數值出現的頻率。
  • 如果數據量很大,我們可能會將其分組為組距 (Class Intervals)(例如:0–10, 11–20)。

長條圖 (Bar Charts):

  • 用於離散數據或定性數據。
  • 長條的高度代表頻數。
  • 重要: 長條之間必須有空隙

圓形圖 (Pie Charts):

  • 顯示每個類別佔整體的比例。
  • 計算扇形角度的公式:
    \(\text{角度} = \left(\frac{\text{頻數}}{\text{總頻數}}\right) \times 360^\circ\)
1.3 展示連續數據:直方圖 (Histograms)

直方圖專門為已分組為組距的連續數據而設計。它們看起來像長條圖,但有重要的區別!

關鍵特徵:面積與頻數成正比

在直方圖中,代表頻數的是長條的面積,而非高度。由於面積 = 寬度 × 高度,我們使用一個新術語來計算高度:

頻數密度 (Frequency Density, FD):

\[ \text{頻數密度} = \frac{\text{頻數}}{\text{組寬}} \]

繪製直方圖的步驟:

  1. 計算每一組的組寬(上限 - 下限)。
  2. 計算每一組的頻數密度
  3. 在垂直軸 (y 軸) 上繪製頻數密度,在水平軸 (x 軸) 上繪製數據值。
  4. 繪製長條。因為數據是連續的,所以長條必須緊密相連!

避免常見錯誤:不要混淆直方圖和長條圖。請記住:長條圖有空隙,直方圖沒有。在直方圖中,高度是頻數密度,而不是頻數!

1.4 累積頻數 (Cumulative Frequency)

這用於找出有多少個數據點小於某個特定值。

累積頻數 (CF): 這是頻數的累加總和。

繪製累積頻數曲線的步驟:

  1. 在你的表中增加一列累積頻數。從第一個頻數開始,不斷加上下一個頻數。
  2. 以各組的組上限 (Upper Class Boundary) 為橫坐標,累積頻數為縱坐標進行繪圖。
  3. 圖表應從(第一組的組下限, 0)開始,並呈現向上彎曲的 S 型。
  4. 圖表上的最高點等於數據總項數 (N)。

第 1 部分重點摘要: 了解你的數據類型。使用有空隙的長條圖來表示離散數據和頻數;對連續數據使用直方圖,其中高度代表頻數密度。


第 2 部分:數據分析 – 平均值與離散度

2.1 集中趨勢測量(平均值)

平均值告訴我們數據的「中心」位置在哪裡。

a) 眾數 (Mode):

  • 出現次數最多的數值。
  • 最容易找到,但沒有使用到所有數據。

b) 中位數 (Median):

  • 將數據由小到大排列後,位於中間的值
  • 如果 N(數據項數)是奇數,位置為 \((N+1)/2\)。
  • 如果 N 是偶數,則為中間兩個項的平均值。
  • 相較於平均數,較不易受極端值影響。

c) 平均數 (Mean, \(\bar{x}\)):

  • 所有數值之和除以數值總個數。
  • 原始數據公式:\(\bar{x} = \frac{\sum x}{n}\)

  • 使用了每一項數據,因此很可靠。

從頻數表中計算平均數:

如果 \(x\) 是數據值,\(f\) 是頻數: \[ \bar{x} = \frac{\sum fx}{\sum f} \]

***處理分組數據(估算)***

當數據分組時(例如 10-20),我們不知道具體數值。為了估算平均數,我們必須使用組距的組中點 (Midpoint, m) 來代表該組內的所有數據。

\[ \text{估算平均數} = \frac{\sum fm}{\sum f} \]

別擔心!這是一個估算值,所以你必須在計算中使用組中點。

2.2 離散程度測量(離散度)

離散度告訴我們數據的分散程度。這些數值是聚集在一起,還是散得很開?

a) 全距 (Range):

  • \(\text{全距} = \text{最大值} - \text{最小值}\)。
  • 非常簡單,但極易受極端值(離群值)影響。

b) 四分位距 (Interquartile Range, IQR):

這測量了中間 50% 數據的分散程度,因此排除了極端的高值和低值。

\[ \text{IQR} = Q_3 - Q_1 \]

其中:

  • \(Q_1\)(下四分位數): 數據中四分之一(25%)位置的值。
  • \(Q_2\)(中位數): 數據中二分之一(50%)位置的值。
  • \(Q_3\)(上四分位數): 數據中四分之三(75%)位置的值。

利用累積頻數曲線找四分位數:

如果總頻數為 \(N\):

  • 從累積頻數軸的 \(N/4\) 位置向右對照,即可找到 \(Q_1\)。
  • 從 \(N/2\) 位置向右對照,即可找到 \(Q_2\)(中位數)。
  • 從 \(3N/4\) 位置向右對照,即可找到 \(Q_3\)。

c) 標準差 (Standard Deviation, \(\sigma\)):

這是最精確的離散度測量。它告訴我們數據值偏離平均值的平均數額。

類比: 如果平均值是你的目標,標準差則告訴你你的射擊通常離目標有多遠。

IGCSE Spec B 中通常使用的公式是: \[ \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \]

標準差計算步驟(過程是關鍵!):

  1. 計算數據集的平均數 (\(\bar{x}\))
  2. 計算偏差 (Deviation):從每個數據點減去平均數 (\(x - \bar{x}\))。
  3. 將偏差平方:\((x - \bar{x})^2\)。(這消除了負號。)
  4. 計算偏差平方的總和:\(\sum (x - \bar{x})^2\)。
  5. 將總和除以數據個數 (\(n\))。(這得出變異數/方差 Variance)。
  6. 對結果取平方根。這就是 \(\sigma\)!

快速檢閱(分析):

  • 平均數: 最好的平均指標,但會受極端值影響。
  • 中位數/四分位距: 如果數據中有極端值,請使用這些。
  • 標準差: 告訴你數據點平均偏離平均值多少。

第 3 部分:機率

機率是關於「機會」的研究。它衡量事件發生的可能性。

3.1 基本機率與符號

機率的值永遠介於 0 和 1 之間。

  • \(P=0\):不可能發生的事件。
  • \(P=1\):必然發生的事件。

機率的基本定義是:

\[ P(A) = \frac{\text{有利結果的數量}}{\text{所有可能結果的總數}} \]

互補事件 (Complementary Events):

如果 \(A\) 是一個事件,那麼 \(A'\)(讀作「A 的補集」或「非 A」)就是 \(A\) 不發生的事件。

\[ P(A') = 1 - P(A) \]

例子:如果下雨的機率是 0.3,那麼不下雨的機率就是 \(1 - 0.3 = 0.7\)。

3.2 組合事件(OR 與 AND)

a) 互斥事件 (Mutually Exclusive Events)(OR 法則):

這些事件不可能同時發生。(例如:投擲一顆骰子,同時出現 3 和 5。)

要找出 A **或** B 發生的機率,你需要將機率相加: \[ P(A \text{ 或 } B) = P(A) + P(B) \]

b) 獨立事件 (Independent Events)(AND 法則):

這些事件中,一個事件的結果不會影響另一個事件的結果。(例如:拋兩次硬幣。)

要找出 A **且** B 發生的機率,你需要將機率相乘: \[ P(A \text{ 且 } B) = P(A) \times P(B) \]

3.3 樹狀圖 (Tree Diagrams)

樹狀圖是視覺化兩次或多次連續事件的絕佳工具。

使用樹狀圖的步驟:

  1. 畫出第一次事件的分支,並在每個分支上標註機率。
  2. 從這些分支的末端,畫出第二次事件的分支,同樣標註機率。
  3. 要找出組合路徑(例如:成功後接失敗)的機率,將路徑上的機率相乘(AND 法則)。
  4. 要找出多個成功結果(例如:成功/失敗 或 失敗/成功)的機率,將最終結果的機率相加(OR 法則)。

記住從屬關係:如果你處理的是「不放回」的情況(例如從一副牌中抽兩張牌),第二組分支的機率必須改變,因為總數量已經減少了!

3.4 條件機率 (Conditional Probability)

這是指在已經發生事件 B 的前提下,事件 A 發生的機率。

記作 \(P(A | B)\),讀作「在 B 發生的條件下,A 發生的機率」。

如何解決條件機率問題:

關鍵在於意識到條件 (B) 縮小了樣本空間。你不再看所有的結果,而只看 B 發生了的情況下的那部分結果。

其正式定義為: \[ P(A | B) = \frac{P(A \text{ 且 } B)}{P(B)} \]

例子:在已知學生搭巴士 (B) 的情況下,被選中的學生是女性 (A) 的機率是多少?你只需要看搭巴士的學生,忽略其他人。

你知道嗎? 獨立事件的公式實際上是條件機率的一個特例。如果 A 和 B 是獨立的,\(P(A | B) = P(A)\),因為 B 對 A 沒有影響!

第 3 部分重點摘要: 互斥意味著相加 (OR)。獨立意味著相乘 (AND)。樹狀圖用於整理連續事件。條件機率將你的焦點限制在一個縮小的群組內。


結語鼓勵

統計與機率是非常實用的學科。掌握了這些工具,你就能批判性地評估數據,這是在課堂之外也至關重要的技能。繼續練習那些直方圖和標準差計算吧——你一定做得到的!