統計與機率:理解數據與機率
各位數學家大家好!歡迎來到統計與機率的精彩世界。如果數字有時讓你感到不知所措,請別擔心;這一章的重點是理解我們身邊的世界——從預測天氣到解讀調查結果,都與此息息相關。
我們將學習如何收集、整理、展示和分析數據。我們還將掌握機率的法則,讓你具備計算不同事件發生可能性的能力。準備好成為一名數據偵探了嗎?讓我們開始吧!
第 1 部分:數據處理與呈現
1.1 數據類型
統計的第一步是了解你所處理的是哪種資訊。數據通常分為兩大類:
定性數據 (Qualitative Data):
- 描述性質或特徵(例如:最喜歡的顏色、汽車品牌)。
- 它不是數值。
定量數據 (Quantitative Data):
- 涉及數值(例如:身高、年齡、寵物數量)。
- 這正是我們在計算中最常處理的類型。
定量數據又可進一步細分為兩個重要的子類別:
a) 離散數據 (Discrete Data):
- 只能取特定的、分開的數值。通常是透過「點算」得出的。
- 例子:學生的數量(你不可能有 3.5 個學生)。
b) 連續數據 (Continuous Data):
- 可以在給定範圍內取任何數值。通常是透過「測量」得出的。
- 例子:身高、體重、溫度(一個人的身高可以是 170.1 公分)。
1.2 展示離散數據
我們經常使用圖表來讓數據在視覺上更容易理解。
頻數表 (Frequency Tables):
- 用於顯示每個數值出現的頻率。
- 如果數據量很大,我們可能會將其分組為組距 (Class Intervals)(例如:0–10, 11–20)。
長條圖 (Bar Charts):
- 用於離散數據或定性數據。
- 長條的高度代表頻數。
- 重要: 長條之間必須有空隙!
圓形圖 (Pie Charts):
- 顯示每個類別佔整體的比例。
- 計算扇形角度的公式:
\(\text{角度} = \left(\frac{\text{頻數}}{\text{總頻數}}\right) \times 360^\circ\)
1.3 展示連續數據:直方圖 (Histograms)
直方圖專門為已分組為組距的連續數據而設計。它們看起來像長條圖,但有重要的區別!
關鍵特徵:面積與頻數成正比
在直方圖中,代表頻數的是長條的面積,而非高度。由於面積 = 寬度 × 高度,我們使用一個新術語來計算高度:
頻數密度 (Frequency Density, FD):
\[ \text{頻數密度} = \frac{\text{頻數}}{\text{組寬}} \]
繪製直方圖的步驟:
- 計算每一組的組寬(上限 - 下限)。
- 計算每一組的頻數密度。
- 在垂直軸 (y 軸) 上繪製頻數密度,在水平軸 (x 軸) 上繪製數據值。
- 繪製長條。因為數據是連續的,所以長條必須緊密相連!
避免常見錯誤:不要混淆直方圖和長條圖。請記住:長條圖有空隙,直方圖沒有。在直方圖中,高度是頻數密度,而不是頻數!
1.4 累積頻數 (Cumulative Frequency)
這用於找出有多少個數據點小於某個特定值。
累積頻數 (CF): 這是頻數的累加總和。
繪製累積頻數曲線的步驟:
- 在你的表中增加一列累積頻數。從第一個頻數開始,不斷加上下一個頻數。
- 以各組的組上限 (Upper Class Boundary) 為橫坐標,累積頻數為縱坐標進行繪圖。
- 圖表應從(第一組的組下限, 0)開始,並呈現向上彎曲的 S 型。
- 圖表上的最高點等於數據總項數 (N)。
第 1 部分重點摘要: 了解你的數據類型。使用有空隙的長條圖來表示離散數據和頻數;對連續數據使用直方圖,其中高度代表頻數密度。
第 2 部分:數據分析 – 平均值與離散度
2.1 集中趨勢測量(平均值)
平均值告訴我們數據的「中心」位置在哪裡。
a) 眾數 (Mode):
- 出現次數最多的數值。
- 最容易找到,但沒有使用到所有數據。
b) 中位數 (Median):
- 將數據由小到大排列後,位於中間的值。
- 如果 N(數據項數)是奇數,位置為 \((N+1)/2\)。
- 如果 N 是偶數,則為中間兩個項的平均值。
- 相較於平均數,較不易受極端值影響。
c) 平均數 (Mean, \(\bar{x}\)):
- 所有數值之和除以數值總個數。
原始數據公式:\(\bar{x} = \frac{\sum x}{n}\)
- 使用了每一項數據,因此很可靠。
從頻數表中計算平均數:
如果 \(x\) 是數據值,\(f\) 是頻數: \[ \bar{x} = \frac{\sum fx}{\sum f} \]
***處理分組數據(估算)***
當數據分組時(例如 10-20),我們不知道具體數值。為了估算平均數,我們必須使用組距的組中點 (Midpoint, m) 來代表該組內的所有數據。
\[ \text{估算平均數} = \frac{\sum fm}{\sum f} \]
別擔心!這是一個估算值,所以你必須在計算中使用組中點。
2.2 離散程度測量(離散度)
離散度告訴我們數據的分散程度。這些數值是聚集在一起,還是散得很開?
a) 全距 (Range):
- \(\text{全距} = \text{最大值} - \text{最小值}\)。
- 非常簡單,但極易受極端值(離群值)影響。
b) 四分位距 (Interquartile Range, IQR):
這測量了中間 50% 數據的分散程度,因此排除了極端的高值和低值。
\[ \text{IQR} = Q_3 - Q_1 \]
其中:
- \(Q_1\)(下四分位數): 數據中四分之一(25%)位置的值。
- \(Q_2\)(中位數): 數據中二分之一(50%)位置的值。
- \(Q_3\)(上四分位數): 數據中四分之三(75%)位置的值。
利用累積頻數曲線找四分位數:
如果總頻數為 \(N\):
- 從累積頻數軸的 \(N/4\) 位置向右對照,即可找到 \(Q_1\)。
- 從 \(N/2\) 位置向右對照,即可找到 \(Q_2\)(中位數)。
- 從 \(3N/4\) 位置向右對照,即可找到 \(Q_3\)。
c) 標準差 (Standard Deviation, \(\sigma\)):
這是最精確的離散度測量。它告訴我們數據值偏離平均值的平均數額。
類比: 如果平均值是你的目標,標準差則告訴你你的射擊通常離目標有多遠。
IGCSE Spec B 中通常使用的公式是: \[ \sigma = \sqrt{\frac{\sum (x - \bar{x})^2}{n}} \]
標準差計算步驟(過程是關鍵!):
- 計算數據集的平均數 (\(\bar{x}\))。
- 計算偏差 (Deviation):從每個數據點減去平均數 (\(x - \bar{x}\))。
- 將偏差平方:\((x - \bar{x})^2\)。(這消除了負號。)
- 計算偏差平方的總和:\(\sum (x - \bar{x})^2\)。
- 將總和除以數據個數 (\(n\))。(這得出變異數/方差 Variance)。
- 對結果取平方根。這就是 \(\sigma\)!
快速檢閱(分析):
- 平均數: 最好的平均指標,但會受極端值影響。
- 中位數/四分位距: 如果數據中有極端值,請使用這些。
- 標準差: 告訴你數據點平均偏離平均值多少。
第 3 部分:機率
機率是關於「機會」的研究。它衡量事件發生的可能性。
3.1 基本機率與符號
機率的值永遠介於 0 和 1 之間。
- \(P=0\):不可能發生的事件。
- \(P=1\):必然發生的事件。
機率的基本定義是:
\[ P(A) = \frac{\text{有利結果的數量}}{\text{所有可能結果的總數}} \]互補事件 (Complementary Events):
如果 \(A\) 是一個事件,那麼 \(A'\)(讀作「A 的補集」或「非 A」)就是 \(A\) 不發生的事件。
\[ P(A') = 1 - P(A) \]
例子:如果下雨的機率是 0.3,那麼不下雨的機率就是 \(1 - 0.3 = 0.7\)。
3.2 組合事件(OR 與 AND)
a) 互斥事件 (Mutually Exclusive Events)(OR 法則):
這些事件不可能同時發生。(例如:投擲一顆骰子,同時出現 3 和 5。)
要找出 A **或** B 發生的機率,你需要將機率相加: \[ P(A \text{ 或 } B) = P(A) + P(B) \]
b) 獨立事件 (Independent Events)(AND 法則):
這些事件中,一個事件的結果不會影響另一個事件的結果。(例如:拋兩次硬幣。)
要找出 A **且** B 發生的機率,你需要將機率相乘: \[ P(A \text{ 且 } B) = P(A) \times P(B) \]
3.3 樹狀圖 (Tree Diagrams)
樹狀圖是視覺化兩次或多次連續事件的絕佳工具。
使用樹狀圖的步驟:
- 畫出第一次事件的分支,並在每個分支上標註機率。
- 從這些分支的末端,畫出第二次事件的分支,同樣標註機率。
- 要找出組合路徑(例如:成功後接失敗)的機率,將路徑上的機率相乘(AND 法則)。
- 要找出多個成功結果(例如:成功/失敗 或 失敗/成功)的機率,將最終結果的機率相加(OR 法則)。
記住從屬關係:如果你處理的是「不放回」的情況(例如從一副牌中抽兩張牌),第二組分支的機率必須改變,因為總數量已經減少了!
3.4 條件機率 (Conditional Probability)
這是指在已經發生事件 B 的前提下,事件 A 發生的機率。
記作 \(P(A | B)\),讀作「在 B 發生的條件下,A 發生的機率」。
如何解決條件機率問題:
關鍵在於意識到條件 (B) 縮小了樣本空間。你不再看所有的結果,而只看 B 發生了的情況下的那部分結果。
其正式定義為: \[ P(A | B) = \frac{P(A \text{ 且 } B)}{P(B)} \]
例子:在已知學生搭巴士 (B) 的情況下,被選中的學生是女性 (A) 的機率是多少?你只需要看搭巴士的學生,忽略其他人。
你知道嗎? 獨立事件的公式實際上是條件機率的一個特例。如果 A 和 B 是獨立的,\(P(A | B) = P(A)\),因為 B 對 A 沒有影響!
第 3 部分重點摘要: 互斥意味著相加 (OR)。獨立意味著相乘 (AND)。樹狀圖用於整理連續事件。條件機率將你的焦點限制在一個縮小的群組內。
結語鼓勵
統計與機率是非常實用的學科。掌握了這些工具,你就能批判性地評估數據,這是在課堂之外也至關重要的技能。繼續練習那些直方圖和標準差計算吧——你一定做得到的!