📊 歡迎來到數據世界:統計與概率 🎲
各位未來的數據分析師們,大家好!本章節——統計與概率 (Statistics and Probability),是 IB 數學:應用與解析 (Mathematics: Applications and Interpretation) 課程的核心。為什麼呢?因為我們生活在一個數據充斥的世界裡,而理解如何收集、分析和詮釋這些數據,是你所能獲得的最強大技能之一。
如果數字和圖表有時讓你感到不知所措,請別擔心。我們將逐步拆解每個概念,重點在於如何高效使用你的計算機(GDC!),以及最重要的——如何在現實情境中詮釋這些數字的含義。讓我們深入探索,掌握數據詮釋的藝術吧!
第一節:描述性統計 – 數據概括
1.1 數據類型
在進行任何計算之前,我們必須先釐清手頭上的數據類型,這會影響我們分析它的方式。
- 定性數據 (Qualitative Data)(類別數據):描述品質或特徵(例如:最喜歡的顏色、原產國)。
-
定量數據 (Quantitative Data)(數值數據):處理數字。
- 離散數據 (Discrete Data):只能取特定的、可數的值(通常是整數)。例如:班級人數、經過某個點的車輛數。
- 連續數據 (Continuous Data):在給定範圍內可以取任何值(透過測量而非計數得出)。例如:身高、溫度、完成比賽所需的時間。
快速回顧: 想到離散就想到「計數」,想到連續就想到「測量」。
1.2 集中趨勢測量(找出「中間值」)
這些測量值告訴我們數據的中心在哪裡。
-
平均值 (Mean, \(\bar{x}\) 或 \(\mu\)): 即平均數。將所有數值相加,然後除以數據個數。
類比:如果每個人把錢都放進同一個池子,再平均分配,每個人拿到的錢就是平均值。
-
中位數 (Median): 將數據排序後位於中間的數值。如果有兩個中間數(數據個數為偶數),則計算它們的平均值。
小貼士: 中位數非常棒,因為它不受極端值影響(那些會拉偏平均值的極端數據)。
- 眾數 (Mode): 出現頻率最高的數值。
1.3 離散程度測量(找出「分散程度」)
這些測量值告訴我們數據的分散或變化程度。
- 全距 (Range): 最大值減去最小值。簡單易懂,但極易受極端值影響。
-
四分位距 (Interquartile Range, IQR): 第三四分位數 (\(Q_3\)) 與第一四分位數 (\(Q_1\)) 之差。這涵蓋了數據中間 50% 的部分。
\(IQR = Q_3 - Q_1\)
-
標準差 (Standard Deviation, \(\sigma\)): 這是最重要的分散程度測量指標!它告訴你每個數據點平均距離平均值有多遠。
關鍵概念: 小標準差意味著數據點緊密聚集在平均值周圍;大標準差意味著數據分佈非常廣泛。
逐步教學:利用科技處理統計(GDC)
在 AI 課程中,你幾乎總是會使用 GDC 進行這些計算:
- 將數據輸入列表 (L1)。
- 執行 1-變量統計 (1-Var Stats)。
- GDC 會立即給出 \(\bar{x}\)(平均值)、\(\sigma x\)(標準差)、Med(中位數)、\(Q_1\) 和 \(Q_3\)。
第一節關鍵總結: 描述性統計幫助我們看見集中趨勢(典型值)和離散程度(數據的散亂程度)。標準差是你衡量數據分散程度的最佳夥伴。
第二節:雙變量數據與迴歸
當我們同時觀察兩個變量(雙變量數據)時,我們想知道它們之間是否存在關係。
2.1 相關性
相關性 (Correlation) 描述了兩個變量之間線性關係的強度和方向,並繪製在散點圖 (Scatter plot) 上。
- 正相關 (Positive Correlation): 當一個變量增加時,另一個通常也會增加(斜坡向上)。例如:學習時數與考試成績。
- 負相關 (Negative Correlation): 當一個變量增加時,另一個通常會減少(斜坡向下)。例如:室外溫度與熱巧克力銷量。
- 零/弱相關 (Zero/Weak Correlation): 沒有明顯的線性關係。例如:鞋碼與收入。
2.2 相關係數 (\(r\))
衡量線性相關強度和方向的數值是 皮爾遜積差相關係數 (Pearson product moment correlation coefficient, \(r\))。
- \(r\) 的值始終在 \(-1\) 到 \(+1\) 之間。
- \(r = +1\):完美的正線性相關。
- \(r = -1\):完美的負線性相關。
- \(r = 0\):沒有線性相關。
- 越接近 1 或 -1,代表相關性越強。
避免常見錯誤: 相關性並不意味著因果關係!僅僅因為兩件事同時發生,並不代表其中一件事導致了另一件。例如:冰淇淋銷量和犯罪率在夏季都會增加,但吃冰淇淋並不會引發犯罪。
2.3 迴歸線 (LSRL)
最小二乘迴歸線 (Least Squares Regression Line, LSRL) 是最能代表數據趨勢的直線。這條線用於進行預測。
IB AI 課程中使用的通用形式通常為:
\[y = ax + b\]
- \(a\) 是斜率(變化率)。
- \(b\) 是 \(y\)-截距(當 \(x=0\) 時 \(y\) 的值)。
預測與警示
- 內插 (Interpolation): 在原始數據集的範圍之內進行預測。這通常是可靠的。
- 外推 (Extrapolation): 在原始數據集的範圍之外進行預測。這很冒險,因為我們不知道趨勢在測量範圍之外是否會持續。
第二節關鍵總結: 迴歸讓我們能夠對關係進行建模並做出預測。請務必查看 \(r\) 值以確認預測的可靠性,並對外推法保持謹慎!
第三節:概率基礎
3.1 基本術語
- 實驗 (Experiment): 一個結果不確定的過程(例如:擲骰子)。
- 結果 (Outcome): 實驗的一個可能結果(例如:擲出 4)。
- 樣本空間 (Sample Space, \(S\)): 所有可能結果的集合。
- 事件 (Event, \(A\)): 特定結果的集合(例如:擲出偶數)。
- 事件 \(A\) 的概率寫作 \(P(A)\)。所有概率都在 0 到 1 之間。
3.2 組合事件與規則
加法規則
這用於尋找事件 A 或 (OR) 事件 B 發生的概率。
\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]
我們減去 \(P(A \cap B)\)(交集,A 且 B),因為我們在 P(A) 和 P(B) 中各計了一次這些結果,導致重複計算。
-
互斥事件 (Mutually Exclusive Events): 不能同時發生的事件。如果 A 和 B 是互斥的,那麼 \(P(A \cap B) = 0\)。
此時規則簡化為:\(P(A \cup B) = P(A) + P(B)\)。
條件概率與獨立性
條件概率 (Conditional Probability) 是在已知事件 B 已經發生的情況下,事件 A 發生的概率。
\[P(A|B) = \frac{P(A \cap B)}{P(B)}\]
獨立事件 (Independent Events): 指一個事件的發生不會影響另一個事件發生概率的事件。
如果 A 和 B 是獨立的,乘法規則就很簡單:
\[P(A \cap B) = P(A) \times P(B)\]
你知道嗎?
互斥事件不可能獨立。如果 A 和 B 是互斥的,知道 A 發生了,就明確告訴你 B 沒有發生(這對概率有巨大的影響!)。
第三節關鍵總結: 概率的核心在於理解事件是共同發生(交集)還是任一發生(聯集),以及一個事件的發生是否會影響另一個(條件概率/獨立性)。
第四節:離散概率分佈(二項分佈模型)
4.1 隨機變量
隨機變量 (Random Variable, \(X\)) 是一個變量,其值是隨機現象的數值結果。
- 離散隨機變量: 通常是計數的結果(例如:擲 10 次硬幣出現正面次數)。
- 連續隨機變量: 測量的結果(例如:隨機選取人的身高)。
4.2 期望值 (平均值)
離散隨機變量的期望值 (Expected Value, \(E(X)\)) 是理論上的長期平均結果。它是透過將每個結果 (\(x\)) 與其概率 (\(P(X=x)\)) 相乘後求和計算得出。
\[E(X) = \sum x P(X=x)\]
類比:如果你玩一個遊戲 1000 次,期望值會告訴你每局遊戲平均的贏/輸金額。
4.3 二項分佈 (Binomial Distribution)
二項分佈為滿足特定條件的實驗(稱為伯努利試驗, Bernoulli trials)進行離散概率建模:
- 有固定次數的試驗 (\(n\))。
- 每次試驗只有兩個結果:成功 或 失敗。
- 每次試驗成功的概率 (\(p\)) 都是固定的。
- 試驗之間相互獨立。
我們將其表示為 \(X \sim B(n, p)\),其中 \(n\) 是試驗次數,\(p\) 是成功的概率。
GDC 功能至關重要!
你需要使用 GDC 進行這些計算:
- 二項概率分佈函數 (PDF): 當你想計算確切次數的成功概率時使用,即 \(P(X = k)\)。例如:10 次投擲中得到剛好 5 次正面的概率。
- 二項累積概率分佈函數 (CDF): 當你想計算累積概率或一系列結果範圍時使用,即 \(P(X \le k)\)(至多 k 次成功)。例如:10 次投擲中得到 5 次或更少正面的概率。
記憶輔助: P(D)F 代表 Precise(精確的/等於);C(D)F 代表 Cumulative(累積的/小於或等於)。
第四節關鍵總結: 二項分佈是「成功/失敗」情境下的強大模型。記得找出 \(n\) 和 \(p\),並知道在計算機上何時使用 PDF(確切值)或 CDF(範圍值)。
第五節:連續概率分佈(常態模型)
5.1 常態分佈 (Normal Distribution)
常態分佈是統計學中最關鍵的連續分佈,它模擬了許多自然現象(身高、血壓、考試分數)。
我們將其表示為 \(X \sim N(\mu, \sigma^2)\),其中:
- \(\mu\) (mu): 平均值(由於圖形完全對稱,它也是中位數和眾數)。
- \(\sigma^2\) (sigma squared): 方差。\(\sigma\) 是標準差。
常態曲線(鐘形曲線)的特徵
- 圍繞平均值 \(\mu\) 對稱。
- 曲線下方的總面積等於 1。
- 曲線向兩個方向無限延伸(但極度接近零)。
5.2 數據標準化 (Z-分數)
Z-分數 (Z-score) 告訴你特定數據點 (\(x\)) 距離平均值 (\(\mu\)) 有幾個標準差。
\[Z = \frac{x - \mu}{\sigma}\]
- 正的 Z-分數意味著數值高於平均值。
- 負的 Z-分數意味著數值低於平均值。
- 標準常態分佈 (Standard Normal Distribution) 為 \(Z \sim N(0, 1)\)(平均值為 0,標準差為 1)。
5.3 使用 GDC 處理常態分佈
由於手算連續概率是不可能的,強制使用 GDC 是必須的。
- Normal CDF: 用於查找兩個數值之間,或特定值以上/以下的概率(曲線下的面積)。
-
反向常態分佈 (Inverse Normal): 當你知道概率(面積)並需要找到對應的具體數據值 (\(x\)) 或 Z-分數時使用。
關鍵點: 反向常態分佈計算的永遠是從最左側(左尾)開始的面積。
給學生的學習小建議: 務必畫出鐘形曲線!將你試圖尋找的區域塗上陰影。這可以防止在設定 Normal CDF 函數的上下界時出現錯誤。
第五節關鍵總結: 常態分佈是連續數據建模的關鍵。Z-分數允許你比較不同數據集的結果,而計算機上的 Normal CDF/Inverse Normal 功能是解決問題的必備工具。
第六節:統計推斷與檢驗(HL 與進階 SL 重點)
統計推斷是基於小樣本數據對大群體做出結論的過程。
6.1 假設檢驗簡介
假設檢驗利用樣本數據在關於群體的兩個競爭陳述之間做出選擇:
- 虛無假設 (Null Hypothesis, \(H_0\)): 現狀;假設沒有影響、沒有差異或沒有關係。(這是我們假定為真的前提)。
- 對立假設 (Alternative Hypothesis, \(H_1\)): 被檢驗的主張;聲明有影響、差異或關係存在。
我們的目標是收集足夠的證據,以支持拒絕 \(H_0\) 並轉而接受 \(H_1\)。
顯著性水平 (\(\alpha\)) 與 P 值
- 顯著性水平 (\(\alpha\)): 概率閾值(通常為 5% 或 0.05)。如果測試結果比該閾值更罕見,我們就認定它是顯著的。
- P 值 (P-value): 假設虛無假設 \(H_0\) 為真的情況下,獲得觀測到的樣本數據(或更極端數據)的概率。
決策規則:
如果 P 值 \(\lt \alpha\),我們拒絕 \(H_0\)。(結果具統計顯著性。)
如果 P 值 \(\ge \alpha\),我們不拒絕 \(H_0\)。(沒有足夠證據支持 \(H_1\)。)
6.2 卡方檢驗 (\(\chi^2\))
在 AI 課程中,卡方檢驗用於檢驗兩個類別變量之間的獨立性或關聯性,通常以列聯表 (Contingency table) 的形式呈現。
獨立性檢驗
此檢驗用於檢查兩個變量之間是否存在關係(例如:「最喜歡的運動」是否與「性別」獨立?)。
-
設定假設:
\(H_0\):兩個變量相互獨立(無關聯)。
\(H_1\):兩個變量相互依賴(有關聯)。
- 計算期望頻率: 若 \(H_0\) 為真,這些是我們預期會看到的數字。
- 計算檢驗統計量 (\(\chi^2\)): 輸入觀測數據矩陣後,GDC 會自動使用「Chi-squared Test」功能完成計算。
-
確定自由度 (Degrees of Freedom, \(df\)):
\[df = (\text{行數} - 1) \times (\text{列數} - 1)\]
- 比較 P 值與 \(\alpha\): 根據決策規則(P 值與 \(\alpha\) 的比較)得出結論。
詮釋結論
記得始終在問題的情境下陳述你的結論。例如:「由於 P 值 (0.015) 小於顯著性水平 (0.05),我們拒絕 \(H_0\)。現有足夠的證據顯示最喜歡的運動與性別是相關的。」
第六節關鍵總結: 統計檢驗提供了一種正式結構,用以確定觀測到的差異或關聯是偶然發生的,還是具有真實的影響。專注於正確設定假設並準確詮釋最終的 P 值。