Statistics and probability

簡介：解碼隨機性——歡迎來到統計與機率！

你好，未來的數學家！這個關於「統計與機率」的章節是 AA 課程中最實用且引人入勝的部分之一。它將我們從抽象的代數帶入雜亂而真實的世界，讓我們能夠針對本質上隨機的事件，做出有根據的推測與預測。

分析與方法 (Analysis and Approaches) 課程在處理這個主題時，側重於理論模型與分佈。對於 HL（高級程度）學生來說，這意味著將機率概念與微積分（積分與微分）直接連結——這真的很酷！

如果機率有時讓你覺得不符合直覺，不用擔心；我們會一步步拆解這些規則與概念。讓我們開始將數據與機率轉化為清晰的知識吧！

第 1 節：單變量數據與描述性統計 (SL & HL)

1.1 集中趨勢測量（「平均數」）

這些測量值告訴我們數據的中心在哪裡。你可以把它們想像成「典型」的數值。

平均數 ($\bar{x}$ 或 $\mu$)： 算術平均值。將所有數值相加並除以數值總數。
中位數： 當數據按順序排列時，位於中間的數值。如果有兩個中間數，中位數就是它們的平均值。它的優點在於不會受極端值 (outliers) 的影響。
眾數： 出現頻率最高的數值。如果所有數值都不重複，則沒有眾數。

類比： 如果你的班級成績有 (10, 50, 55, 60, 65, 70, 75, 80, 100)，其中 10 和 100 是極端值。平均數可能會被拉低，但中位數依然是中心位置的一個穩健代表。

1.2 離散度測量（「離散程度」）

這些測量值告訴我們數據有多分散，或者與中心點偏離了多少。

全距 (Range)： 最大值減最小值。簡單，但容易被極端值扭曲。
四分位距 (IQR)： $Q_3 - Q_1$。這是數據中間 50% 的離散範圍。$Q_1$（第一四分位數）是第 25 百分位，$Q_3$（第三四分位數）是第 75 百分位。
變異數 ($\sigma^2$)： 與平均值距離平方的平均值。我們將距離平方，這樣負偏離值與正偏離值就不會互相抵銷。
標準差 ($\sigma$ 或 $s$)： 變異數的平方根。這是最重要的離散度測量，因為它的單位與原始數據單位相同。

快速複習：理解標準差 (SD)

低標準差意味著數據點靠近平均值（穩定）。高標準差意味著數據點分散在很大的範圍內（不穩定）。

重要公式（母體標準差）：
$$\sigma = \sqrt{\frac{\sum (x_i - \mu)^2}{N}}$$

計算機 (GDC) 小貼士： 請務必使用計算機的統計功能（通常是 "1-Var Stats"）來尋找 $\bar{x}$、$\sigma_x$ 和四分位數。這能節省時間並將計算錯誤降到最低！

核心要點： 描述性統計透過兩個主要想法幫助我們總結大型數據集：中心在哪裡（集中趨勢）以及數據分散程度如何（離散度）。

第 2 節：機率基礎 (SL & HL)

2.1 基本機率符號與概念

機率是衡量事件發生可能性的一種方法，範圍從 0（不可能）到 1（必然）。

樣本空間 (S)： 所有可能結果的集合。
事件 (A)： 特定結果或結果的集合。
互補事件 ($A'$ 或 $A^c$)： 事件 A 不發生的情況。 $$P(A') = 1 - P(A)$$

2.2 聯合事件

我們使用符號 $P(A \cup B)$ 表示「A 或 B」，用 $P(A \cap B)$ 表示「A 且 B」。

2.2.1 互斥事件

這些事件不可能同時發生。如果 A 發生，B 就不能發生，反之亦然。兩者之間沒有交集。

規則： $P(A \cap B) = 0$
互斥事件加法規則： $$P(A \cup B) = P(A) + P(B)$$

例子： 擲一次骰子出現 1 和出現 6 是互斥的。

2.2.2 非互斥事件

這些事件可以同時發生。我們需要「一般加法規則」來避免重複計算交集部分。

一般加法規則： $$P(A \cup B) = P(A) + P(B) - P(A \cap B)$$

2.3 條件機率與獨立性

2.3.1 條件機率

這是指在事件 B 已經發生的前提下，事件 A 發生的機率。

符號： $P(A|B)$（讀作「在 B 發生的條件下 A 的機率」）。
公式： $$P(A|B) = \frac{P(A \cap B)}{P(B)}, \text{ 前提是 } P(B) \neq 0$$

類比： 想像你從一副牌中抽一張（事件 B：抽到紅心）。下一次抽牌（事件 A）的樣本空間變小了（剩 51 張牌）。機率是以 B 已經發生為條件的。

2.3.2 獨立事件

如果兩個事件是獨立的，其中一個事件的發生不會影響另一個事件的機率。對於獨立事件，條件機率會簡化：

獨立性規則： $$P(A \cap B) = P(A) \times P(B)$$ （這是獨立事件的乘法規則。）
另外，如果 $P(A|B) = P(A)$，則它們是獨立的。

常見誤區： 區分互斥 (Mutually Exclusive)（不能一起發生，$P(A \cap B)=0$）與獨立 (Independent)（互不影響，$P(A \cap B)=P(A)P(B)$）。這是完全不同的概念！

核心要點： 務必定義你的事件。使用樹狀圖或維恩圖 (Venn diagrams) 來視覺化條件機率與聯合機率，特別是在處理序列事件時。

第 3 節：離散隨機變數 (SL & HL)

3.1 隨機變數 (RVs)

隨機變數 (X) 是一個變數，其值由隨機實驗的結果決定。我們使用大寫字母 $X$ 表示變數，小寫字母 $x$ 表示特定的結果。

離散隨機變數： 只能取有限或可數無限多的數值（例如：正面的次數、鞋碼）。

3.2 機率分佈與期望值

機率分佈列出了所有可能的結果 $x$ 以及它們對應的機率 $P(X=x)$。

條件： 所有機率的總和必須等於 1：$\sum P(X=x) = 1$。

期望值 $E(X)$

離散隨機變數的期望值（或平均數 $\mu$）是結果的長期平均值。

離散隨機變數公式： $$E(X) = \sum x \cdot P(X=x)$$

你知道嗎？ $E(X)$ 不一定會是實際可能出現的結果。如果你擲一次骰子，$E(X) = 3.5$，但你永遠擲不出 3.5！

3.3 二項分佈 $B(n, p)$

當我們有固定的獨立試驗次數，且每次試驗只有兩種結果：「成功」或「失敗」時，會使用二項分佈。

二項分佈條件：（助記詞 "BINS"）

Binary（二元）：只有兩種結果（成功/失敗）。
Independent（獨立）：每次試驗都必須獨立於其他試驗。
Number of trials（試驗次數 $n$）：是固定的。
Success probability（成功機率 $p$）：每次試驗的成功機率都固定。

機率公式 (SL & HL)

在 $n$ 次試驗中獲得恰好 $k$ 次成功的機率為：

$$P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$$

其中 $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ 是獲得 $k$ 次成功的方式數。

二項分佈的期望值與變異數

對於二項分佈 $X \sim B(n, p)$：

期望值： $E(X) = np$
變異數： $\text{Var}(X) = np(1-p)$

計算機 (GDC) 小貼士： 在 GDC 上使用 Binomial PDF（找 $P(X=k)$）與 Binomial CDF（找累積機率，如 $P(X \le k)$）功能。記得 CDF 計算的是包含 $k$ 在內及之前的累計機率。

核心要點： 離散隨機變數處理的是可數的結果。二項分佈是一種特定且廣泛應用於重複、獨立二元試驗的模型。

第 4 節：常態分佈 (SL & HL)

常態分佈可以說是統計學中最重要的分佈。它模擬的是連續數據，其數值傾向於對稱地聚集在平均值周圍（例如：人類身高、考試分數、測量誤差）。

4.1 常態分佈的特性

它是一種連續型機率分佈。
它是鐘形曲線，圍繞平均值 ($\mu$) 對稱。
平均數、中位數和眾數全都相等。
由兩個參數定義：平均值 ($\mu$) 和標準差 ($\sigma$)。 $$X \sim N(\mu, \sigma^2)$$

4.2 標準化 (Z-分數)

由於每個常態分佈都由其平均值與標準差定義，我們可以使用 Z-分數 將任何常態分佈轉換為標準常態分佈 $Z \sim N(0, 1)$。

Z-分數衡量觀測值 $x$ 距離平均值 $\mu$ 有多少個標準差。 $$Z = \frac{x - \mu}{\sigma}$$
我們使用 Z-分數搭配 GDC 功能（或在舊式教材中使用標準常態分佈表）來查詢機率。

4.3 計算常態機率

由於常態分佈是連續的，得到單一特定數值的機率為零，即 $P(X=x) = 0$。

我們只計算某個範圍內的機率：

$$P(a < X < b) = P(a \le X \le b)$$

步驟流程：

確認 $\mu$ 與 $\sigma$。
列出所需的機率（例如：$P(X > 50)$）。
使用 GDC 的 Normal CDF 功能，輸入下界、上界、平均值與標準差。

4.4 反向常態問題 (Inverse Normal)

有時候題目會給你機率（曲線下的面積），並要求你求出對應的 $x$ 或 $z$ 值。

步驟流程：

畫出鐘形曲線並標示出給定的面積區域。
確認該面積是在未知數 $k$ 的左側還是右側。（GDC 的 Inverse Normal 功能通常要求輸入左側面積）。
使用 Inverse Normal 功能，輸入面積、平均值與標準差，即可求出未知數 $k$。

核心要點： 常態分佈是連續統計學的骨幹。掌握 Z-分數轉換以及正確使用 GDC 功能（Normal CDF 與 Inverse Normal）至關重要。

第 5 節：HL 延伸——連續隨機變數與機率密度函數 (PDF)

對於 HL 學生，我們將連續分佈（如常態分佈）的概念透過微積分來定義。這提供了對連續環境下機率如何運作的深入分析理解。

5.1 機率密度函數 (PDF)

連續隨機變數 $X$ 由其機率密度函數 $f(x)$ 定義。此函數描述了變數落在某個範圍內的可能性。

關鍵條件： 若要使 $f(x)$ 在定義域 $[a, b]$ 上成為有效的 PDF，曲線下的總面積必須為 1。

$$\int_{a}^{b} f(x) dx = 1$$

5.2 以面積表示機率（積分）

由於我們無法計算單一點的機率，我們透過定積分找到曲線下的面積，從而計算 $X$ 落在區間 $[c, d]$ 內的機率：

$$P(c < X < d) = \int_{c}^{d} f(x) dx$$

這是 HL 統計學的分析核心！ 我們將機率（面積）直接與微積分（積分）連結起來。

5.3 累積分配函數 (CDF)

累積分配函數 $F(x)$ 給出了隨機變數 $X$ 小於或等於特定數值 $x$ 的機率。

$$F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) dt$$

其中 $t$ 只是積分用的虛擬變數。

PDF 與 CDF 之間的根本連結

由於 CDF 是 PDF 的積分，因此 PDF 必須是 CDF 的導數：

對 CDF 微分得到 PDF： $$f(x) = F'(x)$$

這種關係允許你在這兩個函數之間自由轉換。

5.4 連續隨機變數的期望值 (HL)

與離散隨機變數類似，但總和符號改為積分：

$$E(X) = \mu = \int_{-\infty}^{\infty} x \cdot f(x) dx$$

如果定義域有限制（例如在 $[a, b]$ 內），則積分上下限就會變為 $a$ 和 $b$。

HL 核心要點： 在連續機率中，PDF $f(x)$ 是你的起點。所有機率（面積）與期望值都是使用積分微積分工具求得的。

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。