歡迎來到概率與統計數學模型的世界!
你好,未來的統計學家!本章將帶你探索概率與現實世界的交匯點。我們將不再局限於基礎的概率規則,而是開始運用強大的數學工具——即模型——來預測結果並理解不確定性。
如果之前你覺得概率有點抽象,請不用擔心。本單元結束時,你將能夠選擇正確的模型來描述各種情況,例如籃球比賽中投籃命中的次數,或是大批產品中發現次品的機率。這些知識對於更高級的統計學來說至關重要!
第一節:離散隨機變量 (Discrete Random Variables, DRVs)
什麼是隨機變量?
隨機變量 (Random Variable),通常用大寫字母如 \(X\)、\(Y\) 或 \(R\) 表示,是一個其數值由隨機事件結果所決定的變量。
例如,投擲一枚骰子,結果是隨機的,但我們可以將這些結果對應到數值(1、2、3、4、5、6)。\(X\) 可以代表骰子顯示的點數。
如果一個變量只能取特定的、分離的數值(通常是整數),我們稱之為離散 (discrete)。你可以數出所有可能的結果。
例子:擲硬幣三次時出現正面的次數(\(X\) 可以是 0、1、2 或 3)。
非例子(連續):人的身高(可以在一個範圍內取任何數值)。
概率分佈
離散隨機變量 \(X\) 的概率分佈 (Probability Distribution) 是一個完整的清單,列出了變量所有可能取的數值,以及與每個數值相關聯的概率。
這通常以表格形式呈現:
概率分佈的關鍵屬性:
- 每個概率必須介於 0 和 1 之間:\(0 \le P(X=x) \le 1\)。
- 所有概率的總和必須等於 1:\(\sum P(X=x) = 1\)。
常見錯誤提示!務必檢查你的概率總和是否正好等於 1。如果不是,說明你遺漏了某個結果,或者計算出錯了。
快速回顧:離散隨機變量
DRV 取的是特定的、可數的數值。其分佈列出了每一個數值及其對應的概率,所有概率的總和必須為一。
第二節:描述離散分佈
有了分佈之後,我們需要方法來進行總結。最重要的兩個度量是期望值(平均值)和方差(離散程度)。
1. 期望值 \(E(X)\)
期望值 (Expected Value),\(E(X)\),是隨機變量的長期平均結果。它也稱為平均值 (mean) (\(\mu\))。
類比:如果你玩一個遊戲幾千次,\(E(X)\) 就是你預期每次遊戲平均贏(或輸)的金額。
其公式為: \[E(X) = \mu = \sum x P(X=x)\]
簡單來說:將每個可能的數值與其概率相乘,然後全部加起來。
2. 方差與標準差
方差 (Variance),\(Var(X)\),衡量的是分佈的離散程度或變異性——即結果平均距離平均值有多遠。
標準公式(定義): \[Var(X) = E((X - \mu)^2) = \sum (x - \mu)^2 P(X=x)\]
更快捷的計算公式(考試常用): \[Var(X) = E(X^2) - [E(X)]^2\]
其中 \(E(X^2) = \sum x^2 P(X=x)\)。
標準差 (Standard Deviation) (\(\sigma\)) 只是方差的平方根。它更容易解釋,因為它的單位與 \(X\) 相同。 \[\sigma = \sqrt{Var(X)}\]
3. 線性變換
如果我們對隨機變量進行變換會發生什麼?對於常數 \(a\) 和 \(b\),以及隨機變量 \(X\):
變換的期望值: \[E(aX + b) = a E(X) + b\] 期望值同時受到乘法 (\(a\)) 和加法 (\(b\)) 的影響。
變換的方差: \[Var(aX + b) = a^2 Var(X)\] 方差只受乘法 (\(a\)) 影響,而且你必須將係數 \(a\) 平方。加上常數 (\(b\)) 只會使整個分佈平移,但不會改變其離散程度,所以 \(b\) 會消失!
計算時的關鍵提示
記得計算流程:先計算 \(E(X)\),然後計算 \(E(X^2)\),最後使用簡化公式求出 \(Var(X)\)。在方差計算中,務必小心將整個 \(E(X)\) 項進行平方!
第三節:概率中的數學模型
什麼是概率模型?
概率模型 (probability model) 是一種我們用來表示現實世界情況的理論概率分佈。使用這些模型可以節省我們每次從頭計算每一個概率的時間。
使用模型需要我們對現實情況做出某些假設 (assumptions)。如果這些假設合理,模型就適用;如果假設被違反(意味著假設不成立),模型將會產生不準確的結果。
在本單元中,我們學習的最重要的離散模型是二項分佈。
第四節:二項分佈 \(B(n, p)\)
二項分佈 (Binomial Distribution) 是一個強大的模型,用於處理固定數量的獨立試驗,且每次試驗只有兩個可能結果:成功或失敗。
二項模型的條件 (BINS 檢查)
只有在滿足四個條件的情況下,你才能使用二項分佈 \(X \sim B(n, p)\)。使用記憶口訣 BINS 來檢查:
- Binary Outcomes(二元結果):每次試驗必須只有兩個結果(成功或失敗)。
- Independent Trials(獨立試驗):一次試驗的結果不會影響任何其他試驗的結果。
- Number of Trials is fixed(試驗次數固定):試驗次數 \(n\) 必須事先確定。
- Same Probability(概率相同):每次試驗的成功概率 \(p\) 必須是常數。
你知道嗎?二項分佈經常應用於品質控制(產品是否為次品?)和醫學測試(病人是否康復?)中。
記號
如果 \(X\) 服從二項分佈,我們寫作: \[X \sim B(n, p)\] 其中:
- \(n\) 是試驗次數。
- \(p\) 是單次試驗中成功的概率。
二項概率公式
在 \(n\) 次試驗中恰好取得 \(x\) 次成功的概率由以下公式給出: \[P(X=x) = \binom{n}{x} p^x (1-p)^{n-x}\]
讓我們拆解這個公式:
- \(\binom{n}{x}\)(讀作 "n choose x")是在 \(n\) 次試驗中排列 \(x\) 次成功的方法數。計算公式為 \(\frac{n!}{x!(n-x)!}\)。
- \(p^x\) 是取得 \(x\) 次成功的概率。
- \((1-p)^{n-x}\) 是取得 \(n-x\) 次失敗的概率。(失敗的概率為 \(1-p\),通常稱為 \(q\))。
逐步計算示例:
若 \(X \sim B(10, 0.3)\),求 \(P(X=2)\)。(10 次試驗,成功概率 0.3,我們想要 2 次成功)。
- 識別參數:\(n=10\),\(x=2\),\(p=0.3\),\(1-p=0.7\)。
- 計算組合數:\(\binom{10}{2} = 45\)。
- 計算概率:\(P(X=2) = 45 \times (0.3)^2 \times (0.7)^{10-2}\)
- \(P(X=2) = 45 \times 0.09 \times (0.7)^8 \approx 0.2335\)
使用二項分佈表和計算機(累計概率)
對於 \(n\) 的較大值,使用公式計算概率非常繁瑣。我們通常使用統計表或計算機內置函數。
統計表通常提供累計概率 (Cumulative Probabilities): \[P(X \le x)\] 這是取得 \(x\) 次成功或更少次數的概率。
如何處理使用累計表/函數時的不同不等式:
- \(P(X < x)\) 與 \(P(X \le x-1)\) 相同。(如果你想要小於 5,即等於 4 或更少)。
- \(P(X \ge x) = 1 - P(X \le x-1)\)。(補集規則)。
- \(P(X > x) = 1 - P(X \le x)\)。
- \(P(a \le X \le b) = P(X \le b) - P(X \le a-1)\)。
如果這看起來很棘手,請別擔心。多練習將不等式轉換為 \(P(X \le k)\) 的形式。這是至關重要的技能!
二項分佈的期望值與方差
與我們必須加總 \(x P(X=x)\) 的一般 DRV 不同,二項分佈因為其結構的特殊性,有非常簡單的平均值與方差公式:
期望值(平均值): \[E(X) = np\]
方差: \[Var(X) = np(1-p)\]
例子:如果你擲一枚公正硬幣 (\(p=0.5\)) 20 次 (\(n=20\)),預期的正面次數為 \(E(X) = 20 \times 0.5 = 10\)。
關鍵總結:二項模型
二項模型 \(B(n, p)\) 用於計算固定次數的獨立試驗中的成功次數。請務必檢查 BINS 條件。使用 \(E(X)=np\) 和 \(Var(X)=np(1-p)\) 來快速計算分佈的中心和離散程度。
本章總結
我們從離散隨機變量開始,學習了如何計算它們的期望值(平均值)和方差(離散程度)。隨後,我們將這些概念應用於第一個重要的數學模型:二項分佈。這一章的成功取決於能否識別何時滿足 BINS 條件,以及準確地使用表格或公式計算累計概率。請繼續練習這些不等式轉換!