歡迎來到概率與統計數學模型的世界!

你好,未來的統計學家!本章將帶你探索概率與現實世界的交匯點。我們將不再局限於基礎的概率規則,而是開始運用強大的數學工具——即模型——來預測結果並理解不確定性。

如果之前你覺得概率有點抽象,請不用擔心。本單元結束時,你將能夠選擇正確的模型來描述各種情況,例如籃球比賽中投籃命中的次數,或是大批產品中發現次品的機率。這些知識對於更高級的統計學來說至關重要!


第一節:離散隨機變量 (Discrete Random Variables, DRVs)

什麼是隨機變量?

隨機變量 (Random Variable),通常用大寫字母如 \(X\)、\(Y\) 或 \(R\) 表示,是一個其數值由隨機事件結果所決定的變量。

例如,投擲一枚骰子,結果是隨機的,但我們可以將這些結果對應到數值(1、2、3、4、5、6)。\(X\) 可以代表骰子顯示的點數。

如果一個變量只能取特定的、分離的數值(通常是整數),我們稱之為離散 (discrete)。你可以數出所有可能的結果。

例子:擲硬幣三次時出現正面的次數(\(X\) 可以是 0、1、2 或 3)。
非例子(連續):人的身高(可以在一個範圍內取任何數值)。

概率分佈

離散隨機變量 \(X\) 的概率分佈 (Probability Distribution) 是一個完整的清單,列出了變量所有可能取的數值,以及與每個數值相關聯的概率。

這通常以表格形式呈現:

\(P(X=x)\)

概率分佈的關鍵屬性:
  • 每個概率必須介於 0 和 1 之間:\(0 \le P(X=x) \le 1\)。
  • 所有概率的總和必須等於 1:\(\sum P(X=x) = 1\)。

常見錯誤提示!務必檢查你的概率總和是否正好等於 1。如果不是,說明你遺漏了某個結果,或者計算出錯了。

快速回顧:離散隨機變量

DRV 取的是特定的、可數的數值。其分佈列出了每一個數值及其對應的概率,所有概率的總和必須為一。


第二節:描述離散分佈

有了分佈之後,我們需要方法來進行總結。最重要的兩個度量是期望值(平均值)和方差(離散程度)。

1. 期望值 \(E(X)\)

期望值 (Expected Value),\(E(X)\),是隨機變量的長期平均結果。它也稱為平均值 (mean) (\(\mu\))。

類比:如果你玩一個遊戲幾千次,\(E(X)\) 就是你預期每次遊戲平均贏(或輸)的金額。

其公式為: \[E(X) = \mu = \sum x P(X=x)\]

簡單來說:將每個可能的數值與其概率相乘,然後全部加起來。

2. 方差與標準差

方差 (Variance),\(Var(X)\),衡量的是分佈的離散程度或變異性——即結果平均距離平均值有多遠。

標準公式(定義): \[Var(X) = E((X - \mu)^2) = \sum (x - \mu)^2 P(X=x)\]

更快捷的計算公式(考試常用): \[Var(X) = E(X^2) - [E(X)]^2\]

其中 \(E(X^2) = \sum x^2 P(X=x)\)。

標準差 (Standard Deviation) (\(\sigma\)) 只是方差的平方根。它更容易解釋,因為它的單位與 \(X\) 相同。 \[\sigma = \sqrt{Var(X)}\]

3. 線性變換

如果我們對隨機變量進行變換會發生什麼?對於常數 \(a\) 和 \(b\),以及隨機變量 \(X\):

變換的期望值: \[E(aX + b) = a E(X) + b\] 期望值同時受到乘法 (\(a\)) 和加法 (\(b\)) 的影響。

變換的方差: \[Var(aX + b) = a^2 Var(X)\] 方差只受乘法 (\(a\)) 影響,而且你必須將係數 \(a\) 平方。加上常數 (\(b\)) 只會使整個分佈平移,但不會改變其離散程度,所以 \(b\) 會消失!

計算時的關鍵提示

記得計算流程:先計算 \(E(X)\),然後計算 \(E(X^2)\),最後使用簡化公式求出 \(Var(X)\)。在方差計算中,務必小心將整個 \(E(X)\) 項進行平方!


第三節:概率中的數學模型

什麼是概率模型?

概率模型 (probability model) 是一種我們用來表示現實世界情況的理論概率分佈。使用這些模型可以節省我們每次從頭計算每一個概率的時間。

使用模型需要我們對現實情況做出某些假設 (assumptions)。如果這些假設合理,模型就適用;如果假設被違反(意味著假設不成立),模型將會產生不準確的結果。

在本單元中,我們學習的最重要的離散模型是二項分佈。


第四節:二項分佈 \(B(n, p)\)

二項分佈 (Binomial Distribution) 是一個強大的模型,用於處理固定數量的獨立試驗,且每次試驗只有兩個可能結果:成功或失敗。

二項模型的條件 (BINS 檢查)

只有在滿足四個條件的情況下,你才能使用二項分佈 \(X \sim B(n, p)\)。使用記憶口訣 BINS 來檢查:

  1. Binary Outcomes(二元結果):每次試驗必須只有兩個結果(成功或失敗)。
  2. Independent Trials(獨立試驗):一次試驗的結果不會影響任何其他試驗的結果。
  3. Number of Trials is fixed(試驗次數固定):試驗次數 \(n\) 必須事先確定。
  4. Same Probability(概率相同):每次試驗的成功概率 \(p\) 必須是常數。

你知道嗎?二項分佈經常應用於品質控制(產品是否為次品?)和醫學測試(病人是否康復?)中。

記號

如果 \(X\) 服從二項分佈,我們寫作: \[X \sim B(n, p)\] 其中:

  • \(n\) 是試驗次數。
  • \(p\) 是單次試驗中成功的概率。

二項概率公式

在 \(n\) 次試驗中恰好取得 \(x\) 次成功的概率由以下公式給出: \[P(X=x) = \binom{n}{x} p^x (1-p)^{n-x}\]

讓我們拆解這個公式:

  • \(\binom{n}{x}\)(讀作 "n choose x")是在 \(n\) 次試驗中排列 \(x\) 次成功的方法數。計算公式為 \(\frac{n!}{x!(n-x)!}\)。
  • \(p^x\) 是取得 \(x\) 次成功的概率。
  • \((1-p)^{n-x}\) 是取得 \(n-x\) 次失敗的概率。(失敗的概率為 \(1-p\),通常稱為 \(q\))。

逐步計算示例:
若 \(X \sim B(10, 0.3)\),求 \(P(X=2)\)。(10 次試驗,成功概率 0.3,我們想要 2 次成功)。

  1. 識別參數:\(n=10\),\(x=2\),\(p=0.3\),\(1-p=0.7\)。
  2. 計算組合數:\(\binom{10}{2} = 45\)。
  3. 計算概率:\(P(X=2) = 45 \times (0.3)^2 \times (0.7)^{10-2}\)
  4. \(P(X=2) = 45 \times 0.09 \times (0.7)^8 \approx 0.2335\)

使用二項分佈表和計算機(累計概率)

對於 \(n\) 的較大值,使用公式計算概率非常繁瑣。我們通常使用統計表或計算機內置函數。

統計表通常提供累計概率 (Cumulative Probabilities): \[P(X \le x)\] 這是取得 \(x\) 次成功或更少次數的概率。

如何處理使用累計表/函數時的不同不等式:

  • \(P(X < x)\) 與 \(P(X \le x-1)\) 相同。(如果你想要小於 5,即等於 4 或更少)。
  • \(P(X \ge x) = 1 - P(X \le x-1)\)。(補集規則)。
  • \(P(X > x) = 1 - P(X \le x)\)。
  • \(P(a \le X \le b) = P(X \le b) - P(X \le a-1)\)。

如果這看起來很棘手,請別擔心。多練習將不等式轉換為 \(P(X \le k)\) 的形式。這是至關重要的技能!

二項分佈的期望值與方差

與我們必須加總 \(x P(X=x)\) 的一般 DRV 不同,二項分佈因為其結構的特殊性,有非常簡單的平均值與方差公式:

期望值(平均值): \[E(X) = np\]

方差: \[Var(X) = np(1-p)\]

例子:如果你擲一枚公正硬幣 (\(p=0.5\)) 20 次 (\(n=20\)),預期的正面次數為 \(E(X) = 20 \times 0.5 = 10\)。

關鍵總結:二項模型

二項模型 \(B(n, p)\) 用於計算固定次數的獨立試驗中的成功次數。請務必檢查 BINS 條件。使用 \(E(X)=np\) 和 \(Var(X)=np(1-p)\) 來快速計算分佈的中心和離散程度。


本章總結

我們從離散隨機變量開始,學習了如何計算它們的期望值(平均值)和方差(離散程度)。隨後,我們將這些概念應用於第一個重要的數學模型:二項分佈。這一章的成功取決於能否識別何時滿足 BINS 條件,以及準確地使用表格或公式計算累計概率。請繼續練習這些不等式轉換!