單元 S2:統計學 2 - 章節筆記:連續型分佈

歡迎來到連續機率的世界!

你好!這一章是我們學習路程上的一個重大轉折。我們將從離散型分佈(如二項分佈和卜瓦松分佈,用於計算 0、1、2、3... 等具體次數)進入到連續型分佈。連續型分佈處理的是測量值——即在一定範圍內可以取任何數值的變量,例如身高、時間或溫度。

如果聽起來有點深奧,別擔心!我們將會拆解如何在統計情境中應用積分與微分。如果你對微積分很有信心,那你已經領先了一大步;如果沒有,就把它當作磨練微積分技巧的好機會!

核心重點: 在連續型分佈中,我們關注的是機率密度,而不是單一精確數值的機率。

第 1 節:機率密度函數 (PDF)

定義 \(f(x)\)

對於連續型隨機變數 \(X\),我們定義其機率密度函數 (Probability Density Function, PDF) 為 \(f(x)\)。

比喻: 你可以把 \(f(x)\) 想像成一張地圖,顯示出在每一個點 \(x\) 的機率「密度」有多高。\(f(x)\) 圖形較高的地方,代表該數值出現的可能性較大。

所有 PDF 必須滿足的兩個基本規則

任何函數 \(f(x)\) 要成為合法的 PDF,必須滿足以下兩個條件:

  1. 非負性: 密度值永遠不能為負。
    $$f(x) \ge 0 \quad \text{對於所有 } x \text{ 的值}$$
  2. 總面積為一: 在整個定義域(所有可能數值的範圍)內的總機率必須等於 1。
    $$\int_{-\infty}^{\infty} f(x) \, dx = 1$$

    在實務上,積分上下限通常由題目給定的範圍決定(例如:\(\int_{0}^{5} f(x) \, dx = 1\))。

計算機率

由於我們處理的是密度,隨機變數 \(X\) 落在 \(a\) 和 \(b\) 之間的機率,就是該區間下方的曲線面積

$$P(a < X < b) = \int_{a}^{b} f(x) \, dx$$

!!! 關鍵概念警示 !!!

對於任何連續型分佈,隨機變數 \(X\) 精確等於某個特定值的機率為零。
$$P(X = x) = 0$$

思考一下:單一個點沒有寬度,所以它上方的面積為零。這意味著對於連續型變數,我們不需要糾結於不等號是否包含等於:

$$P(a < X < b) = P(a \le X \le b) = P(a < X \le b)$$

第 2 節:累積分配函數 (CDF)

PDF 告訴我們某一點的機率密度,而累積分配函數 (Cumulative Distribution Function, CDF),記作 \(F(x)\),則告訴我們到某一點 \(x\) 為止的總機率。

CDF \(F(x)\) 的定義

CDF 是指隨機變數 \(X\) 小於或等於特定值 \(x\) 的機率。

$$F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) \, dt$$

(注意:我們在積分內使用 \(t\) 作為變數,以避免與上限 \(x\) 混淆。)

PDF 與 CDF 的關係

既然 CDF 是透過對 PDF 積分得到的,我們也可以反過來,透過微分回到 PDF:

$$f(x) = \frac{d}{dx} F(x)$$

記憶口訣:
F (CDF) 是由 Integrating (積分) \(f(x)\) 得到。
Differentiate (微分) \(F(x)\) 得到 f(x) (PDF)。

使用 CDF 計算機率

一旦你得到了 CDF,計算機率就會比每次都對 PDF 進行積分要快得多。

快速計算機率步驟

要找出 \(P(a < X < b)\):

  1. 計算 \(F(b)\)(到達 \(b\) 為止的機率)。
  2. 計算 \(F(a)\)(到達 \(a\) 為止的機率)。
  3. 將兩者相減:
    $$P(a < X < b) = F(b) - F(a)$$

第 3 節:關鍵統計量

就像離散型分佈一樣,我們需要描述連續型分佈的中心趨勢與離散程度。

1. 期望值(平均數),\(E(X)\)

期望值 \(\mu\) 是變數的長期平均值。對於連續型分佈,公式如下:

$$E(X) = \mu = \int_{-\infty}^{\infty} x \cdot f(x) \, dx$$

提示:將此與離散型分佈對比,離散型使用加總:\(\sum x P(X=x)\)。在這裡,積分取代了加總,而 \(f(x) \, dx\) 取代了 \(P(X=x)\)。

2. 變異數與標準差

變異數 \(\text{Var}(X)\) 衡量數據相對於平均值的離散程度。我們使用與離散型分佈相同的恆等式:

$$\text{Var}(X) = E(X^2) - [E(X)]^2$$

要計算 \(E(X^2)\),我們調整期望值的公式:

$$E(X^2) = \int_{-\infty}^{\infty} x^2 \cdot f(x) \, dx$$

標準差 (\(\sigma\)) 就是變異數的平方根。

3. 中位數,\(m\)

中位數 (\(m\)) 是將分佈精確平分為二的值。一半的機率分佈在 \(m\) 以下,另一半在 \(m\) 以上。

要找出中位數,你需要利用 PDF 或 CDF 來解出 \(m\):

使用 CDF:$$F(m) = 0.5$$ 使用 PDF:$$\int_{-\infty}^{m} f(x) \, dx = 0.5$$

4. 眾數

眾數 是機率密度函數 \(f(x)\) 達到最高點時的 \(x\) 值。它代表了最可能出現的單一結果。

尋找眾數的步驟:

  1. 如果 \(f(x)\) 很簡單(例如線性或二次函數),你可以透過觀察(看圖)找到峰值。
  2. 如果 \(f(x)\) 較複雜,請使用微分(標準的微積分最佳化方法):
    a) 求導函數:\(\frac{d}{dx} f(x)\)
    b) 令導函數為零並解出 \(x\):\(\frac{d}{dx} f(x) = 0\)
    c) 檢查該 \(x\) 值是否在分佈的定義範圍內。
統計量快速複習
  • 平均數: 需要 \(\int x f(x) \, dx\)
  • 變異數: 需要 \(\int x^2 f(x) \, dx\) 和 \(\int x f(x) \, dx\)
  • 中位數: 需要解出 \(F(m) = 0.5\)
  • 眾數: 需要找到 \(f(x)\) 的最大值(通常透過微分)

第 4 節:均勻分佈 (Uniform Distribution)

均勻分佈是最簡單的連續型分佈,其機率密度在給定區間內是常數

如果隨機變數 \(X\) 在區間 \([a, b]\) 上服從均勻分佈,我們記作 \(X \sim U(a, b)\)。

定義 \(U(a, b)\) 的 PDF

PDF 的圖形看起來像一個矩形。由於總面積必須等於 1,高度(常數密度 \(k\))乘以寬度 (\(b-a\)) 必須等於 1。

$$k \times (b - a) = 1 \quad \Rightarrow \quad k = \frac{1}{b-a}$$

因此,PDF 為:

$$ f(x) = \begin{cases} \frac{1}{b-a} & \text{對於 } a \le x \le b \\ 0 & \text{其他情況} \end{cases} $$
在 \(U(a, b)\) 中計算機率

由於分佈是常數,計算機率只需計算矩形面積(矩形面積 = 高 × 寬),通常不需要複雜的積分。

例子:如果巴士在 0 到 10 分鐘內均勻到達,即 \(U(0, 10)\)。高度為 \(1/10\)。你等待 2 到 5 分鐘的機率為 \((5-2) \times (1/10) = 3/10\)。

\(U(a, b)\) 的平均數與變異數

我們可以使用積分公式推導平均數與變異數,但對於均勻分佈,這些簡化公式非常重要,建議直接背下來:

平均數(期望值): 因為密度對稱,平均數就在正中間。
$$E(X) = \frac{a+b}{2}$$

變異數:
$$\text{Var}(X) = \frac{(b-a)^2}{12}$$

你知道嗎? 分母 12 是均勻分佈獨有的,這有助於你把它與稍後學到的其他公式區分開來!

\(U(a, b)\) 的眾數與中位數

由於在區間 \([a, b]\) 內密度是常數:

  • 眾數: 區間 \([a, b]\) 內的所有值都是眾數(我們稱之為多眾數,或是平坦分佈)。
  • 中位數: 中位數與平均數相同:\(\frac{a+b}{2}\)。

總結與學習建議

掌握連續型分佈很大程度上取決於你對微分與積分的熟悉程度。如果你覺得題目很棘手,通常是微積分計算出了問題,而不是統計觀念的問題!

應避免的常見錯誤

  • 忘記積分上下限: 永遠要使用 PDF 所定義(或特定機率區間)的正確積分範圍。
  • 搞混 PDF 與 CDF: 記住,如果題目要求中位數或機率 \(P(X \le x)\),CDF (\(F(x)\)) 通常是最有效率的工具。
  • 積分常數: 當透過對 PDF (\(f(x)\)) 積分來求 CDF (\(F(x)\)) 時,記得利用定義域邊界來決定積分常數。最重要的是:\(F(\text{下限}) = 0\) 且 \(F(\text{上限}) = 1\)。
  • 錯誤的 \(E(X)\) 公式: 計算平均數時,千萬別忘了在積分內將 \(f(x)\) 乘以 \(x\)!(\(\int x f(x) \, dx\))

繼續練習微積分技巧,你會發現這些統計問題都遵循著可預測的模式。加油!