歡迎來到連續機率分佈的世界!
在之前的學習中,你可能已經接觸過離散隨機變量 (Discrete Random Variables)——即可以數出來的數據,例如拋硬幣出現的正反面次數,或是擲骰子的點數。在本章中,我們將進入連續隨機變量 (Continuous Random Variables, CRVs) 的世界。這些變量通常用於我們需要「測量」的數值,例如巴士抵達的時間、學生的身高,或是蘋果的重量。由於測量結果可以是任何數值(例如 1.5 分鐘、1.52 分鐘,甚至是 1.5234... 分鐘),我們需要一套略有不同的工具來處理。如果剛開始覺得「數學味」很重,不用擔心,我們會一步一步為你拆解!
1. 什麼是連續隨機變量?
連續隨機變量可以在給定範圍內取任何值。與離散變量那種有明確「級數」(1, 2, 3...)的特點不同,連續變量就像一個平滑的滑梯。
機率密度函數 (PDF)
對於連續隨機變量,我們使用一個稱為 \( f(x) \) 的函數,即機率密度函數 (Probability Density Function)。這個函數描述了分佈的形狀。
重要提示:在連續分佈中,變量「恰好」等於某一個特定值的機率永遠為零 (\( P(X = c) = 0 \))。相反,我們通常關注的是 \( X \) 落入某個「範圍」內的機率。
關鍵公式:
要找出兩個數值 \( a \) 和 \( b \) 之間的機率,我們需要計算該點之間曲線下的面積 (area under the curve),這可以透過積分來達成:
\( P(a < X \le b) = \int_{a}^{b} f(x) dx \)
有效 PDF 的規則:
1. 函數值永遠不能為負:對於所有 \( x \),都有 \( f(x) \ge 0 \)。
2. 曲線下的總面積必須等於 1:\( \int_{-\infty}^{\infty} f(x) dx = 1 \)。
類比:想像一條長麵包。麵包的總量是 1(或 100%)。如果你想知道某一片麵包的機率,你其實是在計算該特定切片相對於整條麵包的「面積」或體積。
常見錯誤:學生常忘記對於連續隨機變量而言,\( P(X < 5) \) 與 \( P(X \le 5) \) 是完全一樣的。因為 \( X \) 恰好等於 5 的機率為零,所以是否有「等於」符號並不影響總面積!
重點總結:連續分佈中的機率,其實就是 PDF 曲線下的面積。
2. 累積分配函數 (CDF)
累積分配函數 (Cumulative Distribution Function),記作 \( F(x) \),告訴我們隨機變量小於或等於某個值 \( x \) 的機率。你可以把它想像成機率的「累加總和」。
如何找出 \( F(x) \):
將 PDF 從最小值(通常是 \( -\infty \) 或 0)積分到 \( x \):
\( F(x_0) = P(X \le x_0) = \int_{-\infty}^{x_0} f(x) dx \)
PDF 與 CDF 之間的關係:
這是在考試中非常重要的「技巧」!
1. 從 PDF 到 CDF:對 \( f(x) \) 進行積分。
2. 從 CDF 到 PDF:對 \( F(x) \) 進行微分。
\( f(x) = \frac{dF(x)}{dx} \)
快速回顧框:
- \( F(\text{最小值}) = 0 \)
- \( F(\text{最大值}) = 1 \)
- \( a \) 與 \( b \) 之間的機率:\( P(a < X < b) = F(b) - F(a) \)。
重點總結:CDF \( F(x) \) 是從圖形左側一直到點 \( x \) 的「累加面積」。
3. 平均值、變異數與期望值
就像處理離散變量一樣,我們想知道數據的「平均值」(Mean) 和「散佈程度」(Variance)。由於我們處理的是連續函數,我們使用積分來代替求和 (\( \Sigma \))。
平均值(期望值):
\( E(X) = \mu = \int_{-\infty}^{\infty} x f(x) dx \)
變異數:
\( Var(X) = \sigma^2 = E(X^2) - [E(X)]^2 \)
其中 \( E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx \)。
函數 \( g(X) \) 的期望值:
如果你需要計算類似 \( X^3 \) 或 \( 2X + 5 \) 的期望值,請使用:
\( E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x) dx \)
你知道嗎?平均值在本質上是機率分佈的「重心」。如果你用紙板剪出 PDF 的形狀,平均值就是它能在你手指上完美平衡的位置!
重點總結:要計算平均值,請積分 \( x \times f(x) \)。計算變異數時,先求出 \( E(X^2) \),然後減去平均值的平方。
4. 眾數、中位數與四分位數
這些統計量幫助我們從不同角度理解數據的「位置」。
1. 眾數 (Mode):
眾數是 \( f(x) \) 達到最大值時的 \( x \) 值。
步驟:
- 對 PDF 微分:\( f'(x) \)。
- 令其為零:\( f'(x) = 0 \)。
- 解出 \( x \)(並檢查該點在範圍內是否為極大值)。
2. 中位數 (Median, \( m \)):
中位數是「中間點」。正好有 50% 的面積在左側,50% 在右側。
求法:求解 \( F(m) = 0.5 \)。
3. 百分位數與四分位數:
- 下四分位數 (\( Q_1 \)):求解 \( F(Q_1) = 0.25 \)。
- 上四分位數 (\( Q_3 \)):求解 \( F(Q_3) = 0.75 \)。
- 第 \( n \) 百分位數:求解 \( F(x) = \frac{n}{100} \)。
重點總結:眾數 = 最高峰。中位數 = 面積為 0.5 的位置。四分位數 = 面積為 0.25 和 0.75 的位置。
5. 偏度 (Skewness)
偏度告訴我們分佈的「尾部」是否被拉向某一側。
- 正偏 (Positive Skew):尾部在右側。通常,\( \text{平均值} > \text{中位數} > \text{眾數} \)。
- 負偏 (Negative Skew):尾部在左側。通常,\( \text{平均值} < \text{中位數} < \text{眾數} \)。
- 零偏 (Zero Skew):分佈完美對稱。\( \text{平均值} = \text{中位數} = \text{眾數} \)。
記憶小撇步:尾巴在哪裡,偏度就在哪裡。如果尾巴指向正數(右側),就是正偏;如果指向負數(左側),就是負偏。
重點總結:在考試中,務必透過比較平均值和中位數來證明分佈的偏度。
6. 連續均勻分佈 (Continuous Uniform Distribution)
這是最簡單的連續分佈。範圍 \( [a, b] \) 內的每一個值出現的機率都相同。PDF 看起來像一個平坦的矩形。
\( X \sim U(a, b) \) 的關鍵屬性:
- PDF:對於 \( a \le x \le b \),\( f(x) = \frac{1}{b-a} \)。
- CDF:\( F(x) = \frac{x-a}{b-a} \)(這只是該範圍內所佔的比例)。
- 平均值:\( E(X) = \frac{a+b}{2} \)(正好是範圍的中點)。
- 變異數:\( Var(X) = \frac{(b-a)^2}{12} \)。
現實例子:一個四捨五入到最近秒數的「公平」電子碼錶。捨入誤差將在 -0.5 到 +0.5 秒之間均勻分佈。
快速回顧框:
對於均勻分佈:
- PDF 的高度總是 \( 1 / \text{寬度} \)。
- 變異數公式中的數字 12 是一個數學常數——千萬別忘了!
重點總結:當特定範圍內的每一個結果都具有相同的「密度」或發生機率時,就會使用均勻分佈。
如果這些公式讓你感到吃力,請別擔心!多練習繪製 PDF 和 CDF 的草圖;一旦你能視覺化這些面積,積分就會變得合乎邏輯多了。你一定沒問題的!