歡迎來到連續分佈的世界!
在你之前的統計學課程(S1)中,你已經學習過離散隨機變量(Discrete Random Variables)——即那些可以數出來的數值,例如擲硬幣時出現正面的次數,或是比賽中的入球數。在統計學 2 (S2) 的這一章中,我們將進入連續隨機變量(Continuous Random Variables)的「平滑」世界。這些變量是我們測量而非數出來的數值,例如時間、身高或是一包糖的精確重量。別擔心,如果剛開始覺得有些抽象,我們會運用一些簡單的微積分和清晰的類比來幫助你理解!
1. 連續隨機變量的概念
連續隨機變量可以在給定的範圍內取任何數值。與離散變量(你會從 1 跳到 2)不同,連續變量可以是 1.5、1.55 或 1.5555...
類比:想像一個只顯示分鐘的數字鐘(離散),對比一個可以精確測量到無限小數位的秒錶(連續)。
關鍵特性:
1. 變量取特定確切數值的機率永遠為零:\(P(X = x) = 0\)。這是因為可能的數值有無窮多個。相反,我們計算的是變量落在某個範圍內的機率(例如:燈泡壽命在 100 到 200 小時之間的機率)。
2. 我們使用機率密度函數 (PDF),記作 \(f(x)\),來描述該分佈。\(f(x)\) 圖形下的面積代表機率。
快速複習:對於任何 PDF 而言,曲線下的總面積必須等於 1,因為所有可能結果的總機率是 100%。
2. 機率密度函數 (PDF)
PDF 即 \(f(x)\),告訴我們在任何點 \(x\) 的機率「密度」是多少。要找出 \(X\) 落在兩個數值 \(a\) 和 \(b\) 之間的機率,我們需利用積分計算曲線下的面積:
\(P(a < X \le b) = \int_{a}^{b} f(x) dx\)
有效 PDF 的規則:
- 對於所有 \(x\),\(f(x) \ge 0\)(機率密度不可能是負的!)。
- \(\int_{-\infty}^{\infty} f(x) dx = 1\)。
常見錯誤提醒:學生常會忘記 \(f(x)\) 是圖形的高度,而非機率本身。只有面積才是機率!
3. 累積分配函數 (CDF)
累積分配函數,記作 \(F(x)\),代表隨機變量小於或等於某個特定數值 \(x\) 的機率。
\(F(x_0) = P(X \le x_0) = \int_{-\infty}^{x_0} f(x) dx\)
PDF 與 CDF 之間的關係:
你可以把 PDF 看作是 CDF 的「變化率」。
- 從 PDF 到 CDF:進行積分。
- 從 CDF 到 PDF:進行微分。
\(f(x) = \frac{dF(x)}{dx}\)
重點提示:\(F(x)\) 的數值永遠從 0 開始,並以 1 結束。如果你在計算 CDF 時得出大於 1 的數值,請檢查你的積分常數!
4. 平均數、變異數與四分位數
正如離散變量,連續變量也有平均值和離散程度。我們使用以下公式:
平均數(期望值):
\(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)
變異數:
\(Var(X) = E(X^2) - [E(X)]^2\),其中 \(E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx\)
中位數與四分位數:
中位數 (m) 是指左側面積恰好為 0.5 的數值。要找到它,請解方程式:
\(F(m) = 0.5\)
同理,對於下四分位數 (\(Q_1\)),解 \(F(Q_1) = 0.25\);對於上四分位數 (\(Q_3\)),解 \(F(Q_3) = 0.75\)。
眾數:
眾數是使 \(f(x)\) 達到最大值的 \(x\) 值。你通常可以通過觀察圖形,或利用微分找出駐點(stationary point)來求得。
你知道嗎?在一個完全對稱的分佈中,平均數、中位數和眾數會是同一個值!
5. 連續均勻(矩形)分佈
這是最簡單的連續分佈。當範圍 \([a, b]\) 內的每個數值出現的可能性都相同時,就會出現這種分佈。其 PDF 圖形看起來像一個矩形。
\(X \sim U(a, b)\) 的關鍵公式:
- PDF: \(f(x) = \frac{1}{b-a}\),適用於 \(a \le x \le b\)。
- 平均數: \(E(X) = \frac{a+b}{2}\)(正好在中間)。
- 變異數: \(Var(X) = \frac{(b-a)^2}{12}\)。
- CDF: \(F(x) = \frac{x-a}{b-a}\),適用於 \(a \le x \le b\)。
記憶小撇步:想像一條長度為 \(b-a\) 的巧克力棒。如果你想找咬下一口的平均位置,那一定是在這條棒的中間!
6. 常態近似與連續性修正
有時,當數值變得非常大時,我們會使用常態分佈 (Normal Distribution) 來近似離散分佈(二項分佈或卜瓦松分佈)。然而,因為我們是從「區塊」(離散)過渡到「平滑曲線」(連續),我們必須使用連續性修正 (Continuity Correction)。
何時進行近似:
- 二項分佈 \(B(n, p)\):當 \(n\) 很大且 \(p\) 接近 0.5 時(具體來說是 \(np > 5\) 且 \(n(1-p) > 5\)),可使用常態分佈。
- 卜瓦松分佈 \(Po(\lambda)\):當 \(\lambda\) 很大時(通常 \(\lambda > 10\)),可使用常態分佈。
如何使用連續性修正:
由於常態分佈是連續的,像「10」這樣的離散值會由 9.5 到 10.5 之間的區間來代表。
- \(P(X = 10)\) 變為 \(P(9.5 < Y < 10.5\)
- \(P(X \ge 10)\) 變為 \(P(Y > 9.5\)(我們想要包含代表 10 的區塊)。
- \(P(X > 10)\) 變為 \(P(Y > 10.5\)(我們想要排除代表 10 的區塊)。
快速複習盒:
1. 確認近似是否有效。
2. 計算 \(\mu\) 和 \(\sigma^2\)。
3. 進行連續性修正 (\(\pm 0.5\))。
4. 使用 \(Z = \frac{X - \mu}{\sigma}\) 進行標準化,並查表得出結果。
總結重點
連續分佈讓我們能夠對現實世界進行建模,因為現實中的測量值不僅僅是整數。通過對 PDF 使用積分以及對 CDF 使用微分,你可以求出機率、平均數和中位數。注意你的積分上下限,並時刻記住總面積必須為 1。你一定能搞定的!