歡迎來到連續機率分佈!
在之前的學習中,你已經接觸過離散隨機變數——即可以數出來的數值,例如擲硬幣出現正面的次數,或是擲骰子的點數。在本章中,我們將進入連續隨機變數的世界。這些變數通常是透過測量所得,例如時間、身高或溫度。由於測量值可以是任何數值(例如 1.5 秒、1.51 秒或 1.5123... 秒),我們需要一套稍微不同的工具來處理它們。如果起初覺得有點困難,不用擔心;這基本上只是把你已經掌握的積分與微分技巧應用到統計學領域而已!
1. 機率密度函數 (PDF)
對於連續變數,我們使用一個稱為機率密度函數 (Probability Density Function) 的函數,通常記作 \(f(x)\)。
可以這樣理解:想像一個長條圖,當柱狀越來越窄,直到形成一條平滑的曲線。那條曲線就是你的 PDF。最重要的一點是:對於連續變數,曲線下的面積代表機率。
\(f(x)\) 的關鍵性質:
1. 函數值永遠不會是負數:對於所有 \(x\),\(f(x) \geq 0\)。
2. 整個曲線下的總面積必須等於 1:\(\int_{-\infty}^{\infty} f(x) dx = 1\)。
3. 變數 \(X\) 落在兩個數值 \(a\) 和 \(b\) 之間的機率,就是兩者之間的面積:\(P(a < X \leq b) = \int_{a}^{b} f(x) dx\)。
避免常見錯誤:在連續分佈中,變數恰好等於某一個值的機率是零!例如,\(P(X = 5) = 0\)。這是因為單一點的「面積」為零。因此,\(P(X < 5)\) 與 \(P(X \leq 5)\) 是完全一樣的。
快速回顧:若要找出機率,只需在你設定的兩個極限之間對 PDF 進行積分即可!
2. 累積機率分佈函數 (CDF)
累積機率分佈函數 (Cumulative Distribution Function),記作 \(F(x)\),告訴我們變數小於或等於某個數值的機率。
類比:想像往桶子裡注水。PDF 告訴我們水在任何時刻流動的速度,而 CDF 則告訴我們在時間 \(x\) 時桶子裡總共有多少水。
如何計算 CDF:
\(F(x_0) = P(X \leq x_0) = \int_{-\infty}^{x_0} f(x) dx\)
當你計算 \(F(x)\) 時,通常會得到一個分段函數 (piecewise function)。它會從 0 開始,隨著機率的「累積」而增加,並且當你考慮了所有可能的 \(x\) 值後,函數值最終必須達到 1。
3. PDF 與 CDF 之間的轉換
PDF (\(f(x)\)) 與 CDF (\(F(x)\)) 之間的關係是本章最有用的工具之一,這其實就是簡單的微積分!
1. 從 PDF 轉換到 CDF:使用積分!\(F(x) = \int f(x) dx\)。
2. 從 CDF 轉換到 PDF:使用微分!\(f(x) = \frac{dF(x)}{dx}\)。
記憶小撇步:
Differentiate (微分) 去得到 Down (較低的階層,即從總量 \(F(x)\) 到密度 \(f(x)\))。
Integrate (積分) 去 Increase (增加,即從密度 \(f(x)\) 到累積總量 \(F(x)\))。
關鍵要點:如果題目給出 CDF 並要求你計算 PDF,只需對函數的每個區間分別求導數即可。
4. 平均值、變異數與期望值
就像離散變數一樣,我們想找出數據的「平均值」(Mean) 和「離散程度」(Variance)。
公式:
平均值(期望值): \(E(X) = \mu = \int x f(x) dx\)
函數的期望值: \(E(g(X)) = \int g(x) f(x) dx\)
變異數: \(Var(X) = \sigma^2 = E(X^2) - [E(X)]^2\),其中 \(E(X^2) = \int x^2 f(x) dx\)。
計算變異數的步驟:
1. 計算 \(\int x \times f(x) dx\) 以求出 \(E(X)\)。
2. 計算 \(\int x^2 \times f(x) dx\) 以求出 \(E(X^2)\)。
3. 用第二個結果減去第一個結果的平方。別忘了要把平均值平方!這是最容易失分的地方。
5. 眾數、中位數與四分位數
這些是描述分佈「中心」或「位置」的不同方式。
眾數 (Mode):這是在 PDF \(f(x)\) 取得最大值時的 \(x\) 值。
如何尋找:觀察該函數。如果是簡單曲線,使用微分找出駐點 (\(f'(x) = 0\))。如果是直線,它會位於邊界處。
中位數 (Median, \(m\)):這是一個數值,使一半的面積在其左側,另一半在其右側。
如何尋找:解方程式 \(F(m) = 0.5\)。
四分位數與百分位數:計算方式與中位數相同。對於下四分位數 (\(Q_1\)),解 \(F(Q_1) = 0.25\)。對於第 90 百分位數,解 \(F(x) = 0.90\)。
關鍵要點:務必使用 CDF (\(F(x)\)) 來尋找中位數和四分位數。這比每次都從頭積分要簡單得多!
6. 偏度 (Skewness)
偏度描述了分佈的「傾斜」方向。通常你可以透過觀察圖形形狀看出偏度,但你可能需要使用已計算出的數值來佐證你的判斷。
正偏 (Positive Skew):「尾巴」在右側。通常 \(Mode < Median < Mean\)。
負偏 (Negative Skew):「尾巴」在左側。通常 \(Mean < Median < Mode\)。
零偏 (Zero Skew):分佈完全對稱。\(Mean = Median = Mode\)。
你知道嗎?許多現實世界的測量數據,例如家庭收入,都呈現正偏,因為少數人擁有極高的收入,這將「平均值」拉向了右側!
7. 連續均勻分佈 (Continuous Uniform Distribution)
這是一個特殊且簡單的情況,機率在特定範圍 \([a, b]\) 內是常數。它也稱為矩形分佈 (Rectangular Distribution),因為它的 PDF 看起來像一個矩形。
\(X \sim U(a, b)\) 的關鍵事實:
PDF: \(f(x) = \frac{1}{b - a}\),適用於 \(a \leq x \leq b\)。 (因為高度 \(\times\) 寬度必須等於 1)。
平均值: \(E(X) = \frac{a + b}{2}\) (正好在中間!)。
變異數: \(Var(X) = \frac{(b - a)^2}{12}\)。
CDF: \(F(x) = \frac{x - a}{b - a}\),適用於 \(a \leq x \leq b\)。
小提示:考試常要求你推導均勻分佈的平均值和變異數。若要這樣做,只需使用標準的 \(E(X)\) 和 \(Var(X)\) 積分公式,代入 PDF \(f(x) = \frac{1}{b-a}\) 即可。
本章總結核對表
你會...嗎?
- 對 PDF 積分以求出機率或常數 \(k\) 的值?
- 利用微分和積分在 PDF 與 CDF 之間轉換?
- 使用積分公式計算平均值和變異數?
- 找出給定分佈的中位數和眾數?
- 識別並使用連續均勻分佈的快捷公式?
- 以清晰的依據來描述分佈的偏度?
別害怕積分!大多數考試題目使用的都是 \(x\) 的簡單冪次,所以只要你掌握 \(\int kx^n dx = \frac{kx^{n+1}}{n+1}\),你就已經在掌握本章的道路上了!