歡迎來到統計分佈!

在本章中,我們將從觀察已收集的數據,進階到預測未來可能發生的情況。統計分佈(Statistical distributions)就像數學上的「藍圖」,告訴我們隨機事件中各種結果發生的可能性。無論你是在預測有多少人會點擊廣告,還是花園裡有多少種子會發芽,這些工具都將成為你最好的幫手!

如果公式起初看起來有點嚇人,請別擔心。我們將一步步拆解它們,你很快就會發現,絕大部分繁瑣的計算其實都可以交給計算機完成!


1. 離散機率分佈

在深入了解特定的模型之前,我們需要先理解什麼是離散隨機變量(Discrete Random Variable)

  • 變量(Variable):一個可以改變的量(通常稱為 \( X \))。
  • 隨機(Random):結果取決於機會。
  • 離散(Discrete):它只能取特定的、分開的數值(例如 0, 1, 2...)。你不可能有 1.5 個兄弟姊妹,也不可能擲硬幣 2.3 次!

表示分佈的方式

我們可以透過兩種主要方式來呈現分佈:表格(table)公式(formula)(機率質量函數)。

黃金法則:對於任何離散機率分佈,所有個別機率的總和必須等於 1。 \( \sum P(X=x) = 1 \)。如果總和不等於 1,這就不是一個有效的機率分佈!

例子(表格):想像一個三面的轉盤。
\( x \):1, 2, 3
\( P(X=x) \):0.2, 0.5, 0.3
在這裡,\( 0.2 + 0.5 + 0.3 = 1.0 \)。它是有效的!

例子(公式):有時機率會以函數形式給出,例如 \( P(X=x) = kx \),其中 \( x = 1, 2, 3 \)。若要找出 \( k \),你需要將 \( 1k + 2k + 3k \) 相加並令其等於 1。

重點回顧:

核心概念:離散分佈處理的是「可數」的結果,且「地圖」上的所有機率總和必須恰好為 1。


2. 二項分佈

二項分佈(Binomial Distribution)是一種特殊類型的分佈,用於我們有固定次數的試驗,且只有兩種可能的結果時:成功(Success)失敗(Failure)

我們何時可以使用它?(BINS 記憶法)

要使用二項模型,必須滿足四個條件。請記住 BINS

  • B - Binary(二元):只有兩種結果(成功或失敗)。
  • I - Independent(獨立):一次試驗的結果不會影響下一次。
  • N - Number(次數):試驗次數是固定的(\( n \))。
  • S - Success(成功):每次試驗成功的機率(\( p \))都是相同的。

符號表示:我們寫作 \( X \sim B(n, p) \)。
其中 \( n \) 是試驗次數,\( p \) 是成功機率。

你知道嗎?「二項」(Binomial)一詞來自「Bi」(兩個)和「nom」(名稱/項)——指的是那兩種結果:成功和失敗!


3. 計算二項機率

要找出恰好獲得 \( x \) 次成功的機率,有兩種方法:使用公式或使用計算機。

公式法

在 \( n \) 次試驗中獲得恰好 \( x \) 次成功的機率為:
\( P(X=x) = \binom{n}{x} p^x (1-p)^{n-x} \)

讓我們拆解一下:

  • \( \binom{n}{x} \):這是安排成功次序的方法數(在計算機上使用 \( nCr \) 按鍵)。
  • \( p^x \):成功機率的 \( x \) 次方。
  • \( (1-p)^{n-x} \):失敗機率的失敗次數次方。

使用計算機(專業方法)

在 OCR 考試中,你需要會使用計算機的統計功能。

  • Binomial PD (Probability Density):用於找出精確數值的機率,例如 \( P(X = 3) \)。
  • Binomial CD (Cumulative Distribution):用於找出範圍的機率,特別是「不大於某數」(包含該數),例如 \( P(X \le 3) \)。

常見陷阱:如果題目要求「大於 3」(\( P(X > 3) \)),計算機無法直接運算。你必須計算 \( 1 - P(X \le 3) \)。永遠記住總機率是 1!

重點回顧:

核心概念:遇到「成功/失敗」的情境請使用 \( X \sim B(n, p) \)。求「恰好」用 PD;求「不大於」用 CD。隨時檢查是否需要用 \( 1 - \dots \) 來計算補集。


4. 模型與假設

在考試題目中,你經常會被要求評價(criticise)模型或陳述假設(assumptions)

  • 條件(Condition):數學運作所需的要求(例如:「試驗必須是獨立的」)。
  • 假設(Assumption):當你在真實情境中假設條件已滿足(例如:「我們假設一名學生感冒不會影響另一名學生感冒的機率」)。

例子:如果你從一個非常大的群體中抽取樣本,即使我們採取不放回抽樣,我們通常也會假設它們是獨立的,因為群體實在太大,機率的改變微乎其微。課程大綱指出,除非另有說明,否則你可以假設群體夠大,足以進行不放回抽樣。

小提醒:語境很重要!在解釋假設時,一定要結合題目的背景(例如談論「種子」、「汽車」或「投票」,而不僅僅是 \( n \) 和 \( p \))。


總結清單

1. 我所有離散機率的總和是否等於 1?
2. 該情境是否符合 BINS
3. 我是否已正確找出 \( n \)(試驗次數)和 \( p \)(成功機率)?
4. 求「恰好」時我有使用 PD 嗎?求「不大於」時我有使用 CD 嗎?
5. 如果題目問「至少(at least)」,我是用 \( 1 - P(X \le \dots) \) 來計算嗎?

你已經完成了統計分佈的筆記!持續練習使用計算機——這是熟習這些概念的最佳途徑。