Modelling with probability - Mathematics B (MEI) - H640 - Cambridge OCR A Level

簡介：為何要進行機率建模？

歡迎來到 A Level 統計學課程中最實用的部分！建模（Modelling）的過程，就是將現實中複雜凌亂的情況簡化為數學框架。在本章中，我們將專注於如何選擇合適的「工具」（例如二項分佈或常態分佈）來呈現現實生活中的情境。

你可以把數學模型想像成一張地圖。地圖並非真實的地面——它只是一個幫助你導航的簡化版本。如果地圖太簡單，你會迷路；如果太複雜，你又會看不懂。學習「機率建模」就是要找到那個完美的平衡點！

1. 什麼是好的模型？

統計模型是對現實世界過程的簡化描述。我們使用模型來計算機率並進行預測，而不必在現實中測試每一種可能性。

要建立一個模型，我們必須做出假設（Assumptions）。假設是為了讓數學運算可行而「預設」成立的條件。例如，拋硬幣時，我們會假設硬幣是「公平的」，且每一次拋擲都不會影響下一次。

快速重溫：離散與連續

在選擇模型之前，請先檢查你的數據類型：

離散數據（Discrete Data）： 你可以數出來的事物（例如：學生人數、入球數）。我們通常在這裡使用二項分佈（Binomial Distribution）。
連續數據（Continuous Data）： 你可以測量出來的事物（例如：身高、時間、重量）。我們通常在這裡使用常態分佈（Normal Distribution）。

重點總結： 模型的準確度取決於其假設。如果你的假設是錯的，預測結果也會跟著出錯！

2. 評估二項分佈模型

二項分佈（Binomial Distribution） \( B(n, p) \) 是離散數據的經典模型。但你不能把它套用在所有情況！要使用它，情境必須通過「BINS」測試。

BINS 測試

B – 二元（Binary）： 結果是否只有兩種？（成功或失敗）。
I – 獨立（Independent）： 一次試驗是否對下一次沒有任何影響？
N – 次數（Number）： 試驗次數（\( n \)）是否固定？
S – 成功率（Success）： 每次成功的機率（\( p \)）是否始終保持不變？

二項模型失效的時候（現實案例）

如果起初覺得這些判斷有點棘手也不用擔心；識別模型缺陷是一項隨著練習而提升的技能！以下是二項模型可能不適用的常見原因：

例子 1：預測下週每天會不會下雨。
缺陷： 獨立性。如果今天下雨，受低壓系統持續影響，明天降雨的機率會更高。因此，各次試驗並不獨立。

例子 2：投籃直到投進 5 球為止。
缺陷： 固定試驗次數。在這裡，試驗次數（\( n \)）不是固定的；你必須一直投直到達成目標。這不符合 BINS 中的 "N"。

例子 3：學生在 10 題測驗中的表現。
缺陷： 固定成功機率。當學生感到疲倦，或題目難度越往後越高時，答對題目（\( p \)）的機率可能會改變。這不符合 BINS 中的 "S"。

你知道嗎？ 在生物學中，二項模型常被用來預測後代的性別，但即使在那裡，科學家也一直在爭論「生男」的機率在所有家庭中是否真的完全恆定！

3. 評估常態分佈模型

常態分佈（Normal Distribution） \( X \sim N(\mu, \sigma^2) \) 就是所謂的「鐘形曲線」。它是處理身高或考試分數等連續數據的首選模型。

何時使用常態分佈模型

數據必須是連續的。
分佈必須是對稱的（平均值兩側看起來是一樣的）。
大多數數據點都集中在平均值（Mean）附近，遠離平均值（尾部）的數據非常少。

常態模型失效的時候

有時候「鐘形曲線」並不符合真實數據的狀況：

偏態（Skewness）： 如果數據在某一側有「長尾」（例如房價或收入，少數億萬富翁會把平均值拉高），那麼常態模型將具有誤導性。
離散數據： 常態分佈是用於連續測量的。如果你試圖用常態曲線為「家庭成員人數」建模，你可能會得到「2.4 個孩子」這樣的結果，這在現實中是不可能的！
離群值（Outliers）： 如果極端值的出現頻率比模型預測的更高（例如股市中的「黑天鵝」事件），那麼常態模型就顯得過於簡單了。

記憶小撇步： 把常態曲線想像成一座山。如果你的數據看起來像一個懸崖（數據集中在一側）或是平坦的平原，那麼常態模型就不是正確的地圖！

4. 優化模型：讓它變得更好

如果你發現模型「不適用」，你有兩個選擇：修正（Refine）假設，或更換模型。

常見的優化方法

1. 連續性校正（Continuity Correction）： 如果你使用連續模型（常態）來近似離散模型（二項），則必須進行調整。例如，若要求「至少 5 次」（\( X \ge 5 \)），在常態模型中你實際需要計算 \( P(X > 4.5) \)。
2. 分段處理（Segmenting）： 如果 \( p \) 不是常數（如天氣），你可以將早上和下午分開建模，使每個分組內的機率保持穩定。

評估「潛在影響」

考試常問：「如果這個假設錯誤，會造成什麼影響？」

如果你假設獨立性，但實際上試驗是相關的，你的模型通常會低估極端連勝（例如連續贏 10 場）出現的機會。
如果你假設機率固定，但實際上機率一直在下降，你的模型將會高估成功的總次數。

總結表：如何選擇你的模型

快速重溫表：

特徵	二項分佈 \( B(n, p) \)	常態分佈 \( N(\mu, \sigma^2) \)
數據類型	離散（計數）	連續（測量）
形狀	可以是偏態	必須是對稱的
關鍵假設	獨立性 & 機率 \( p \) 固定	鐘形分佈 & 無離群值

避免常見錯誤

錯誤： 在進行二項分佈計算前，忘記檢查「BINS」準則。請務必註明該情境為何符合條件。
錯誤： 對明顯呈現偏態的數據（如人們花在社交媒體上的時間）使用常態分佈。
錯誤： 假設樣本大就一定是常態分佈。樣本大小無法修正錯誤的數據形狀！

最後鼓勵： 建模比起解方程式感覺可能比較「模糊」，但這正是數學真正威力所在。不要害怕批評模型——在現實世界中，頂尖的統計學家正是那些清楚知道自己模型何時會失效的人！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。