歡迎來到博弈論的世界!
你有沒有玩過「剪刀、石頭、布」,並試圖預測朋友下一步會出什麼?又或是好奇企業在競爭對手虎視眈眈的情況下,是如何制定價格的?這就是博弈論(Game Theory)的應用!在「決策數學 2」(Decision Mathematics 2)這一章中,我們將探討當兩個「玩家」的成功取決於對方的選擇時,他們該如何做出最佳決策。這本質上就是策略的數學。
1. 基本概念:二人零和博弈
在深入計算之前,我們需要先了解在 8FM0 中所研究博弈的「規則」。
關鍵術語:
- 二人博弈(Two-person game): 簡單來說,就是正好有兩名玩家參與的遊戲。
- 零和博弈(Zero-sum game): 指一方的收益正好等於另一方的損失。如果我贏了 £5,你就輸了 £5。我們雙方分數的「總和」永遠為零。
- 收益矩陣(Pay-off Matrix): 一張顯示遊戲結果的表格。在考試中,此矩陣幾乎總是從行玩家(Row Player)的角度編寫的。
例子: 想像一個數值為 \( 4 \) 的矩陣。這意味著行玩家贏得 4 分,而列玩家(Column Player)輸掉 4 分。如果數值為 \( -3 \),則行玩家輸掉 3 分,列玩家贏得 3 分。
快速回顧:
正數 = 行玩家贏 / 列玩家輸。
負數 = 行玩家輸 / 列玩家贏。
重點總結
在零和博弈中,玩家之間存在完全的衝突。行玩家希望矩陣中的數值越大越好,而列玩家則希望數值越小(或負數越多)越好。
2. 保守策略與穩定解
大多數玩家都是「悲觀主義者」——他們會假設對方正以完美的策略試圖擊敗自己。正因如此,他們會採用保守策略(play-safe strategy),以確保無論對手做什麼,自己都能保證獲得一個最低限度的結果。
步驟拆解:如何找出保守策略
對於行玩家(「最大值最小值」Maximin 策略):
1. 查看每一行,找出其中的最小值(即該選項最壞的情況)。
2. 從這些最小值中,選出最大的一個。這就是行最大最小值(Row Maximin)。
記憶法:「行玩家想要『最壞情況中的最好結果』。」
對於列玩家(「最小值最大值」Minimax 策略):
1. 查看每一列,找出其中的最大值(這對列玩家來說是最壞的情況,因為行玩家贏得越多)。
2. 從這些最大值中,選出最小的一個。這就是列最小值最大值(Column Minimax)。
記憶法:「列玩家想要『將最大損失最小化』。」
穩定解(鞍點)
有時候,行最大最小值與列最小值最大值是同一個數字。當這種情況發生時,我們就得到了穩定解(Stable Solution),也稱為鞍點(Saddle Point)。
你知道嗎? 在穩定解中,任何一方都無法通過單方面改變策略來改善自己的結果。如果他們改變策略,結果只會更糟!
重點提示: 一個博弈是「穩定」的,當且僅當:
\( \text{Row Maximin} = \text{Column Minimax} \)
重點總結
永遠記得先檢查是否有鞍點!如果最大最小值等於最小值最大值,博弈問題就已經解決了,你不需要進行任何複雜的圖表繪製。
3. 最優混合策略(圖解法)
如果沒有鞍點怎麼辦?如果你一直選擇同一個「安全」行,對手最終會識破你的規律並擊敗你。為了保持不可預測性,你必須使用混合策略(Mixed Strategy)。
在混合策略中,你以一定的機率執行不同的選項。對於 AS Level 8FM0,你只需要學會如何通過圖解法解決 \( 2 \times n \) 或 \( n \times 2 \) 的博弈(即其中一名玩家只有 2 個選項的情況)。
如何解決 \( 2 \times n \) 博弈(行玩家有 2 個選項)
別擔心,這看起來可能有點複雜,但圖表會幫你完成大部分工作!
1. 定義機率: 假設行玩家以機率 \( p \) 選擇策略 1。因此,他們必須以機率 \( (1 - p) \) 選擇策略 2。
2. 寫出期望收益: 對於列玩家的每個選擇,寫出一個關於期望收益的方程式。
例子: 如果列玩家選擇某種策略,使得行玩家在選項 1 中贏得 3 分,在選項 2 中贏得 5 分,則方程式為: \( V = 3p + 5(1-p) \)。
3. 繪製圖表: 繪製一個圖表,橫軸為 \( p \)(從 0 到 1),縱軸為期望收益 \( V \)。
4. 畫出直線: 列玩家的每一個策略在你的圖表上都會變成一條直線。
5. 找出「下邊界上的最高點」: 由於行玩家想要最大化他們的最小收益,請觀察所有直線的最底層「邊緣」(下包絡線)。找出該邊界上的最高點。
6. 計算: 這一點通常是兩條直線的交點。將這兩個方程式聯立求解,即可找出 \( p \) 的最優值。
避免常見錯誤
當解決 \( n \times 2 \) 博弈(即列玩家有 2 個選項)時,過程類似,但你要尋找的是上邊界上的最低點。這是因為列玩家想要最小化行玩家能獲得的最大收益。
重點總結
圖解法將策略問題轉化為視覺問題。行玩家尋找「最高的地板」(下邊界),而列玩家尋找「最低的天花板」(上邊界)。
複習小結
1. 收益矩陣: 永遠從行玩家的角度閱讀。
2. 保守策略: 找出行最大最小值(Row Maximin)和列最小值最大值(Column Minimax)。
3. 鞍點: 如果 Maximin = Minimax,則博弈是穩定的。
4. 混合策略: 當沒有鞍點時使用。利用 \( p \) 和 \( (1-p) \) 建立線性方程式,並通過圖表求解。
5. 博弈價值(Value of the Game): 這是雙方都採取最優策略時的預期收益。
你一定做得到!練習時仔細繪製圖表,並記得標註坐標軸。博弈論其實就是如何在競爭環境中找到最佳路徑的藝術。