歡迎來到博弈論的世界!
你好!今天我們要深入探討離散數學中最迷人的領域之一:博弈論 (Game Theory)。雖然它聽起來像是關於桌遊或電子遊戲,但實際上,它是一套強大的工具,被經濟學家、軍事規劃師,甚至生物學家廣泛使用,用來預測當各方的利益發生衝突時,人(或動物)會如何做出決策。
在本章中,我們將重點關注零和博弈 (zero-sum games)。這簡單來說就是一種情況:一方的所得正好等於另一方的損失。想像一下分披薩:你吃掉的每一片,都是你朋友吃不到的那一片。總體的「利益」是恆定的,因此收益與損失的總和為零。
如果剛開始覺得有點抽象,別擔心——我們將一步步為你拆解!
1. 理解並構建收益矩陣 (DF1)
要分析一場博弈,我們需要整理相關資訊。我們使用收益矩陣 (pay-off matrix),這是一張顯示所有可能行動組合下結果的表格。
基本概念:
- 通常有兩名玩家:玩家 A(「行」玩家)和 玩家 B(「列」玩家)。
- 矩陣中的數字代表玩家 A 的收益。
- 如果數字是正數,代表玩家 A 贏得該金額,而玩家 B 輸掉該金額。
- 如果數字是負數,代表玩家 A 輸掉該金額,而玩家 B 贏得該金額。
例子: 想像一個簡單的遊戲,玩家 A 選擇第 1 行或第 2 行,玩家 B 選擇第 1 列或第 2 列。
\( \begin{pmatrix} 3 & -2 \\ -1 & 4 \end{pmatrix} \)
在這個矩陣中,如果 A 選擇第 1 行,B 選擇第 2 列,收益為 -2。這意味著玩家 A 輸了 2 分,而玩家 B 贏了 2 分。
快速回顧: 矩陣總是從玩家 A 的角度來展示博弈。玩家 A 希望數值越大越好,而玩家 B 則希望數值越小越好(因為對 A 來說的損失就是對 B 的獲利)。
2. 「保守」策略 (DF2)
在博弈論中,我們假設兩位玩家都很聰明,並試圖保護自己。這引出了保守策略 (play-safe strategy)。與其賭一把大的勝利,玩家會查看每種選擇的最壞情況,並選出其中「損害最小」的一個。
玩家 A 如何保守(最大最小原則 Maximin):
- 針對每一行,找出最小值(即該行 A 可能得到的最差結果)。
- 從這些最小值中,選出最大值。
- 這被稱為最大最小 (Maximin) 值。
玩家 B 如何保守(最小最大原則 Minimax):
- 針對每一列,找出最大值(即該列 B 可能得到的最差結果,因為數字越大對 B 越不利)。
- 從這些最大值中,選出最小值。
- 這被稱為最小最大 (Minimax) 值。
記憶小撇步: 玩家 A 是 Maximin 者(想在最差的情況下求最好)。玩家 B 是 Minimax 者(想在最高的情況下求最低)。
博弈的值 (Value of the Game): 如果玩家都採取這些保守策略,最終的結果稱為博弈的值。
3. 穩定解與鞍點 (DF3)
有時,兩位玩家都會意識到某個特定的行動組合是雙方能期望的最佳結果。當 Maximin 等於 Minimax 時,就會發生這種情況。
關鍵術語:鞍點 (Saddle Point)
如果 Maximin = Minimax,博弈就有一個穩定解。此處的數值稱為鞍點。在一個穩定的博弈中,如果再玩一次,任何一方都沒有理由改變策略。
類比: 想像一個山脊通道(馬鞍)。如果你沿著山脊走(玩家 B 試圖保持低值),它是最低點;但如果你從山谷往上爬(玩家 A 試圖保持高值),它就是最高點。
結論: 如果 Maximin \( \neq \) Minimax,則沒有穩定解,玩家可能需要「混合」他們的策略以保持不可預測性。
4. 被支配策略 (DF4)
在解決複雜的博弈之前,通常可以通過刪除被支配策略 (dominated strategies) 來簡化矩陣。被支配策略是一種非常糟糕的行動,聰明的玩家永遠不會選擇它。
如何識別:
- 針對行(玩家 A): 如果第 1 行中的每個數字都小於或等於對應的第 2 行數字,那麼第 1 行就是被支配的。玩家 A 總是會偏好第 2 行。刪除第 1 行!
- 針對列(玩家 B): 記住,B 希望數值越小越好。如果第 1 列中的每個數字都大於或等於對應的第 2 列數字,那麼第 1 列就是被支配的。玩家 B 總是會偏好第 2 列。刪除第 1 列!
常見錯誤: 學生常忘記對玩家 B 來說,「越大越糟」。刪除列時請務必再次檢查!
5. 混合策略與圖解法 (DF5)
如果博弈沒有鞍點,玩家就不應該每次都只選同一個動作,否則對手就會識破!相反,他們會使用混合策略 (mixed strategy)——以一定的機率來執行不同的行動。
對於 AQA 課程,你需要掌握如何通過圖解法來解決 \( 2 \times n \) 或 \( n \times 2 \) 的博弈問題。
玩家 A(2 行)的步驟:
- 設玩家 A 選擇第 1 行的機率為 \( p \)。
- 因此,選擇第 2 行的機率為 \( (1 - p) \)。
- 對於玩家 B 的每個選項(列),寫出一個表示期望收益 (expected gain) 的算式。
例子: 如果第 1 列的值為 3 和 1,算式即為 \( 3p + 1(1-p) \)。 - 簡化這些算式(例如:\( 2p + 1 \))。
- 在以 \( p \)(從 0 到 1)為 x 軸、期望收益為 y 軸的圖表上,將這些算式畫成直線。
- 找出所有線條的下邊界 (lower boundary)(即「底線」)。
- 該下邊界上的最高點即為最佳策略!
你知道嗎? 這種圖解法本質上是在所有可能的機率中尋找「最差結果中的最好結果」。它確保了無論玩家 B 怎麼做,玩家 A 的平均勝算至少能達到某個特定水準。
快速複習箱:
1. 穩定博弈: Maximin = Minimax。使用純策略(單一動作)。
2. 不穩定博弈: Maximin \( \neq \) Minimax。使用混合策略(機率分配)。
3. 行: 數值越大越好。若整行皆小於另一行,則刪除該行。
4. 列: 數值越小越好。若整列皆大於另一列,則刪除該列。
如果剛開始畫圖覺得很慢,請別灰心。只要多畫幾次,你就會清楚地看出「V」形或「山」形的圖案。練習識別下邊界——這是整個過程的關鍵!