Game theory for zero-sum games - Further Mathematics 7366 - AQA AS Level

歡迎來到博弈論的世界！

你好！今天我們要深入探討離散數學中最迷人的領域之一：博弈論 (Game Theory)。雖然它聽起來像是關於桌遊或電子遊戲，但實際上，它是一套強大的工具，被經濟學家、軍事規劃師，甚至生物學家廣泛使用，用來預測當各方的利益發生衝突時，人（或動物）會如何做出決策。

在本章中，我們將重點關注零和博弈 (zero-sum games)。這簡單來說就是一種情況：一方的所得正好等於另一方的損失。想像一下分披薩：你吃掉的每一片，都是你朋友吃不到的那一片。總體的「利益」是恆定的，因此收益與損失的總和為零。

如果剛開始覺得有點抽象，別擔心——我們將一步步為你拆解！

1. 理解並構建收益矩陣 (DF1)

要分析一場博弈，我們需要整理相關資訊。我們使用收益矩陣 (pay-off matrix)，這是一張顯示所有可能行動組合下結果的表格。

基本概念：

通常有兩名玩家：玩家 A（「行」玩家）和 玩家 B（「列」玩家）。
矩陣中的數字代表玩家 A 的收益。
如果數字是正數，代表玩家 A 贏得該金額，而玩家 B 輸掉該金額。
如果數字是負數，代表玩家 A 輸掉該金額，而玩家 B 贏得該金額。

例子： 想像一個簡單的遊戲，玩家 A 選擇第 1 行或第 2 行，玩家 B 選擇第 1 列或第 2 列。

\( \begin{pmatrix} 3 & -2 \\ -1 & 4 \end{pmatrix} \)

在這個矩陣中，如果 A 選擇第 1 行，B 選擇第 2 列，收益為 -2。這意味著玩家 A 輸了 2 分，而玩家 B 贏了 2 分。

快速回顧： 矩陣總是從玩家 A 的角度來展示博弈。玩家 A 希望數值越大越好，而玩家 B 則希望數值越小越好（因為對 A 來說的損失就是對 B 的獲利）。

2. 「保守」策略 (DF2)

在博弈論中，我們假設兩位玩家都很聰明，並試圖保護自己。這引出了保守策略 (play-safe strategy)。與其賭一把大的勝利，玩家會查看每種選擇的最壞情況，並選出其中「損害最小」的一個。

玩家 A 如何保守（最大最小原則 Maximin）：

針對每一行，找出最小值（即該行 A 可能得到的最差結果）。
從這些最小值中，選出最大值。
這被稱為最大最小 (Maximin) 值。

玩家 B 如何保守（最小最大原則 Minimax）：

針對每一列，找出最大值（即該列 B 可能得到的最差結果，因為數字越大對 B 越不利）。
從這些最大值中，選出最小值。
這被稱為最小最大 (Minimax) 值。

記憶小撇步： 玩家 A 是 Maximin 者（想在最差的情況下求最好）。玩家 B 是 Minimax 者（想在最高的情況下求最低）。

博弈的值 (Value of the Game)： 如果玩家都採取這些保守策略，最終的結果稱為博弈的值。

3. 穩定解與鞍點 (DF3)

有時，兩位玩家都會意識到某個特定的行動組合是雙方能期望的最佳結果。當 Maximin 等於 Minimax 時，就會發生這種情況。

關鍵術語：鞍點 (Saddle Point)
如果 Maximin = Minimax，博弈就有一個穩定解。此處的數值稱為鞍點。在一個穩定的博弈中，如果再玩一次，任何一方都沒有理由改變策略。

類比： 想像一個山脊通道（馬鞍）。如果你沿著山脊走（玩家 B 試圖保持低值），它是最低點；但如果你從山谷往上爬（玩家 A 試圖保持高值），它就是最高點。

結論： 如果 Maximin \( \neq \) Minimax，則沒有穩定解，玩家可能需要「混合」他們的策略以保持不可預測性。

4. 被支配策略 (DF4)

在解決複雜的博弈之前，通常可以通過刪除被支配策略 (dominated strategies) 來簡化矩陣。被支配策略是一種非常糟糕的行動，聰明的玩家永遠不會選擇它。

如何識別：

針對行（玩家 A）： 如果第 1 行中的每個數字都小於或等於對應的第 2 行數字，那麼第 1 行就是被支配的。玩家 A 總是會偏好第 2 行。刪除第 1 行！
針對列（玩家 B）： 記住，B 希望數值越小越好。如果第 1 列中的每個數字都大於或等於對應的第 2 列數字，那麼第 1 列就是被支配的。玩家 B 總是會偏好第 2 列。刪除第 1 列！

常見錯誤： 學生常忘記對玩家 B 來說，「越大越糟」。刪除列時請務必再次檢查！

5. 混合策略與圖解法 (DF5)

如果博弈沒有鞍點，玩家就不應該每次都只選同一個動作，否則對手就會識破！相反，他們會使用混合策略 (mixed strategy)——以一定的機率來執行不同的行動。

對於 AQA 課程，你需要掌握如何通過圖解法來解決 \( 2 \times n \) 或 \( n \times 2 \) 的博弈問題。

玩家 A（2 行）的步驟：

設玩家 A 選擇第 1 行的機率為 \( p \)。
因此，選擇第 2 行的機率為 \( (1 - p) \)。
對於玩家 B 的每個選項（列），寫出一個表示期望收益 (expected gain) 的算式。
例子： 如果第 1 列的值為 3 和 1，算式即為 \( 3p + 1(1-p) \)。
簡化這些算式（例如：\( 2p + 1 \)）。
在以 \( p \)（從 0 到 1）為 x 軸、期望收益為 y 軸的圖表上，將這些算式畫成直線。
找出所有線條的下邊界 (lower boundary)（即「底線」）。
該下邊界上的最高點即為最佳策略！

你知道嗎？ 這種圖解法本質上是在所有可能的機率中尋找「最差結果中的最好結果」。它確保了無論玩家 B 怎麼做，玩家 A 的平均勝算至少能達到某個特定水準。

快速複習箱：
1. 穩定博弈： Maximin = Minimax。使用純策略（單一動作）。
2. 不穩定博弈： Maximin \( \neq \) Minimax。使用混合策略（機率分配）。
3. 行：數值越大越好。若整行皆小於另一行，則刪除該行。
4. 列：數值越小越好。若整列皆大於另一列，則刪除該列。

如果剛開始畫圖覺得很慢，請別灰心。只要多畫幾次，你就會清楚地看出「V」形或「山」形的圖案。練習識別下邊界——這是整個過程的關鍵！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。