Game theory for zero-sum games - Further Mathematics 7367 - AQA A Level

歡迎來到博弈論的世界！

在本章中，我們將探索博弈論 (Game Theory)，重點討論零和博弈 (zero-sum games)。這聽起來可能是一個複雜的主題，但其核心其實就是關於決策的數學研究。當你與另一個同樣想贏的人進行競爭時，我們用它來找出最佳的應對策略。

為什麼叫「零和」？ 想像你和朋友打賭 5 英鎊。如果你贏了，你獲得 5 英鎊 (+5)，而你的朋友輸掉 5 英鎊 (-5)。如果你們將兩者相加，總和就是零！在這些遊戲中，一方的收益恰好等於另一方的損失。這裡不存在「雙贏」的情況！

1. 支付矩陣 (Pay-off Matrix)

每一場博弈都始於一個支付矩陣。這只是一張顯示每種行動組合結果的表格。在 AQA Further Maths 中，我們通常有兩名參與者：行玩家 (Row Player)（我們叫她 Rose）和列玩家 (Column Player)（我們叫他 Colin）。

重要規則：矩陣中的數字始終代表行玩家 (Rose) 的收益。

如果數字為正數，則行玩家贏得該金額。
如果數字為負數，則列玩家贏得該金額（即行玩家輸掉該金額）。

範例：

Rose 在行動 A 和 B 之間選擇；Colin 在行動 X 和 Y 之間選擇。

\( \begin{pmatrix} & X & Y \\ A & 3 & -2 \\ B & -1 & 4 \end{pmatrix} \)

如果 Rose 出 A 而 Colin 出 X，Rose 贏得 3 分。如果 Rose 出 A 而 Colin 出 Y，Colin 贏得 2 分（因為對 Rose 來說是 -2）。

快速複習：讀取矩陣

Rose (行) 希望得到盡可能高的正數。
Colin (列) 希望得到盡可能小的負數（因為這意味著他贏了！）。

2. 尋找「穩健」策略 (Play-Safe Strategy)

如果起初覺得有點棘手也不用擔心；雙方其實都只是在保護自己，以應對最壞的情況。這被稱為穩健策略 (Play-Safe strategy)。

對於行玩家 (Rose)：

觀察每一行，找出最小值（Rose 在該行可能得到的最差結果）。
選擇對應這些最小值中最大值的行動。
這被稱為最大最小策略 (Maximin)。

對於列玩家 (Colin)：

觀察每一列，找出最大值（Colin 可能面臨的最差情況，因為這些是 Rose 的收益）。
選擇對應這些最大值中最小值的行動。
這被稱為最小最大策略 (Minimax)。

關鍵點： Rose 想要最大化她的最小收益。Colin 想要最小化他的最大損失。

3. 穩定解與鞍點 (Saddle Points)

有時，Maximin 值等於 Minimax 值。當這種情況發生時，我們得到一個穩定解 (Stable Solution)（也稱為鞍點 (Saddle Point)）。

如果博弈是穩定的，雙方都沒有理由改變策略。他們相遇的值被稱為博弈的值 (Value of the Game)。

如何證明存在穩定解：

找出各行的最小值，再找出其中的最大值 (Maximin)。
找出各列的最大值，再找出其中的最小值 (Minimax)。
如果 Maximin = Minimax，該博弈即為穩定。

你知道嗎？並非每種博弈都有穩定解。如果 Maximin 不等於 Minimax，玩家就需要「混合」他們的行動，讓對手無法預測！

4. 優勢策略 (Dominated Strategies)

在求解大型矩陣之前，我們要檢查是否有任何行動是「垃圾」。如果存在另一種行動，無論對手做什麼，其結果總是更好或相等，那麼該策略就是被支配的 (dominated)。

對於 Rose (行)：如果 B 行中的每個元素都大於或等於 A 行的相應元素，則 A 行被 B 行支配。Rose 永遠不會選 A，所以我們可以把它劃掉！
對於 Colin (列)：如果 Y 列中的每個元素都小於或等於 X 列的相應元素，則 X 列被 Y 列支配。記住，Colin 想要較小的數字！他永遠不會選 X，所以把它劃掉。

記憶技巧：Rose 喜歡大數字，Colin 喜歡小數字。如果一行比另一行小，刪除它；如果一列比另一列大，刪除它。

5. 最優混合策略 (圖解法)

如果沒有鞍點，Rose 不應該每次都選擇同一個行動。相反，她應該以機率 \( p \) 選擇行動 1，以機率 \( (1-p) \) 選擇行動 2。這就是混合策略 (Mixed Strategy)。

2xN 博弈的逐步做法：

為 Rose 在 Colin 每種行動下的預期收益建立表達式。
範例：如果 Rose 以機率 \( p \) 出 A、機率 \( 1-p \) 出 B，且 Colin 出 X，預期收益可能是 \( 3p - 1(1-p) \)。
將其簡化為 \( mp + c \) 的形式。
在圖上將這些直線畫出來，其中 x 軸為 \( p \) (從 0 到 1)。
找出所有線條的下邊界 (Lower Boundary)（由這些線條構成的「底部」輪廓）。
找出這個下邊界上的最高點。這就是 Maximin 點！

常見錯誤：學生經常尋找整個圖表的最高點。記住：Rose 是在最大化她的最小收益，所以你要找的是底部線條的最高點。

6. 高階博弈與線性規劃

當矩陣大於 2x2（且不能通過優勢策略簡化）時，我們使用線性規劃 (Linear Programming)。這與你在線性規劃章節學到的單純形法 (Simplex method) 有關。

如何將博弈轉化為線性規劃問題：

將所有值變為正數：如果矩陣有負數，給每個元素加上一個常數 \( k \) 使其全部 \( > 0 \)。這不會改變策略，只會改變最終的值。
設 Rose 選擇各行動的機率為 \( p_1, p_2, p_3 \)。
Rose 想要最大化博弈的值 \( V \)。
約束條件由列形成：\( (\text{Payoff}_1)p_1 + (\text{Payoff}_2)p_2 + ... \geq V \)。
我們還知道 \( p_1 + p_2 + ... = 1 \)。

為了使用單純形法求解，我們通常會重新排列變量（令 \( x_i = \frac{p_i}{V} \))，將其轉變為標準的最大化問題：最小化 \( \frac{1}{V} = x_1 + x_2 + x_3 \)。

總結檢查清單

我能從應用題中構建矩陣嗎？(DF1)
我能找出 Maximin 和 Minimax 來檢查是否存在鞍點嗎？(DF2 & DF3)
我是否檢查過被支配的行和列來簡化博弈？(DF4)
我能為 2xN 博弈畫圖並找出最優的 \( p \) 嗎？(DF5)
我知道如何為 3x3 博弈設定線性規劃約束嗎？(DF6)

你一定能行的！記住：Rose 想要在底部輪廓中站得越高越好，而 Colin 想要在頂部輪廓中站得越低越好！

* thinka提供的內容由AI生成，可能並非總是準確或最新。請將其用作輔助資源，並與官方材料進行核實。