歡迎來到博弈論的世界!

在本章中,我們將探索博弈論 (Game Theory),重點討論零和博弈 (zero-sum games)。這聽起來可能是一個複雜的主題,但其核心其實就是關於決策的數學研究。當你與另一個同樣想贏的人進行競爭時,我們用它來找出最佳的應對策略。

為什麼叫「零和」? 想像你和朋友打賭 5 英鎊。如果你贏了,你獲得 5 英鎊 (+5),而你的朋友輸掉 5 英鎊 (-5)。如果你們將兩者相加,總和就是零!在這些遊戲中,一方的收益恰好等於另一方的損失。這裡不存在「雙贏」的情況!

1. 支付矩陣 (Pay-off Matrix)

每一場博弈都始於一個支付矩陣。這只是一張顯示每種行動組合結果的表格。在 AQA Further Maths 中,我們通常有兩名參與者:行玩家 (Row Player)(我們叫她 Rose)和列玩家 (Column Player)(我們叫他 Colin)。

重要規則:矩陣中的數字始終代表行玩家 (Rose) 的收益。

  • 如果數字為正數,則行玩家贏得該金額。
  • 如果數字為負數,則列玩家贏得該金額(即行玩家輸掉該金額)。
範例:

Rose 在行動 A 和 B 之間選擇;Colin 在行動 X 和 Y 之間選擇。

\( \begin{pmatrix} & X & Y \\ A & 3 & -2 \\ B & -1 & 4 \end{pmatrix} \)

如果 Rose 出 A 而 Colin 出 X,Rose 贏得 3 分。如果 Rose 出 A 而 Colin 出 Y,Colin 贏得 2 分(因為對 Rose 來說是 -2)。

快速複習:讀取矩陣

Rose (行) 希望得到盡可能高的正數。
Colin (列) 希望得到盡可能小的負數(因為這意味著他贏了!)。

2. 尋找「穩健」策略 (Play-Safe Strategy)

如果起初覺得有點棘手也不用擔心;雙方其實都只是在保護自己,以應對最壞的情況。這被稱為穩健策略 (Play-Safe strategy)

對於行玩家 (Rose):

  1. 觀察每一行,找出最小值(Rose 在該行可能得到的最差結果)。
  2. 選擇對應這些最小值中最大值的行動。
  3. 這被稱為最大最小策略 (Maximin)

對於列玩家 (Colin):

  1. 觀察每一列,找出最大值(Colin 可能面臨的最差情況,因為這些是 Rose 的收益)。
  2. 選擇對應這些最大值中最小值的行動。
  3. 這被稱為最小最大策略 (Minimax)

關鍵點: Rose 想要最大化她的最小收益。Colin 想要最小化他的最大損失。

3. 穩定解與鞍點 (Saddle Points)

有時,Maximin 值等於 Minimax 值。當這種情況發生時,我們得到一個穩定解 (Stable Solution)(也稱為鞍點 (Saddle Point))。

如果博弈是穩定的,雙方都沒有理由改變策略。他們相遇的值被稱為博弈的值 (Value of the Game)

如何證明存在穩定解:

  1. 找出各行的最小值,再找出其中的最大值 (Maximin)。
  2. 找出各列的最大值,再找出其中的最小值 (Minimax)。
  3. 如果 Maximin = Minimax,該博弈即為穩定。
你知道嗎?並非每種博弈都有穩定解。如果 Maximin 不等於 Minimax,玩家就需要「混合」他們的行動,讓對手無法預測!

4. 優勢策略 (Dominated Strategies)

在求解大型矩陣之前,我們要檢查是否有任何行動是「垃圾」。如果存在另一種行動,無論對手做什麼,其結果總是更好或相等,那麼該策略就是被支配的 (dominated)

  • 對於 Rose (行):如果 B 行中的每個元素都大於或等於 A 行的相應元素,則 A 行被 B 行支配。Rose 永遠不會選 A,所以我們可以把它劃掉!
  • 對於 Colin (列):如果 Y 列中的每個元素都小於或等於 X 列的相應元素,則 X 列被 Y 列支配。記住,Colin 想要較小的數字!他永遠不會選 X,所以把它劃掉。

記憶技巧:Rose 喜歡大數字,Colin 喜歡小數字。如果一行比另一行小,刪除它;如果一列比另一列大,刪除它。

5. 最優混合策略 (圖解法)

如果沒有鞍點,Rose 不應該每次都選擇同一個行動。相反,她應該以機率 \( p \) 選擇行動 1,以機率 \( (1-p) \) 選擇行動 2。這就是混合策略 (Mixed Strategy)

2xN 博弈的逐步做法:

  1. 為 Rose 在 Colin 每種行動下的預期收益建立表達式。
    範例:如果 Rose 以機率 \( p \) 出 A、機率 \( 1-p \) 出 B,且 Colin 出 X,預期收益可能是 \( 3p - 1(1-p) \)。
  2. 將其簡化為 \( mp + c \) 的形式。
  3. 在圖上將這些直線畫出來,其中 x 軸為 \( p \) (從 0 到 1)。
  4. 找出所有線條的下邊界 (Lower Boundary)(由這些線條構成的「底部」輪廓)。
  5. 找出這個下邊界上的最高點。這就是 Maximin 點!

常見錯誤:學生經常尋找整個圖表的最高點。記住:Rose 是在最大化她的最小收益,所以你要找的是底部線條的最高點。

6. 高階博弈與線性規劃

當矩陣大於 2x2(且不能通過優勢策略簡化)時,我們使用線性規劃 (Linear Programming)。這與你在線性規劃章節學到的單純形法 (Simplex method) 有關。

如何將博弈轉化為線性規劃問題:

  1. 將所有值變為正數:如果矩陣有負數,給每個元素加上一個常數 \( k \) 使其全部 \( > 0 \)。這不會改變策略,只會改變最終的值。
  2. 設 Rose 選擇各行動的機率為 \( p_1, p_2, p_3 \)。
  3. Rose 想要最大化博弈的值 \( V \)。
  4. 約束條件由列形成:\( (\text{Payoff}_1)p_1 + (\text{Payoff}_2)p_2 + ... \geq V \)。
  5. 我們還知道 \( p_1 + p_2 + ... = 1 \)。

為了使用單純形法求解,我們通常會重新排列變量(令 \( x_i = \frac{p_i}{V} \)),將其轉變為標準的最大化問題:最小化 \( \frac{1}{V} = x_1 + x_2 + x_3 \)。

總結檢查清單

  • 我能從應用題中構建矩陣嗎?(DF1)
  • 我能找出 Maximin 和 Minimax 來檢查是否存在鞍點嗎?(DF2 & DF3)
  • 我是否檢查過被支配的行和列來簡化博弈?(DF4)
  • 我能為 2xN 博弈畫圖並找出最優的 \( p \) 嗎?(DF5)
  • 我知道如何為 3x3 博弈設定線性規劃約束嗎?(DF6)

你一定能行的!記住:Rose 想要在底部輪廓中站得越高越好,而 Colin 想要在頂部輪廓中站得越低越好!