重覆博弈
出自 MBA智库百科(https://wiki.mbalib.com/)
重覆博弈(Repeated Games)
目錄 |
顧名思義,重覆博弈是指同樣結構的博弈重覆許多次,其中的每次博弈稱為“階段博弈”(stage games)[1]。重覆博弈是動態博弈中的重要內容,它可以是完全信息的重覆博弈,也可以是不完全信息的重覆博弈。
在重覆博弈中,每次博弈的條件、規則和內容都是相同的, 但由於有一個長期利益的存在, 因此各博弈方在當前階段的博弈中要考慮到不能引起其它博弈方在後面階段的對抗、報複或惡性競爭, 即不能象在一次性靜態博弈中那樣毫不顧及其它博弈方的利益。有時, 一方做出一種合作的姿態, 可能使其它博弈方在今後階段採取合作的態度, 從而實現共同的長期利益。
下麵給出兩個重要定義:
定義1:可信性是指動態博弈中先行動的博弈方是否該相信後行動的博弈方會採取對自己有利或不利的行為。
定義2:如果動態博弈中各博弈方的策略在動態博弈本身和所有子博弈中都構成均衡, 則稱該策略組合具有子博弈完美性。
在重覆博弈中, 可信性同樣是非常重要的, 也即子博弈完美性仍是判斷均衡是否穩定可靠的重要依據, 又由於長期利益對短期行為的制約作用, 因此有一些在一次性博弈中不可行的威脅或諾言在重覆博弈中會變為可信的, 從而使博弈的均衡結果出現更多的可能性。
1、階段博弈之間沒有物質上的聯繫,也就是說,前一階段的博弈不改變後一階段的結構。
2、所有參與人觀察到博弈過去的歷史。
3、參與人的總得益是所有階段博弈得益的貼現值之和。
如果博弈不是一次的,而是重覆進行的,參與人過去行動的歷史是可以觀察到的,參與人就可以將自己的選擇依賴於其他人之前的行動,因而有了更多的策略可以選擇,均衡結果可能與一次博弈大不相同。
重覆博弈的例子[1]
以下我們用一個產品定價的例子討論重覆博弈,給出了一次性完全信息靜態博弈的收益矩陣。
A、B兩個參與人都有兩種定價待選擇:定高價或定低價。如果兩個參與人都定低價,則每個參與人的收益均為20個單位;如果兩人都定高價,則每人的收益均為30個單位;如果其中某一參與人定低價,而另一參與人定高價,則定低價的參與人有占有更多的市場份額獲得40個單位的收益,定高價的參與人由於失去一部分市場份額而只獲得10個單位的收益。顯然,在這個一次性完全信息靜態博弈中,兩個參與人均有占優策略,占優策略均衡為A、B雙方都定低價。
如果A、B之間的定價博弈是多次進行的,那麼,問題就不是如此簡單了。我們先來分析博弈重覆次數為無限時的情況。
如果A、B雙方都選擇合作,都保持定高價,則雙方在每個階段的收益均為30個單位,記為(30,30,30,…);如果A、B中有一方(如A)採取投機行為,在實際定價中選擇不與對方合作,在第一階段就通過選擇定價策略使得選擇高價策略的對手B受損,則受損的一方B一定會在第二階段及其以後的定價中也選擇低價策略,加以報複,這樣一來,首先選擇不合作的一方A在個階段的收益為(40,20,20,…),顯然,其總收益遠遠小於合作、維持高價情況下的總收益。因為,首選選擇不合作的一方A,只是在第一階段獲得了“額外”收益,但在以後個階段的收益將因為對手B的報複性選擇而減少,並且,重覆若幹此後,首先選擇不合作的一方A將得不償失。
在這裡,B選擇的策略稱為“冷酷策略”(grim strategies)。冷酷策略是指重覆博弈中的任何參與人的一次性不合作將引起其他參與人的永遠不合作,從而導致所有參與人的收益減少。因此,所有參與人具有維持合作的積極性。我們再來討論博弈重覆次數為有限時的情況。
重覆次數有限博弈與重覆次數無限博弈之間的惟一區別,是所有參與人都可以明確無誤地瞭解重覆的次數,即可以準確地預測到最後一個階段博弈。而在最後階段的博弈中,任何一個參與人選擇不合作,不會導致其他參與人的報複。因此,所有參與人都會在最後階段的博弈中選擇自己的占優策略,那就是不合作。上例中,在最後階段博弈中選擇低價是所有參與人的占優策略。
既然所有參與人都會在最後階段選擇不合作,那麼,在倒數第二階段博弈中任何參與人也就沒有必要擔心由於自己選擇不合作,導致其他參與人在最後階段博弈中的報複。因此所有參與人在倒數第二階段博弈中,也都會選擇不合作。即在倒數第二階段博弈中,所有參與人都會選擇占優策略。
由此類推,可以得出以下結論:在階段性博弈存在惟一的納什均衡時,階段博弈的納什均衡解就是重覆次數有限博弈的唯一子博弈精煉納什均衡解。即重覆次數有限博弈的每個階段的均衡解都是一次性博弈的納什均衡解。註意,上述推論成立的前提條件是階段性博弈納什均衡的惟一性。
這種博弈很好,道理也很簡單,理解也不難,我頂你,