占優均衡
出自 MBA智库百科(https://wiki.mbalib.com/)
占優均衡(Dominant Equilibrium)
目錄 |
什麼是占優均衡[1]
當博弈的所有參與者都不想改換策略時所達到的穩定狀態叫做均衡,均衡的結果叫做博弈的解。例如在甲乙兩人博弈中,如果達到一種均衡:不管甲如何選擇,乙都不會改變策略,同樣無論乙如何選擇,甲也不會改變策略,這種均衡就叫做占優均衡。這種無論對方如何決策,自己總是會選擇的策略叫做占優策略,由雙方的占優策略所達成的均衡叫做占優均衡。
占優均衡實例分析[2]
在博弈論中,當所有博弈者都有一個占優戰略時,其結果將是占優均衡。占優均衡是每一個參與者都處於優勢戰略時的均衡。例如,在本辭條後的案例中,囚徒A和B均處於一個兩難困境中,即無論B如何選擇,A的最好戰略就是交代,而無論A如何選擇,B的最好戰略也是交代,在此,囚徒兩難困境的均衡就是占優均衡。如果每個囚徒都根據自己的最高利益來進行抉擇,那麼,這個博弈的最終結果就是每個人都交代。
以上面案例中占優戰略里的囚徒困境為例,先從A的觀點來看問題,A認識到他的結果取決於B採取的行為,如果B交代則必然使A也選擇交代,因為在這種情況下,他寧願被判刑8年,而不願被判刑10年。但是如果B不交代,這也會使A選擇交代,因為在這種情況下,他可以被立即釋放而不是被判刑1年。A的推理是,無論B如何選擇,他的最好行為是交代。從B的觀點看也和A一樣,B知道如果A交代,他不交代將被判刑10年,他交代則只被判刑8年。如果A不交代,他交代將被立即被釋放,而不是被判刑1年。因此,無論A如何行動,B最好的選擇是交代。每個囚徒都知道無論對方如何做,自己最好的選擇是交代。由於每個囚徒的最好選擇是交代,每個人也都交代了,所以最終兩人都被判刑8年,這個均衡就是占優均衡。
從囚徒的角度看,博弈的均衡是每個人都交代,但這卻並不是最好的結果。如果他們都不交代,每個人都只會被判刑1年。有得到這種均衡的可能嗎?似乎沒有,因為兩個囚徒不可能相互聯繫,每個囚徒都可以把自己放在對方的地位,這樣每個囚徒都可以估計到存在一種對每個人都具有決定性意義的戰略。囚徒的確處在兩難困境之中,每個囚徒都知道,只要他相信對方不交代,就可以只被判刑1年。但是每個囚徒也都知道,不交代顯然不符合對方的最高利益,因此,每個囚徒都知道,他必須交代,從而兩個人都得到了壞結果。
案例:兩個嫌疑犯作案後被警察抓住,分別關在不同的房間里接受審訊。警察知道兩人有罪,但缺乏足夠的證據定罪,除非兩個人中至少有一個人坦白。警察於是告訴每個人:如果兩人都不承認,每個人都將會以輕微的犯罪被判刑1年;如果兩人都坦白,各判刑8年;如果兩個人中一個坦白另一個人抵賴,坦白的人將被立即釋放出去,而抵賴的則被判刑10年,這樣,每個嫌疑犯都面臨四個結果,可得到下列支付矩陣:
囚犯A
的對策 | 囚犯B的對策 | ||
坦白 | 抵賴 | ||
坦白 | 8年,8年 | 立即釋放,10年 | |
抵賴 | 10年,立即釋放 | 1年,1年 |
在這個博弈中每個嫌疑犯都有兩種可能的選擇:坦白或抵賴。顯然,不論同伙選擇什麼樣的戰略,每個囚徒的最優戰略是坦白,比如,如果B選擇坦白,A也選擇坦白時的支付是被判刑8午,選擇抵賴時的支付是被判刑10牟,因而對A來說坦白比抵賴好;如果B選擇抵賴,A坦白時的支付為立即被釋放,抵賴時的支付為被判刑Ⅱ年,因而坦白還是比抵賴好。就是說,“坦白”是囚徒A的占優戰略。類似地,“坦白”也是囚犯B的占優戰略。