顫抖手精煉均衡

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

顫抖手精煉均衡（trembling hand perfect equilibrium）

什麼是顫抖手精煉均衡

　　“顫抖手精煉均衡”概念是澤爾騰提出的對納什均衡的一個改進。顫抖手精煉均衡的基本思想是:在任何一個博弈中，每個局中人都有一定的犯錯誤的可能性(類似一個人用手抓東西時，手一顫抖，他就抓不住他想抓的東西)。一個策略對是一個顫抖手精煉均衡時，它必須具有如下性質:各局中人ｉ要採用的策略，不僅在其他局中人不犯錯誤時是最優的，而且在其他局中人偶爾犯錯誤(概率很小，但大於0)時還是最優的。可以看出，顫抖手精煉均衡是一種較穩定的均衡。

　　從博弈論中我們知道，澤爾騰的這種“顫抖手均衡(trembling hand equilibrium)”也是一種精煉納什均衡。大致說來，澤爾騰(1975)假定，在博弈中存在一種數值極小但又不為0的概率，即在每個博弈者選擇對他來說所有可行的一項策略時，可能會偶爾出錯，這就是所謂的“顫抖之手”。因之，一個博弈者的均衡策略是在考慮到其對手可能“顫抖”(偶爾出錯)的情況下對其對手策略選擇所作的最好的策略回應。單從這一點來看，在演進博弈論中，最初的演進穩定性的出現，並不完全來自博弈雙方的理性計算，而實際上可能是隨機形成的(往往取決於博弈雙方“察言觀色”的一念之差)。按照這一分析思路，我們也可以認為，人們對一種習俗(演進穩定性)的偏離，也可能出自澤爾騰所說的那種人們社會博弈中的“顫抖”。

[編輯]

顫抖手精煉均衡的價值

　　為了說明顫抖手精煉均衡的價值，我們考慮一個具有兩個“委托人—代理人”對和兩種自然狀態的對稱支付模型。設代理人1的策略有:α1(積極工作)和α2(偷懶)；代理人2的策略同樣有β1(積極工作)和β2(偷懶)。相應於兩個代理人的策略，在自然狀態ｓ1和ｓ2下，每個委托人的收益如下:

狀態ｓ1(壞)
β1	β2
α1(ｃ1,ｃ2)	(ｄ1,ａ2)
α2(ａ1,ｄ2)	(ｂ1,ｂ2)

狀態ｓ2(好)
β1	β2
α1(ｄ1,ｄ2)	(ｅ1,ｂ2)
α2(ｂ1,ｅ2)	(ｃ1,ｃ2)

　　其中,0<ａｊ<ｂｊ<ｃｊ<ｄｊ<ｅｊ,ｊ=1,2。這意味著當自然狀態“壞”時，每個代理人都必須採用積極”的策略才可能使自己的委托人得到中等以上的收益(即不小於ｃｊ)；而當自然狀態“好”時，兩代理人都選“偷懶”也可使各自的委托人得到ｃｊ的收益。現在設代理人ｊ(ｊ=1,2)在他的委托人的利潤不小於ｃｊ單位時，都得到 Uｊ；否則所得為-M。假設代理人ｊ選擇“積極”策略時，就沒有額外收益,而選擇“偷懶”時，可有ｌｉ>0單位的額外收益。因此，代理人的收益，可用如下標準形的二人非零和博弈給出:

狀態ｓ1(壞)
α1	β1　( U1, U2)	β2　( U1-M)
α2	(-M, U2)	(-M,-M)

狀態ｓ2(好)
α1	β1　( U1, U2)	β2　( U1,-M)
α2	(-M, U2)	( U1+ｌ1, U2+ｌ2)

　　這樣，在好的環境ｓ2中，代理人之間的博弈有2個納什均衡:(α1,β1)對應收益對( U1, U2)和(α2,β2)對應收益對( U1,+ｌ1, U2+ｌ2)；而在壞的狀態ｓ1中，代理人間的博弈只有一個非合作均衡(α1,β1)對應收益對( U1, U2)。觀察上述博弈，我們發現在狀態ｓ2中，(α1,β1)更加有效率(使每個委托人的收益都較大)，然而兩個代理人卻更喜歡均衡(α2,β2)，因為這個均衡使他們的效用從( U1, U2)升至( U1,+ｌ1, U2+ｌ2)。但是,如果這兩個納什均衡中只有(α1,β1)是顫抖手精煉均衡，代理人就可能不再偏愛均衡(α2,β2)。

[編輯]

顫抖手精煉均衡的舉例^[1]

　　下麵通過一個例子，分析如何應用“顫抖”對博弈的解(即Nash均衡)進行精煉。考察圖1中的博弈，其中圖1(b)為圖1(a)中博弈的戰略式描述。顯然，博弈存在兩個純戰略Nash均衡——( $L 1$ ， $R 2$ )和( $R 1$ ， $L 2$ )。

　　首先考察均衡( $L 1$ ， $R 2$ )。假設參與人2選擇行動 $R 2$ 時發生顫抖，其顫抖 $o_2^\varepsilon$ ( $\varepsilon$ ，1- $\varepsilon$ )(其中0< $\varepsilon$ <1)。若0< $\varepsilon$ ≤1／2(即參與人2犯錯誤的可能性不大於1／2)，則 $v 1$ ( $L 1$ , $o_2^\varepsilon$ )≥ $v 1$ ( $R 1$ , $o_2^\varepsilon$ )。假設參與人1選擇行動 $L 1$ 時發生顫抖，其顫抖 $o_1^\varepsilon$ =(1一 $\varepsilon$ ， $\varepsilon$ )，由於 $R 2$ 為參與人2的占優戰略，因此 $v 2$ ( $R 2$ ， $o_1^\varepsilon$ )≥ $v 2$ ( $L 2$ ， $o_1^\varepsilon$ )。所以，( $L 1$ ， $R 2$ )為顫抖手精煉均衡。同理可以證明( $R 1$ ， $L 2$ )不是顫抖手精煉均衡。所以，對於圖1(b)所示的戰略式博弈，合理的均衡為( $L 1$ ， $R 2$ )，這與圖1(a)中“博弈的合理均衡為( $L 1$ ， $R 2$ )”的結論相一致。

[編輯]

參考文獻

↑ 羅雲峰主編.博弈論教程.清華大學出版社,2007.9.

取自"https://wiki.mbalib.com/zh-tw/%E9%A2%A4%E6%8A%96%E6%89%8B%E7%B2%BE%E7%82%BC%E5%9D%87%E8%A1%A1"

打开MBA智库App, 阅读完整内容打开App

如果您認為本條目還有待完善，需要補充新內容或修改錯誤內容，請編輯條目或投訴舉報。

本条目由以下用户参与贡献

Lolo,山林,001,Zfj3000,Yixi,KAER,jane409,Dan.

頁面分類: 博弈論

評論(共5條)

提示:評論內容為網友針對條目"顫抖手精煉均衡"展開的討論，與本站觀點立場無關。

李川 (討論 | 貢獻) 在 2011年10月13日 21:34 發表

記得看過一個嚴格的定義：在n人策略表達式的博弈G={S1，S2，...,Sn；u1,u2,...,u3}中我們說納什均衡（p1,p2,...,pn）構成一個顫抖手精煉均衡，如果對於每個局中人i，存在一個嚴格混合策略序列{p(im)},滿足下列條件：（1）對於每個i，lim(m→∞)p(im)=pi （2）對於每個i和每個m=1,2，...，pi是對策略組合{p(m1),...,p(m i-1),p(m i+1)，...，p(m n)的最優反應，即pi∈arg max ui=(●,p(m,-i))

回複評論

119.123.142.* 在 2012年1月31日 12:58 發表

這其實就是賽馬的那個原理，用上等馬對對方的中等馬，中等馬對對方的下等馬，下等馬對對方的上等馬，三局兩勝

回複評論

1.85.36.* 在 2012年7月24日 19:04 發表

表示那張表格麽看懂，那兩個自然狀態時什麼意思。不是已經有積極和懶惰了？

回複評論

144.32.71.* 在 2013年1月29日 02:17 發表

說實話例子我沒看懂有沒有簡單一點的例子啊？單純數字的？

回複評論

219.98.178.* 在 2015年6月27日 22:40 發表

119.123.142.* 在 2012年1月31日 12:58 發表

這其實就是賽馬的那個原理，用上等馬對對方的中等馬，中等馬對對方的下等馬，下等馬對對方的上等馬，三局兩勝

沒看懂不要瞎說誤導別人。。。

回複評論

發表評論請文明上網，理性發言並遵守有關規定。

查看

工具▼

顫抖手精煉均衡

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是顫抖手精煉均衡

顫抖手精煉均衡的價值

顫抖手精煉均衡的舉例^[1]

參考文獻

温馨提示

本条目相关课程

本条目由以下用户参与贡献

評論(共5條)

導航

意见反馈

查看

工具▼

顫抖手精煉均衡

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是顫抖手精煉均衡

顫抖手精煉均衡的價值

顫抖手精煉均衡的舉例[1]

參考文獻

温馨提示

本條目相關文檔

本条目相关课程

本条目由以下用户参与贡献

評論(共5條)

導航

意见反馈

顫抖手精煉均衡的舉例^[1]