全球专业中文经管百科,由121,994位网友共同编写而成,共计436,047个条目

隨機博弈

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

隨機博弈(Stochastic Games)

目錄

隨機博弈簡介

  在博弈論中,隨機博弈是一類由一個或多個參與者進行的、具有狀態概率轉移的動態博弈,是由勞埃德·夏普利Lloyd Shapley)於20世紀50年代初期提出。

  隨機博弈由一系列階段組成。在博弈中每一階段的起始,博弈處於某種特定狀態。每一參與者選擇某種行動,然後會獲得取決於當前狀態和所選擇行動的收益。之後,博弈發展到下一階段,處於一個新的隨機狀態,這一隨機狀態的分佈取決於先前狀態和各位參與者選擇的行動。在新狀態中重覆上述過程,然後博弈繼續進行有限或無限個數的階段。一個參與者得到的總收益常用各階段收益的貼現和,或是各階段收益平均值的下限來計算。

  隨機博弈是指的是這樣的一個博弈游戲,目前有任意堆石子,每堆石子個數也是任意的,雙方輪流從中取出石子,規則如下:

  1、每一步應取走至少一枚石子;每一步只能從某一堆中取走部分或全部石子。

  2、如果誰取到最後一枚石子就勝。

數學描述

  隨機博弈的組成部分有:有限參與者集I ;狀態空間M (可以是有限集,也可以是可測空間(M,{\mathcal A}));對於每一參與者i\in I,存在行動集S^i\,(可以是有限集,也可以是可測空間(S^i,{\mathcal S}^i));PM\times SM 的轉移概率,其中S=\times_{i\in I}S^i是行動組合,P(A \mid m, s)是下一狀態處於A 中的概率,而A 給定了當前狀態m 和當前行動組合s ;從M\times SR^I\,的收益函數g,其中g 的第i 個坐標g^i\,是參與者i 的收益,而g^i\, 是狀態m 和行動組合s 的函數。

  博弈以某個初始狀態m1 開始。在階段t 中,參與者最先觀測到mt ,同時選擇行動s^i_t\in S^i,然後觀測到行動組合s_t=(s^i_t)_i,然後以概率P(\cdot\mid m_t,s_t)自然選擇mt + 1 。一次隨機博弈m_1,s_1,\ldots,m_t,s_t,\ldots定義了一個收益流g_1,g_2,\ldots,其中g_t=g(m_t,s_t)\,

隨機博弈的闡析

  隨機博弈由多個博弈階段組成。在每一個階段的開始,博弈處在某個特定狀態下。參與者選擇自身的策略並獲得相應的由當前狀態和策略決定的報酬。然後博弈按照概率的分佈和參與者策略隨機轉移到下一個階段。在新的狀態階段,重覆上一次的策略選擇過程,然後博弈繼續進行。參與者在隨機博弈中獲得的全部報酬一般用各個階段報酬的貼現值來計算,或者用各個階段報酬平均值的下限來計算。

  如果隨機博弈中參與者的數量有限並且每個博弈階段可能的狀態數量有限,那麼一個具有有限博弈階段的隨機博弈一般都存在一個納什均衡。同樣的,對於一個具有無窮階段的隨機博弈,如果使用各個階段報酬的貼現值來計算整個博弈階段的報酬,那麼這個隨機博弈也是具有納什均衡的。尼古拉斯·維勒Nicolas Vieille)已經證明具有有限階段和有限狀態的兩人隨機博弈當中,如果博弈過程的報酬使用各個階段報酬平均值的下限來計算的話,是具有逼近納什均衡的。然而,包含2個以上的參與者的隨機博弈是否存在納什均衡,仍然是個未決的問題。

隨機博弈的重要結論

  貼現因數λ0<\lambda \leq 1)的貼現博弈Γλ 中,參與者i 的收益是\lambda \sum_{t=1}^{\infty}(1-\lambda)^{t-1}g^i_tn 階段博弈中,參與者i 的收益是\bar{g}^i_n:=\frac1n\sum_{t=1}^ng^i_t

  若存在有限多個狀態和行動的二人零和博弈Γn(各自是Γλ)的值為vn(m1)(各自是vλ(m1)),則vn(m1)n 趨於無窮時收斂到一個極限,且vλ(m1)λ趨於0時收斂到相同的極限。這一結論已被杜魯門·彪利Truman Bewley)和艾朗·克爾伯格Elon Kohlberg)於1976年證明。[1]

  非貼現博弈\Gamma_\infty中,參與者i 的收益是各階段收益平均值的極限。在定義二人零和博弈\Gamma_{\infty}的值與非零和博弈\Gamma_{\infty}的均衡收益之前需要註意一些事情:若對於每一\varepsilon>0都有正整數N 、參與者1的策略\sigma_{\varepsilon}和參與者2的策略\tau_{\varepsilon},二人零和隨機博弈\Gamma_\infty的一致值(uniform value)v_{\infty}存在,這樣對於每一στ和每一n\geq N,博弈中由\sigma_{\varepsilon}τ定義的概率的\bar{g}^i_n期望至少為v_{\infty} -\varepsilon,由σ\tau_{\varepsilon}定義的概率的\bar{g}^i_n期望至多為v_{\infty} +\varepsilon讓·弗朗索瓦·梅頓斯Jean Francois Mertens)和亞伯拉罕·奈曼Abraham Neyman)於1981年證明二人零和隨機博弈具有一致值。[2]

  若參與者數量有限且行動集和狀態集有限,則有限階段隨機博弈總有納什均衡,對於總收益是貼現和的無限多階段隨機博弈也是如此。尼古拉斯·維勒Nicolas Vieille)已經證明當總收益是各階段收益平均值的下極限時,所有具有有限狀態和行動空間的二人隨機博弈都有近似納什均衡。不過,當參與者多於2名時,隨機博弈是否存在這類均衡仍是一個極具挑戰性的開放性問題。[3]

隨機博弈的應用

  隨機博弈在經濟學、演化生物學和電腦網路中都有應用。事實上,隨機博弈是重覆博弈的一般化過程(重覆博弈是指在每個博弈階段都處於相同的狀態)。

  亞伯拉罕·奈曼Abraham Neyman)和Sylvain Sorin所著的書籍是最完備的有關隨機博弈的參考材料。Jerzy A. FilarKoos Vrieze所著的書更為基礎[1],在書中給出了嚴密的關於[[馬爾可夫決策過程](MDP)和雙人隨機博弈的標準處理方法。他們創造了Competitive MDPs這個術語來概括單人和雙人隨機博弈這個概念[4]

參考文獻

  1. 1.0 1.1 Abraham Neyman,Sylvain Sorin. Stochastic Games and Applications. Kluwer Academic Press. 2003年10月31日. ISBN 978-1402014932 (英文)
  2. Jean Francois Mertens,Abraham Neyman. Stochastic Games. International Journal of Game Theory. June 1981, 10 (2): 第53-66頁.
  3. Nicolas Vieille. Stochastic games: Recent results //R.J. Aumann,S. Hart. Handbook of Game Theory with Economic Applications
  4. Jerzy A. Filar,Koos Vrieze. Competitive Markov Decision Processes. Springer-Verlag. 1996年11月15日. ISBN 978-0387948058 (英文)
本條目對我有幫助9
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

Zfj3000,Vulture,Yixi.

評論(共0條)

提示:評論內容為網友針對條目"隨機博弈"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号