正則形式的博弈

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

正則形式的博弈（Normal form game）

正則形式的博弈

　　在博弈論中，正則形式是描述博弈的一種方式。與延展形式不同，正則形式不用圖形來描述博弈，而是用矩陣來陳述博弈。與延展形式的表述方式相比，這種方式在識別出嚴格優勢策略和納什均衡上更有用，但會丟失某些信息。博弈的正則形式的表述方式包括如下部分：每個參與者所有顯然的和可能的策略，以及和與其相對應的收益。

　　在非完美信息的完全靜態博弈中，正則形式的表述方式詳細地說明瞭參與者策略空間和收益函數。策略空間是某個參與者的所有可能策略集合。策略是參與者在博弈的每個階段——不管在博弈中這個階段實際上是否會出現——將要採取的行動的完整計劃。每個參與者的收益函數，是從參與者策略空間的向量積到該參與者收益集合（一般是實數集，數字表示基數效用或序數效用——在正則形式的表述方式中常常是基數效用）的映射。也就是說，參與者的收益函數把策略組合（所有參與者策略的清單）作為它的輸入量，然後輸出參與者的收益。

[編輯]

正則形式的使用

[編輯]

占優策略

	合作	背叛
合作	2, 2	0, 3
背叛	3, 0	1, 1

　　收益矩陣有助於剔除劣勢策略，而且經常被用於說明這個概念。例如，在囚徒困境中（右圖），參與者會發現因為其他人的背叛，合作成了嚴格劣勢策略。參與者會比較每列的第一個數字，在這個例子中，3>2且1>0。這表明無論橫排參與者怎樣選擇，豎排參與者選擇背叛都比較好些。類似地，參與者會比較每列的第二個數字，同樣也是3>2且1>0。這說明無論豎排參與者怎麼做，橫排參與者選擇背叛都比較好些。這就證明瞭此博弈唯一的納什均衡是（背叛，背叛）。

[編輯]

正則形式的連續博弈

一個連續博弈
	左，左	左，右	右，左	右，右
頂	4, 3	4, 3	-1, -1	-1, -1
底	0, 0	3, 4	0, 0	3, 4

　　這些矩陣只表述同時（或者更一般地，信息不完美的）做出行動的博弈。上述矩陣不能表述甲先做出行動，被乙觀察到，然後乙再做出行動的博弈。因為在這個例子中，無法確定乙每次的策略。為了表述這種連續博弈，我們要列出乙在博弈進行期間所有的行動——儘管根據實際情況，某種行動決不會出現。和前面一樣，在這個博弈中乙有兩種選擇，左和右。與前面不一樣的是，視甲的行動不同而定，乙有四種策略。這些策略是：

　　1. 如果甲選擇頂，選擇左；否則，選擇左

　　2. 如果甲選擇頂，選擇左；否則，選擇右

　　3. 如果甲選擇頂，選擇右；否則，選擇左

　　4. 如果甲選擇定，選擇右；否則，選擇右

　　右圖是這個博弈的正則形式的表述方式。

[編輯]

通用公式

　　為了用把博弈表述成正則形式，需要提供下列數據：

　　*表示參與者的有限集P，標記為 ${1,2,\cdots,m}$

　　*每個參與者k在P里擁有有限個純策略.

　　 $S_k = \{1, 2, \ldots, n_k\}.$

　　一個純策略組合是參與者策略的聯合，這是一個m元組.

　　 $\vec{\sigma} = (\sigma_1, \sigma_2, \ldots,\sigma_m)$

　　則有:

　　 $\sigma_1 \in S_1, \sigma_2 \in S_2, \ldots, \sigma_m \in S_m$

　　我們用 $\sum$ 來表示策略組合的集合

　　收益函數形如

　　 $F: \Sigma \rightarrow \mathbb{R}.$

　　其預期解釋是博弈結束時給予單個參與者的獎品。相應地，為了完整地說明一個博弈，收益函數必須在參與者集 P= {1, 2, ..., m}中對每個參與者詳細說明。

　　定義：一個正則形式的博弈的結構形如

　　 $(P, \mathbf{S}, \mathbf{F})$

　　這裡 P = {1,2, ...,m}是參與者集合，

　　 $\mathbf{S}= (S_1, S_2, \ldots, S_m)$

　　是純策略集合的一個m元組，每個純策略對應於一個參與者，而

　　 $\mathbf{F} = (F_1, F_2, \ldots, F_m)$

　　是收益函數的m元組。

　　沒有理由在前面的討論中，把參與者數量有限或每個參與者的策略有限的博弈排除在外。因為要用到泛函分析的技巧，關於有限博弈的研究非常艱深。

[編輯]

實例

*一個正則形式的博弈*
	乙選擇左	乙選擇右
甲選擇頂	4, 3	-1, -1
甲選擇底	0, 0	3, 4

　　有種博弈是參與者同時（或至少在做出行動前不觀察其他參與者的動作）做出行動，並按照上述已做出行動的組合獲得收益。右邊的矩陣是這種博弈得正則形式的表述方式。例如，如果甲做出行動“頂”，而乙做出行動“左”，則甲得到收收益4，乙得到收益3。在每個回合，第一個數字代表豎排參與者（此處為甲）的收益，第二個數字代表橫排參與者（此處為乙）的收益。

[編輯]

其他表述方式

　　對稱博弈（其收益不是依賴於參與者選擇的動作）常常被表述為只有一種收益，即豎排參與者的收益。例如，左右兩邊的收益矩陣表述的是同一個博弈。

*兩個參與者都有的*
	雄鹿	野兔
雄鹿	3, 3	0, 2
野兔	2, 0	2, 2

*只有豎排的*
	雄鹿	野兔
雄鹿	3	0
野兔	2	2

取自"https://wiki.mbalib.com/zh-tw/%E6%AD%A3%E5%88%99%E5%BD%A2%E5%BC%8F%E7%9A%84%E5%8D%9A%E5%BC%88"

打开MBA智库App, 阅读完整内容打开App

如果您認為本條目還有待完善，需要補充新內容或修改錯誤內容，請編輯條目或投訴舉報。

本条目由以下用户参与贡献

Cabbage,Zfj3000,Dan,Vulture.

頁面分類: 博弈論

評論(共0條)

提示:評論內容為網友針對條目"正則形式的博弈"展開的討論，與本站觀點立場無關。

發表評論請文明上網，理性發言並遵守有關規定。

查看

工具▼

正則形式的博弈

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄