经典随机序的细化与不完全信息博弈的比较静态分析

经典随机序的细化与不完全信息博弈的比较静态分析
经典随机序的细化与不完全信息博弈的比较静态分析

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

第二章 完全信息静态博弈的基本理论

第二章完全信息静态博弈的基本理论 0.完全信息(complete information)博弈与不完全信息(incomplete information)博弈 完全信息博弈是指每个参与人的支付函数都是该博弈的公共知识;只要有一个参与人的支付函数不是该博弈的公共知识,就意味着该博弈是不完全信息博弈。 特别提示:如果该博弈是完全信息博弈,这意味着参与人不仅知道自己是什么类型的人,也知道对手们是什么类型的人。 一.求解方法之一:剔除严格劣策略 1.占优策略与劣策略。 严格占优策略与严格劣策略:不管对手采取什么策略,如果参与人采取a策略所获得的支付严格大于b策略,则称a策略是相对于b策略的严格占优策略(strictly dominating strategy),b策略是相对于a策略的严格劣策略(strictly dominated strategy)。 弱占优策略与弱劣策略:不管对手采取什么策略,如果参与人采取a策略所获得的支付不低于b策略,且至少有一种情况下的支付会严格大于b策略,则称b策略是相对于a策略的弱劣策略(weakly dominated strategy );a策略则是相对于b策略的弱占优策略(weakly dominating strategy)。 占优策略就是我们平时所说的上策,劣策略就是我们平时所说的下策。 特别提示:本文对占优策略的理解与其他教材不同,本文可以将以上述方式定义出来的占优策略称为局部占优策略;如果不管对手采取什么策略,如果参与人采取a策略所获得的支付严格大于其他所有策略,则称a策略是全局严格占优策略。类似地,可以定义局部劣策略与全局劣策略。 理性的人在博弈时绝对不会选择严格劣策略。通过剔除严格劣策略所获得的博弈解就称之为占优策略均衡。 2.案例 案例1 乙 甲坦白 不坦白

1.完全信息静态博弈实验指南(2020)

西方经济学实验一:完全信息静态博弈实验指南 一、博弈论概述 博弈论(game theory)又被称为“对策论”、“赛局论”。博弈论是研究相互依赖、相互影响的决策主体的理性决策行为及这些决策的均衡结果的理论。 博弈主要包括局中人、行动、信息、战略、支付(效用)、结果和均衡等要素,其中,局中人、战略和支付是描述一个博弈所需的最少要素。局中人、行动和结果统称为“博弈规则”。 (1)依据博弈参与者相互作用时能否达成一个具有约束力的协议,可将博弈分为合作博弈和非合作博弈。如果有具有约束力的协议,就是合作博弈;如果没有,就是非合作博弈。 (2)依据博弈局中人行为的时间序列性,可将博弈分为静态博弈、动态博弈两类。静态博弈是指在博弈中,局中人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,局中人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。 (3)按照局中人对其他局中人的了解程度,可将博弈分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中,每位局中人对其他局中人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果局中人对其他局中人的特征、策略空间及收益函数信息了解得不够准确,或者不是对所有局中人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。 目前经济学家们所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博理论复杂,在理论上的成熟度远远不如非合作博弈论。非合作博弈可分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈,其对应的均衡概念和理论研究的代表人物如表1所示。 (1)纳什均衡 纳什均衡(Nash equilibrium)的核心思想是:博弈的理想结局是,每个局中人选择的策略是对其他局中人所选策略的最佳反应,其中每一个局中人都不能因单方面改变自己的策略而获益。 纳什均衡有一个很重要的特点,是可以自我实施的,即信念和选择之间的一致性。就是说,基于信念的选择是合理的,同时支持这个选择的信念也是正确的。如果所有人都认为这个结果会出现,这个结果就真的会出现。 如果局中人事前达成一个协议,在不存在外部强制的情况下,每个人都有积极性遵守这个协议,这个协议就是纳

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

完全信息静态博弈及其纳什均衡解

1 第四章 完全信息动态博弈及其均衡解 1.完全且完美信息动态博弈 完全信息博弈指的是参与者的收益是共同知识。 完全且完美信息动态博弈指的是:博弈中的每一步中参与人都知道这一步之前博弈进行的整个过程。因此,我完全且完美信息动态博弈的特点:(1)行动是顺序发生的;(2)下一步行动选择之前所有以前的行动都可以被观察到;(3)每一可能的行动组合下的参与人的收益都是公共知识。 而不完美信息博弈指的是,在某一步参与人不知道以往博弈所进行的历史或者没有观察到以往的所有行动。 例4.1.我们来考虑这样一个动态博弈: 假定甲在开采一个价值4万元的金矿时需要1万元资金,乙有1万元资金。甲向乙借钱来开金矿。在这个博弈的第一阶段,甲向乙承诺: 如果乙借钱给他的话,那么他就会将采到的金子与乙对半分成,即(2,3)——乙得到2万元的金子,同时收回自己的1万元投资。对于甲的承诺,乙如果不借钱给甲的话,那么博弈到此为止,双方收益为(0,1)。如果乙借钱给甲的话,那么博弈进入第二个阶段。在第二阶段中,若甲遵守他的承诺,分给乙一半的金子,这样两人的收益为(2,3),其中1万元为投资成本。〖JP3〗然而,若甲违背自己的承诺,博弈就会进入到第三个阶段: 如果乙同甲打官司,那么由于打官司费时费力, 两个人的收益为(0,1);若乙不打官司,那么两个人的收益就为(5,0)。参见图1。 乙 借 不借 甲 分 不分 (0,1) 乙 乙 (2,3) 打官司 不打官司 (1,2) (5,0) 图1. 借钱博弈的博弈树 2.逆向归纳法与子博弈纳什均衡解 逆向归纳法(Backward induction )又称逆推法,是指这样一种动态博弈求解方法:从博弈的最后一步开始,计算最后一步的参与人的最优行动,逐步逆推到博弈开始时进行第一步的参与人的最优行动,从而确定每个参与人的最优行动。 在动态博弈中逆向归纳法能够进行的前提:参与人是理性的——任何一步参与人都选择 甲乙

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

不完全信息下的静态博弈习题

非完全信息静态博弈习题 1、考虑下面的Cournot 双头垄断模型。市场的反需求函数为Q a Q p -=)(,其中21q q Q +=为市场总产量,两个企业的总成本都为()i i i cq q c =,但需求却不确定:分别以θ的概率为高(H a a =),以θ-1的概率为低(L a a =),此外,信息也是非对称的:企业1知道需求是高还是低,但企业2不知道,所有这些都是共同知识,两企业同时进行决策。 要求:假定H a 、L a 、θ和c 的取值范围使得所有均衡产出都是正数,试问此博弈的贝叶斯纳什均衡是什么 解: 在市场需求为高时,企业1的最优战略为: ()H H H q c q q a Max 121?--- 由一阶条件可以推出2 21c q a q H H --= (1) 在市场需求为低时,企业1的最优战略为: ()L L L q c q q a Max 121?--- 《 由一阶条件可以推出2 21c q a q L L --= (2) 企业2的最优战略为 ()()(){}2212211q c q q a q c q q a Max L L H H ----+---θθ 由一阶条件可得: ()()()211*2c q a q a q L L H H ---+=-θθ (3) 方程(1)、(2)和(3)联立可得: ()()()()6 21311*1c q a q a q L L H H H ------=θθ ()6 22*1c a a q H L L --+=θθ ()31*2c a a q H L -+-=θθ

由此可知,企业1的战略()*1*1,L H q q 和企业2的战略*2q 构成贝叶斯纳什均衡。 ; 2、在下面的静态贝叶斯博弈中,求出所有的纯战略贝叶斯纳什均衡: (1)自然决定收益情况由博弈1给出还是由博弈2给出,选择每一博弈的概率相等; (2)参与者1了解到自然是选择了博弈1还是博弈2,但参与者2不知道; (3)参与者1以相同概率选择T 或B ,同时参与者2选择L 或R; (4)根据自然选择的博弈,两参与者都得到了相应的收益。 L R T B L R ) T B 解: (1) (B ,L ) (2) 参与者1在上边博弈时选T ,下边博弈时选B ; % 如果参与者推断自然选择上边博弈的概率>2/3,参与者2选L 如果参与者推断自然选择上边博弈的概率=2/3,参与者2选L 和选R 无差异 如果参与者推断自然选择上边博弈的概率<2/3,参与者2选R (3) 参与者1以相同的概率选T 或选B ; 如果参与者推断自然选择上边博弈的概率>2/3,参与者2选L 如果参与者推断自然选择上边博弈的概率=2/3,参与者2选L 和选R 无差异 如果参与者推断自然选择上边博弈的概率<2/3,参与者2选R (4) 自然选择上边博弈时,参与者1选T ,参与者2 选L ; 自然选择下边博弈时,参与者1选B ,参与者2 选R ;

博弈论经典案例《智猪博弈》

在经济学中,在经济学中,智猪博弈”(PigS ' PayoffS(BoXed PigS) 是一个著名博弈论例子。 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略?答案是:小猪将选择搭 便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。 原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。 小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之 间的距离。 如果改变一下核心指标,猪圈里还会出现同样的小猪躺着 大猪跑”的景象吗?试试看。 改变方案一:减量方案。投食仅原来的一半分量。结果是小 猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡

献食物,所以谁也不会有踩踏板的动力了。 如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然 是失败的。 改变方案二:增量方案。投食为原来的一倍分量。结果是小 猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的 共产主义”社会,所以竞争意识却不会很强。 对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效 果并不好。 改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费 宀 完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最 大。 原版的智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规 则的设计者是不愿看见有人搭便车的,政府如此,公 司的老板也是如此。而能否完全杜绝搭便车”现象,就要看游戏 规则的核心指标设置是否合适了。

博弈论案例分析

博弈论案例分析 一、经济学中的“智猪博弈” (Pigs’payoffs) 故事背景:猪圈里有一头大猪和一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略,答案是:小猪将选择“搭便车”策略,也就 是舒舒服服地等在食槽边; 而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在,因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗,试试看。改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。对于游戏规则的设计者来说,这个规则的成相当高(每次提供双份的食物) ;而且因为竞争不强烈,想让猪们去多踩踏板的

博弈论三大经典案例

经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: ?若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ?若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 ?若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作)甲认罪(背叛) 乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年 乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: ?若对方沉默、背叛会让我获释,所以会选择背叛。 ?若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 由囚徒困境可以写出类似的员工困境: 一名经理,数名员工; 前提,经理比较苛刻; 如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作 如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作 如果所有人都不听从经理吩咐,则经理下岗 但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作. 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

完全信息和不完全信息-博弈论相关

3、完全信息和不完全信息: 完全信息博弈的基本假设:所有参与人都知道博弈的结构、博弈的规则,知道博弈支付函数。 在不完全信息博弈里,至少有一个参与人不知道其他参与人的支付函数。 温泉信息是指自然不首先行动或自然的促使行动被所有参与人观测到的情况,即没有事前的不确定性。显然不完全信息意味着不完美信息,但逆命题不成立。 12、完美和不完美信息: 不完美信息指的是自然做出了它的选择,但是其他选择人并不知道它的具体选择是什么,金知道各种选择的概率分布。 完美信息:指一个参与人对其他参与人(包括虚拟参与人“自然”)的行动选择有准确了解的情况,即每一个信息集只包含一个值。 2、贝叶斯均衡: 是纳什均衡在不完全信息博弈中的自然扩展。在静态不完全信息博弈中,参与人同时行动么有机会观察到别人的选择。给定别人的战略选择,每个参与人的概率分布而不知道其真实类型不可能准确的知道其他参与人实际上会选择什么策略,但是它能正确预测到其他参与人的选择如何以来与其各自的类型。这样,他决策的目标就是在给定自己的类型和别人的类型已从战略情况下最大化自己的期望效用 14、PBNE贝叶斯纳什均衡是这样一种类型依从战略组合:给定自己的类型和别人类型的概率分布的情况下,每个参与人的期望效用达到了最大化,也就是说没有人有积极性选择其他战略。 贝叶斯纳什均衡:P147 4、有限次重复博弈: 16、重复博弈是指同样结构的博弈重复多次,其中每次博弈成为“阶段博弈”。

定理:令G是阶段博弈,G(T)是G重复T次的重复博弈(T小于正无穷)。那么,如果G有唯一的纳什均衡,重复博弈G(T)的唯一的子博弈纳什均衡结果是阶段博弈G的纳什均衡重复T次(即每个阶段博弈出现的都是一次性博弈的均衡结果)。 7、激励相容:当参与人之间存在信息不对称时,任何一种有效的制度安排都必须满足“激励相容”条件。 激励相容约束也是委托人设计机制时要考虑的第二个约束:给定委托人不知道代理人的类型时,代理人在所涉及的机制下必须有积极性选择委托人希望他选择的行动。显然,只有代理人选择委托人所希望的行动是得到的期望效用不小于他选择其他行动是得到的期望效用时,代理人才有积极性选择委托人所希望的行动。满足激励相容约束的机制称为可实施机制。 8、似然率f l/f h:统计学上,似然率度量给定代理人选择a=L时PAI发生的概率与给定代理人选定a=H是PAI发生的概率的比率,它告诉观测者观测到的PAI在多大程度上来自分布f l而不是来自于f h。较高的似然率意味着PAI 有较大的可能性来自基于分布f L;当似然率等于1是,PAI来自于f L和f h可能性相同。 15/9、纯策略和混合策略 如果一个战略规定参与人在每一个给定的信息情况下只选择一种特定的行动,我们成为纯策略。如果一个战略规定参与人在给定信息下以某种概率分布随机得选择不同的行动,就成混合策略。在博弈的战略式表述中,混合策略可以定义为在纯策略空间上的概率分布。 定义:在n个参与人博弈的战略式表述G=(S1,S2,….S n; U1…..U n)中,假定参与人I 有K个纯策略:S I=( 张维迎P59 PBNE: P183 20/13、分离均衡和混同均衡

第六章 不完全信息静态博弈与动态博弈的基本理论教材

第六章不完全信息静态博弈与动态博弈的基本理论 第一节不完全信息静态博弈的基本理论 一.不完全信息博弈 1.回顾:本课2-4章介绍的均为完全信息博弈。如何区分完全信息与不完全信息?如何区分完美信息与不完美信息? 2.不完全信息博弈又称之为贝叶斯博弈(B ayesian game),在这里,博弈参与人的支付函数不再是博弈的公共知识,至少有一个参与人对另一个参与人的支付函数的了解是不确定的,即该参与人不了解另一个参与人究竟属于何种类型的参与人。例举生活中不完全信息博弈的情形。 不完全信息博弈包括两种类型:不完全信息静态博弈(又称静态贝叶斯博弈,static B ayesian game)与不完全信息动态博弈(又称动态贝叶斯博弈,dynamic B ayesian game)。激励机制设计中大量地涉及不完全信息博弈,通过巧妙的机制设计让私人信息拥有者报告自己的真实信息是机制设计的核心任务之一。 二.不完全信息静态博弈的刻画 1.例子 例一:不完全信息饮酒博弈 一个南方人和一个北方大汉在宴会相遇,这个北方大汉酒量大是众所周知的,而这个南方人是否酒量大,只有南方人自己清楚;北方大汉只知道这个南方人有p的概率酒量大,1-p的概率酒量小,这一点也是博弈的公共知识。具体情形如下: 图1:南方人酒量大 南方人 喝不喝 北方人喝 不喝 图2:南方人酒量小 南方人 喝不喝 北方人喝 不喝 问题:(1)南方人是否喝?(2)北方大汉是否喝? 如果北方人喝,期望支付为多少?北方人不喝,期望支付是多少?

例二:不完全信息古诺竞争模型 (1)假设该市场上只有两家生产同一产品的企业1和2;市场均衡价格由下式决定: ()P Q a Q =-,其中12Q q q =+,1q 、2q 分别代表企业1和2提供的产量;企业1的生产成本为:111()C q cq =,这一点是博弈双方的公共知识;企业1对企业2的成本函数是不确定的,即企业2的成本函数是企业2的私人信息,企业1只知道企业2的成本函数有θ的概率为:222()h C q c q =,有1-θ的概率为222()l C q c q =,其中h l c c >,这一点也是博弈的公共知识。两家企业同时选择自己的产量以最大化自己的利润。问题:请问两家企业应该如何确定自己的利润最大化产量。 (2)模型分析 A .求解企业2的产量选择 显然,不同成本类型的企业会选择不同的产量水平,即企业的产量选择是与成本挂钩的,于是企业2的产量选择有两种情形:2()h q c 与2()l q c 。 当企业2属于h c 类型时,2*212max ()q h q a q q c π=--- 当企业2属于l c 类型时,2*212max ()q l q a q q c π=--- 由上述两个规划问题的一阶条件,有: * 2 ()h q c =*12h a q c --;*2()l q c =*12l a q c -- B .求解企业1的产量选择 1*121max (())q h a q q c q θ--+(1-θ)*1211(())l a q q c q cq ---(思考:为什么这么写?) 由上式的一阶条件,有: *** 221(())(1)(())2h l a q c c a q c c q θθ--+---= C .联立三个一阶条件生成的方程组,可以得 *221()()36 h h h l a c c q c c c θ-+-= +-; *22()()36 l l h l a c c q c c c θ-+=-- *12(1)3h l a c c c q θθ-++-= (3)将上述结果与完全信息条件下的结果进行比较,h c 与l c 型企业在哪一种情形生产得更多?为什么?(导致这一局面的根本原因不仅在于企业的产量要受自己成本水平的影响,

博弈论理论经典讲解

博弈论经典案例 冰晶淩(杂物区)2010-04-09 22:31:28 阅读258 评论0 字号:大中小订阅 引用 光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家:纳什,泽尔腾和海萨尼.而博弈论可以划分为合作博弈和非合作博弈.那三位博弈论专家的贡献主要是在非合作博弈方面,而且现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈.合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议,如果有,就是合作博弈;反之,就是非合作博弈.非合作博弈强调的是个人理性,个人最优决策,其结果可能是有效率的,也可能是无效率的.而合作博弈强调的是团体理性.下面是我收集的张维迎教授的几个有关博弈论的经典 案例. <案例一:囚徒困境> 囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里审讯.警察告诉他们:如果两人都坦白,各判刑8年;如果两个都抵赖,各判1年(或许因证据不足);如果其中一人坦白一人抵赖,坦白的放出去,不坦白的判刑10年(这有点'坦白从宽,抗拒从严'的味道).这里,每个囚徒都有两种战略:坦白或抵赖.表中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中第一个数字是第一个囚徒的支付,第二个数字为第二个囚徒的支付.战略形式又称标准形式,是博弈的两种表述形式之一,它特别方便于静态博弈分析. 在这个例子里,纳什均衡就是(坦白,坦白):给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白.事实上,这里,(坦白,坦白)不仅是纳什均衡,而且是一个占优战略均衡.就是说,不论对方如何选择,个人的最优选择是坦白.比如说,如果B不坦白,A坦白的话被放出来,不坦白的话判1年,所以坦白比不坦白好;如果B坦白,A坦白的话判8年,不坦白的话判10年,所以,坦白还是比不坦白好。 这样,坦白就是A占优战略;同样,坦白也是B的占优战略.结果是,每个人都选择坦白,各判刑8年. <案例二:智猪博弈> 这个例子讲的是,猪圈里有两头猪,一大一小.猪圈的一头有一个猪食槽,另一头安装一个按钮,控制着猪食的供应。按一下按钮会有10个单位的猪食进槽,但谁按按钮需要付2个单位的成本.若大猪先到,大猪吃到9个单位,小猪只能吃1个单位;若同时到,大猪吃7个单位,小猪吃3个单位;若小猪先到,大猪吃6个单位,小猪吃4个单位。表中第一格表示两猪同时按按钮,因而同时走到猪食槽,大猪吃7个,小猪吃3个,扣除2个单位的 成本,支付水平分别为5和1.其他情形可以类推. 在这个例子中,什么是纳什均衡?首先我们注意到,无论大猪选择"按"还是"等待",小猪的最优选择均是"等待".比如说给定大猪按,小猪也按时得到1个单位,等待则得到4个单位;给定大猪等待,小猪按得到-1单位,等待则得0单位,所以,"等待"是小猪的占优战略.给定小猪总是选择"等待",大猪的最优选择只能是"按".所以,纳什均衡就是:大猪按,小猪等待,各得4个单位.多劳者不多得! <案例三:性别战>

静态与动态博弈分析

目录 摘要 (2) 一、完全信息静态博弈 (2) 1、背景 (2) 2、博弈的假设与建模 (2) 3、结合案例博弈分析 (3) 4、结论与思考 (4) 5、建议 (4) 6、小结 (5) 二、完全信息动态博弈 (5) 1、背景 (5) 2、模型的建立与假设 (6) 3、分析过程 (7) 4、结论 (8) 5、建议 (8) 6、小结 (9)

完全信息问题的博弈分析 摘要: 通过用博弈分析方法对日常生活中具有现实意义的社会现象和人力资源管理专业问题分析事件发生的本质,从而在各种复杂因素的影响下,找到利益最大化的均衡策略,不仅可以预测参与人的策略选择,更重要是提高自身决策水平和决策质量,实际即是博弈论在现实的运用。本文选取两个案例作为完全信息静态和动态分析的背景。 关键词:博弈论、现实运用、社会现象、招聘 一、完全信息静态博弈 完全信息:每个参与人对其他所有参与人的战略选择和支付收益完全了解。 静态博弈:所有参与人在共同决策环境中同时选择行动策略,每个参与人只选择一次。 纳什均衡:在给定的其他参与人选择的前提下,参与人根据自身收益选择的最优战略。 1、背景: “除非有人证物证,否则我不会再去扶跌倒的老人!”广东肇庆的阿华在扶起倒地的70多岁阿婆却遭诬陷后表示。事发7月15日早上,阿华开摩托车上行人道准备买早餐,看到路边有位老太太跌倒在求救,阿华立刻停下来,扶起老奶奶,殊不知却遭到阿婆的诬陷,随后和阿婆的女婿发生争执。阿婆被送到医院住院观察。为调查真相,交警暂扣了阿华的摩托车。事发后几天,阿华说没睡过一次好觉,还向单位请了几天假,天天在附近找证人,就是为了证实自己清白。 这起社会事件引发了我们的深思:阿婆在路边跌倒,路人是否应该扶起?在这个过程中,跌倒的阿婆是否讹钱与是否采取帮忙的路人构成博弈问题,以下通过完全信息静态博弈模型分析,解析这一社会现象。 2、博弈的假设与建模: 假设:参与博弈的双方是理性人,都会选择个人利益最大化的行动。

博弈论经典案例-文档

博弈论 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(甲和乙)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判6年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 简而言之就是: 甲沉默,乙沉默 --> 二人同服刑1年 甲坦白,乙坦白 --> 二人同服刑6年 甲坦白,乙沉默 --> 甲即时获释;乙服刑10年 甲沉默,乙坦白 --> 甲服刑10年;乙即时获释 “囚徒困境”反应了个人理性和集体理性的矛盾。不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判六年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑六年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。 海盗分赃 有五个海盗,劫掠了100公斤黄金,需要分赃。办法是抓阄,盗亦有道。 五个纸团里写着1-5五个数字,按数字顺序抓阄,抓到“1”的人,可以先提出一个分配方案,如果他的方案被一半以上的人同意,就照他的方案分金子,否则,第一个人就要被杀掉。余下的人也照此办理。 我的问题是:如果你是第一个人,你会提出怎样的分配方案,才能让自己利益最大化? (答案:第一个人提出自己独拿100公斤黄金) 这个例子告诉我们,想问题,确实需要方法论,靠直觉是不可以的,直觉在很多情况下是错误的,必须依靠方法,依靠逻辑的力量。 红黑博弈 这是一个关于输与赢之间的博弈游戏,游戏规则是这样的:所有参加培训的新人分为几个小组,其中两组作为对手。每组选出队长作为团队的领导者和谈判官。在游戏的进程中,每一组选择向对手亮出什么样颜色的牌,如果两组同时亮出了红牌,那么两组将同时被扣掉3分;如果其中一组选择红牌,而另一组选择黑牌,那么选择红牌的一组将得3分,而选择黑牌的小组将得0分;双方同时选择黑牌,将同时得到1分。

(完整word版)经典的博弈论分析案例——“海盗分金”问题

经典的博弈论分析案例——“海盗分金”问题 5个海盗抢得100枚金币,他们按抽签的顺序依次提方案:首先由1号提出分配方案,然后5人表决,超过半数同意方案才被通过,否则他将被扔入大海喂鲨鱼,依此类推。 “海盗分金”其实是一个高度简化和抽象的模型,体现了博弈的思想。在“海盗分金”模型中,任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么,并用最小的代价获取最大收益,拉拢“挑战者”分配方案中最不得意的人们。 假设前提 假定“每个海盗都是绝顶聪明且很理智”,那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化?” 推理过程 从后向前推,如果1至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。所以,4号惟有支持3号才能保命。 3号知道这一点,就会提出(100,0,0)的分配方案,对4号、5号一毛不拔而将全部金币归为已有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。 不过,2号推知3号的方案,就会提出(98,0,1,1)的方案,即放弃3号,而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。这样,2号将拿走98枚金币。 同样,2号的方案也会被1号所洞悉,1号并将提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。分配方案可写成(97,0,1,2,0)或(97,0,1,0,2)。分析 1号看起来最有可能喂鲨鱼,但他牢牢地把握住先发优势,结果不但消除了死亡威胁,还收益最大。这不正是全球化过程中先进国家的先发优势吗?而5号,看起来最安全,没有死亡的威胁,甚至还能坐收渔人之利,却因不得不看别人脸色行事而只能分得一小杯羹。 不过,模型任意改变一个假设条件,最终结果都不一样。而现实世界远比模型复杂。 首先,现实中肯定不会是人人都“绝对理性”。回到“海盗分金”的模型中,只要3号、4号或5号中有一个人偏离了绝对聪明的假设,海盗1号无论怎么分都可能会被扔到海里去了。所以,1号首先要考虑的就是他的海盗兄弟们的聪明和理性究竟靠得住靠不住,否则先分者倒霉。 如果某人偏好看同伙被扔进海里喂鲨鱼。果真如此,1号自以为得意的方案岂不成了自掘坟墓! 再就是俗话所说的“人心隔肚皮”。由于信息不对称,谎言和虚假承诺就大有用武之地,而阴谋也会像杂草般疯长,并借机获益。如果2号对3、4、5

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展 05-06-13 10:57 发表于:《没有范的世界》分类:未分类 博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年; 如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。 囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。 在经济学方面的实例: 一.电信价格竞争 根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。 正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中就有B的价格可以比P0低10%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。这时候,A该怎么做?不妨假定: A降价而B维持,则A获利15,B损失5,整体获利10; A维持且B也维持,则A获利5,B获利10,整体获利15;

相关文档
最新文档