博弈论第1讲 2011

博弈论知识点总结

博弈论知识总结博弈论概述： 1、博弈论概念：博弈论：就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。博弈论研究的假设： 1、决策主体是理性的，最大化自己的收益。 2、完全理性是共同知识 3、每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念与预期 2、和博弈有关的变量：博弈参与人：博弈中选择行动以最大化自己受益的决策主体。行动：参与人的决策选择战略：参与人的行动规则，即事件与决策主体行动之间的映射，也是参与人行动的规则。信息：参与人在博弈中的知识，尤其是其他决策主体的战略、收益、类型（不完全信息）等的信息。完全信息：每个参与人对其他参与人的支付函数有准确的了解；完美信息：在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动，否则为不完美信息。不完全信息：参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息，即存在着有关其他参与人的不确定性因素。支付：决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。从经济学的角度讲，博弈是决策主体之间的相互作用，因此和传统个人决策存在着区别： 3、博弈论与传统决策的区别： 1、传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下，最大化自己效用，研究工具是无差异曲线。可表示为：maxU(P ,I)，其中P 为市场价格，I 为消费者可支配收入。 2、其他消费者对个人的综合影响表示为一个参数——市场价格，所以在市场价格既定下，消费者效用只依赖于自己的收入和偏好，不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式：战略式博弈和扩展式博弈战略式博弈：是博弈问题的一种规范性描述，有时亦称标准式博弈。战略式博弈是一种假设每个参与人仅选择一次行动或战略，并且参与人同时进行选择的决策模型，因此，从本质上来讲战略式博弈是一种静态模型，一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合： 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合上的效用函数Ui(s1,s2,…,sn). 扩展式博弈：是博弈问题的一种规范性描述。与战略式博弈侧重博弈结果的描述相比，扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。包含要素： 1、参与人集合 {1,2,...,}n Γ={1,2,...,}n Γ=11(,...,,...,)n i i n i s s s s ==∏

(完整word版)经典的博弈论分析案例——“海盗分金”问题

经典的博弈论分析案例一一“海盗分金”问题 5个海盗抢得100枚金币，他们按抽签的顺序依次提方案：首先由1号提出分配方案，然后5人表决，超过半数同意方案才被通过，否则他将被扔入大海喂鲨鱼，依此类推。 “海盗分金”其实是一个高度简化和抽象的模型，体现了博弈的思想。在“海盗分金”模型中，任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么，并用最小的代价获取最大收益，拉拢 “挑战者”分配方案中最不得意的人们。假设前提假定“每个海盗都是绝顶聪明且很理智”，那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化？” 推理过程从后向前推，如果1至3号强盗都喂了鲨鱼，只剩4号和5号的话，5号一定投反对票让4号喂鲨鱼，以独吞全部金币。所以，4号惟有支持3号才能保命。 3号知道这一点，就会提出（100，0，0）的分配方案，对4号、5号一毛不拔而将全部金币归为已有，因为他知道4号一无所获但还是会投赞成票，再加上自己一票，他的方案即可通过。不过，2号推知3号的方案，就会提出（98，0，1，1）的方案，即放弃3 号，而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利，他们将支持他而不希望他出局而由3号来分配。这样，2号将拿走98枚金币。同样，2号的方案也会被1号所洞悉，1号并将提出（97, 0，1, 2, 0）或（97, 0，1, 0，2）的方案，即放弃2号，而给3号一枚金币，同时给4号（或5号）2枚金币。由于1号的这一方案对于3号和4号（或5号）来说，相比2号分配时更优，他们将投1号的赞成票，再加上1号自己的票，1号的方案可获通过，97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了！答案是：1号强盗分给3号1枚金币，分给4号或5号强盗2枚，自己独得97枚。分配方案可写成（97, 0, 1, 2, 0）或（97, 0, 1, 0, 2）。分析 1号看起来最有可能喂鲨鱼，但他牢牢地把握住先发优势，结果不但消除了死亡威胁，还收益最大。这不正是全球化过程中先进国家的先发优势吗？而5号，看起来最安全，没有死亡的威胁，甚至还能坐收渔人之利，却因不得不看别人脸色行事而只能分得一小杯羹。不过，模型任意改变一个假设条件，最终结果都不一样。而现实世界远比模型复杂。首先，现实中肯定不会是人人都“绝对理性”。回到“海盗分金”的模型中，只要3号、4号或5号中有一个人偏离了绝对聪明的假设，海盗1号无论怎么分都可能会被扔到海里去了。所以，1号首先要考虑的就是他的海盗兄弟们的聪明和理性究竟靠得住靠不住，否则先分者倒霉。如果某人偏好看同伙被扔进海里喂鲨鱼。果真如此，1号自以为得意的方案岂不成了自掘坟墓！再就是俗话所说的“人心隔肚皮”。由于信息不对称，谎言和虚假承诺就_ 大有用武之地，而阴谋也会像杂草般疯长，并借机获益。如果2号对3、4、5 号大放烟幕弹，宣称对于1号所提出任何分配方案，他一定会再多加上一个金币给他们。这样，结果又当如何？通常，现实中人人都有自认的公平标准，因而时常会嘟嚷：“谁动了我的奶

博弈论知识点总结

1、

2、既定下，消费者效用只依赖于自己的收入和偏好，不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式：战略式博弈和扩展式博弈战略式博弈：是博弈问题的一种规范性描述，有时亦称标准式博弈。战略式博弈是一种假设每个参与人仅选择一次行动或战略，并且参与人同时进行选择的决策模型，因此，从本质上来讲战略式博弈是一种静态模型，一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合： 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合上的效用函数Ui(s1,s2,…,sn). 扩展式博弈：是博弈问题的一种规范性描述。与战略式博弈侧重博弈结果的描述相比，扩展式博弈更注重对参与人在博弈过程 {1,2,...,} n Γ=11 (,...,,...,) n i i n i s s s s ==∏

博弈论中的几个经典问题

几个博弈论中的经典问题博弈论（Game Theory），亦名“对策论”、“赛局理论”，属应用数学的一个分支，博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。几个重要的概念 1、策略(strategies)：一局博弈中，每个局中人都有选择实际可行的完整的行动方案，即方案不是某阶段的行动方案，而是指导整个行动的一个方案，一个局中人的一个可行的自始至终全局筹划的一个行动方案，称为这个局中人的一个策略。如果在一个博弈中局中人都总共有有限个策略，则称为“有限博弈”，否则称为“无限博弈”。 2、得失(payoffs)：一局博弈结局时的结果称为得失。每个局中人在一局博弈结束时的得失，不仅与该局中人自身所选择的策略有关，而且与全局中人所取定的一组策略有关。所以，一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数，通常称为支付（payoff）函数。 3、次序（orders）：各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。 4、博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。 5、纳什均衡(Nash Equilibrium)：在一策略组合中，所有的参与者面临这样一种情况，当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略他的支付将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中，当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a，那么局中人A 的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。经典的博弈问题 1、“囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因为，假定Ａ选择坦白的话，Ｂ最好是选择坦白，因为Ｂ坦白判８年而抵赖却要判十年；假定Ａ选择抵赖的话，Ｂ最好还是选择坦白，因为Ｂ坦白判不被判刑而抵赖确要被判刑１年。即是说，不管Ａ坦白或抵赖，Ｂ的最佳选择都是坦白。反过来，同样地，不管Ｂ是坦白还是抵赖，Ａ的最佳选择也是坦白。结果，两个人都选择了坦白，各判刑８年。在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡。

博弈论基础复习

《博弈论基础》主要知识点一、名词解释（5×2＝10分）策略型博弈它是由三个部分组成，即局中人、策略和各种策略组合中所得到的利益。纳什均衡指参与博弈的每一局中人在给定其他局中人策略的条件下选择上策所构成的一种策略组合。混合策略局中人的混合策略是其纯策略空间上的一种概率分布，表示局中人实际博弈时根据这种概率分布在纯策略中随机选择加以实施。扩展型博弈博弈存在着局中人行动的先后次序，是对具有动态结构的决策形式进行研究的规范分析工具。博弈树对于任何一种双人完备博弈，都可以用一个博弈树来描述，并通过博弈树搜索策略寻找最佳解。博弈树类似于状态图和问题求解搜索中使用的搜索树。完美信息博弈是指一次只有一个局中人在行动，而且他在行动时知道博弈的所有以往行动历史的一类特殊博弈。子博弈指由原扩展型博弈中的一个决策节点与它的所有后续节点组成的博弈。行为策略是指每一个参与人在每一个信息集上随机的选择行动。逆向归纳法逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。在求解子博弈精炼纳什均衡时，从最后一个子博弈开始逆推上。冷酷策略又称触发策略。指参与人在开始时选择合作,在接下来的博弈中,如果对方合作则继续合作,而如果对方一旦背叛,则永远选择背叛,永不合作。类型 :一般地，将一个参与人所拥有的所有私人信息称为他的类型。信号博弈是研究具有信息传递作用的信号机制的一般博弈模型，其基本特征是两个博弈方，分别称为信号发出方和信号接收方。分离均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者以概率1选择不同的信号，接收者完全可以通过信号来准确判断出发送者的类型。混同均衡信号博弈中的完美贝叶斯均衡之一，这种均衡中不同类型的发送者选择了相同的信号，接收者无法从信号中得到新的信息，无法对先验信念进行修正。特征函数特征函数型博弈对每一种可能联盟给出相应的联盟总和收益，也就是给出了一种集合函数，称为特征函数。联盟

博弈论谢识予第四五章参考标准答案

博弈论谢识予第四五章参考答案

————————————————————————————————作者：————————————————————————————————日期： 2

第四章参考答案 2、火车站和机场餐饮商业服务的顾客往往都是一次性的，回头客、常客比较少，这些经济交易具有一次性博弈的特征，它们的价格总是较高而质量又会差一些，顾客也会尽量不在这些地方购买商品和消费。在一般商业区和居民区的餐饮商业服务则回头客和常客较多，有明显的重复博弈特征，在居民区购买商品和消费的老顾客一般能得到比较公平、优惠的价格，还能得到较好的服务，甚至有些还可以信用消费（赊账），因此消费者一般会比较放心地消费。这就是现实生活中重复博弈和一次性博弈效率不同的典型例子之一。 3、从研究对象和问题特征看，有限次重复博弈研究的主要是有明确结束时间的（合作、竞争等）关系，无限次重复博弈研究的主要是没有明确结果时间，或者较长期的关系。从分析方法的角度，动态博弈和重复博弈分析中常用的逆推归纳法在无限次 16 重复博弈中无法直接运用，因为没有最后一次重复。因此无限次重复博弈分析的主要方法是构造法，即根据特定效率意义等构造了博弈完美纳什均衡。此外，也可以运用某些技巧解决问题，如教材中利用三阶段讨价还价博弈分析无限阶段讨价还价博弈的技巧。从博弈的结果看，无限次重复博弈的效率往往高于有限次重复博弈，有些在有限次重复博弈中无法实现的效率较高的结果，在无限次重复博弈中有可能实现。例如囚徒的困境型博弈的无限次重复博弈和有限次重复博弈就体现了这种差别。两类重复博弈民间定理的差异也说明了这一点。最后，在重复次数不多的有限次重复博弈中不一定要考虑得益贴现问题，在我限次重复博弈问题中这是必须考虑的。上述区别在理论方面最主要的启发是重视有限次和无限次重复博弈的区别，区分研究这两类博弈问题是非常重要的，在实践方面的主要启发是促进和保持经济关系的长期稳定性，对于提高社会经济效率等常常有非常重要的意义。6、用画线法容易找出该博弈的两个纯策略纳什均衡（T，L）和（M，R）。这两个纳什均衡的得益都帕累托劣于（B，S）。一次性博弈中效率较高的（B，S）不可能实现。但该博弈的结构表明存在双方合作的利益，在两次重复博弈中也有构造惩罚机制的条件，因此我会考虑运用试探合作的触发策略争取部分实现（B，S），提高博弈的效率。我作为博弈方1会采用这样的触发策略：第一次重复采用B；第二次重复时，如果前一次的结果是（B，S），则采用M，如果前一次的结果是其他，则采用T。如果另一个博弈方有同样的分析能力，或者比较有经验，那么他（或她）也会采用相似的触发策略：在第一次重复时采用S；第二次重复时，如果前一次的结果是（B，S），则采用R，否则采用L。双方采用上述触发策略构成一个子博弈完美纳什均衡，因此是稳定的。这时候前一次重复实现了（B，S），提高了博弈的效率。当然，上述触发策略也是有风险的，因为当另一个博弈方不理解和没有采用上述策略时，我的得益会较低。当然如果考虑到人们具有学习进步的能力，而且缺乏分析和学习能力，采用效率较低策略的博弈方长期中会逐步被淘汰掉，那么采用上述触发策略的合理性就得到了进一步的支持。

《博弈与信息—博弈论概论》odd12

ODD Answers to Odd-Numbered Problems,4th Edition of Games and Information, Rasmusen PROBLEMS FOR CHAPTER12:Bargaining .26March2005.11November2005.Erasmuse@https://www.360docs.net/doc/101010812.html,.https://www.360docs.net/doc/101010812.html,. This appendix contains answers to the odd-numbered problems in the fourth edition of Games and Information by Eric Rasmusen,which I am working on now and perhaps will come out in2006.The answers to the even-numbered problems are available to instructors or self-studiers on request to me at Erasmuse@https://www.360docs.net/doc/101010812.html,. Other books which contain exercises with answers include Bierman&Fernandez (1993),Binmore(1992),Fudenberg&Tirole(1991a),J.Hirshleifer&Riley(1992),Moulin (1986),and Gintis(2000).I must ask pardon of any authors from whom I have borrowed without attribution in the problems below;these are the descendants of problems that I wrote for teaching without careful attention to my sources.

博弈论经典案例与分析

博弈论的经典案例与分析囚徒困境案例：警察把甲乙分开关押，并在提审时分别告之，如果你坦白而他不坦白，那么你将只判0年，他将被判8年；如果你不坦白而他坦白，那么你判8年，他判0年；如果你们两人都坦白了，各判5年；如果你们两人都不坦白了，各判1年。分析：每个博弈方选择自己的策略时，虽然无法知道另一方的实际选择，但他却不能忽视另一方的选择对他自己的得益的影响，因此他应该考虑到另一方有两种可能的选择，并分别考虑自己相应的最佳策略。对囚徒A来说，囚徒B有坦白和不坦白两种可能的选择，假设囚徒B的选择是不坦白，则对囚徒A来说，不坦白得益为-1，坦白得益为0，他应该选择坦白；假设囚徒B选择的是坦白，则囚徒A不坦白得益为-8，坦白得益为-5，他还是该选择坦白。因此，在此博弈中，无论囚徒B采取何种策略囚徒A的选择只有一种，即坦白，因为在另一方两种可能的情况下，坦白给自己带来的得益都是较大的。同样的道理，囚徒B 的唯一的选择也是坦白。所以最可能的结局：该博弈的最终结果是两博弈方同选择坦白策略。其支付矩阵如下：性格大战嫌疑犯乙

案例：一对恋人准备在周末晚上一起出去，男的喜欢看足球，但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。分析：可以看出，分开将使他们两人得不到任何满足，只要在一起，不管是看时装表演还是看足球，两人都会得到一定的满足。但看足球将使男的得到更大的满足，看时装表演则使女的得到更大的满足。在这样的一个对局中，男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择，一旦对方选定了某一项活动，另一个人选择同样的活动就是最好的策略。因此，如果男的已经买好了足球的门票，女的当然就不再反对；反之，如果女的已经买好了时装表演票，男的也就会与她一起看时装表演。价格战案例：假设市场中仅有A 、B 两家企业，每家企业可采取的定价策略都是10元或15元，我们可以得出得益矩阵如下：分析：无论对企业A 还是企业B 来说，低价都是他们的占优战略。从表可见，企业A 的占优战略是10元，因为无论B 采取什么战略，企业A 都能获取比定价15元更多的利润。如果企业B 定价10元，企业A 定价10元能够获利80万元，而定价15元只能获得30万元；如果企业B 定价15元，企业A 定价10元可获利170万元，而定价15元却只能获利120万元。同样地，企业B 的占优战略也是定价10元的策略。企业B 男

博弈论经典模型全解析

博弈论经典模型全解析（入门级） 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境，非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不

会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中，我们不可避免地也会遇到类似的两难境地，这个时候需要相互之间有足够的了解与信任，没有起码的信任做基础，切不可贸然合作。在对对方有了足够的信任之后，诚意也是必不可少的，如果没有诚意或者太过贪婪，就可能闹到双方都没有好处的糟糕情况，造成企业之间的双输。 2. 智猪博弈在博弈论（Game Theory）经济学中，“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是

博弈论谢识予第四五章参考答案

第四章参考答案 2、火车站和机场餐饮商业服务的顾客往往都是一次性的，回头客、常客比较少，这些经济交易具有一次性博弈的特征，它们的价格总是较高而质量又会差一些，顾客也会尽量不在这些地方购买商品和消费。在一般商业区和居民区的餐饮商业服务则回头客和常客较多，有明显的重复博弈特征，在居民区购买商品和消费的老顾客一般能得到比较公平、优惠的价格，还能得到较好的服务，甚至有些还可以信用消费（赊账），因此消费者一般会比较放心地消费。这就是现实生活中重复博弈和一次性博弈效率不同的典型例子之一。 3、从研究对象和问题特征看，有限次重复博弈研究的主要是有明确结束时间的（合作、竞争等）关系，无限次重复博弈研究的主要是没有明确结果时间，或者较长期的关系。从分析方法的角度，动态博弈和重复博弈分析中常用的逆推归纳法在无限次 16 重复博弈中无法直接运用，因为没有最后一次重复。因此无限次重复博弈分析的主要方法是构造法，即根据特定效率意义等构造了博弈完美纳什均衡。此外，也可以运用某些技巧解决问题，如教材中利用三阶段讨价还价博弈分析无限阶段讨价还价博弈的技巧。从博弈的结果看，无限次重复博弈的效率往往高于有限次重复博弈，有些在有限次重复博弈中无法实现的效率较高的结果，在无限次重复博弈中有可能实现。例如囚徒的困境型博弈的无限次重复博弈和有限次重复博弈就体现了这种差别。两类重复博弈民间定理的差异也说明了这一点。最后，在重复次数不多的有限次重复博弈中不一定要考虑得益贴现问题，在我限次重复博弈问题中这是必须考虑的。上述区别在理论方面最主要的启发是重视有限次和无限次重复博弈的区别，区分研究这两类博弈问题是非常重要的，在实践方面的主要启发是促进和保持经济关系的长期稳定性，对于提高社会经济效率等常常有非常重要的意义。 6、用画线法容易找出该博弈的两个纯策略纳什均衡（T，L）和（M，R）。这两个纳什均衡的得益都帕累托劣于（B，S）。一次性博弈中效率较高的（B，S）不可能实现。但该博弈的结构表明存在双方合作的利益，在两次重复博弈中也有构造惩罚机制的条件，因此我会考虑运用试探合作的触发策略争取部分实现（B，S），提高博弈的效率。我作为博弈方1会采用这样的触发策略：第一次重复采用B；第二次重复时，如果前一次的结果是（B，S），则采用M，如果前一次的结果是其他，则采用T。如果另一个博弈方有同样的分析能力，或者比较有经验，那么他（或她）也会采用相似的触发策略：在第一次重复时采用S；第二次重复时，如果前一次的结果是（B，S），则采用R，否则采用L。双方采用上述触发策略构成一个子博弈完美纳什均衡，因此是稳定的。这时候前一次重复实现了（B，S），提高了博弈的效率。当然，上述触发策略也是有风险的，因为当另一个博弈方不理解和没有采用上述策略时，我的得益会较低。当然如果考虑到人们具有学习进步的能力，而且缺乏分析和学习能力，采用效率较低策略的博弈方长期中会逐步被淘汰掉，那么采用上述触发策略的合理性就得到了进一步的支持。

博弈论理论经典讲解

博弈论经典案例冰晶淩（杂物区）2010-04-09 22:31:28 阅读258 评论0 字号：大中小订阅引用光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家：纳什，泽尔腾和海萨尼．而博弈论可以划分为合作博弈和非合作博弈．那三位博弈论专家的贡献主要是在非合作博弈方面，而且现在经济学家谈到博弈论，一般指的是非合作博弈，很少指合作博弈．合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时，当事人能否达成一个具有约束力的协议，如果有，就是合作博弈；反之，就是非合作博弈．非合作博弈强调的是个人理性，个人最优决策，其结果可能是有效率的，也可能是无效率的．而合作博弈强调的是团体理性．下面是我收集的张维迎教授的几个有关博弈论的经典案例．＜案例一：囚徒困境＞囚徒困境讲的是两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里审讯．警察告诉他们：如果两人都坦白，各判刑8年；如果两个都抵赖，各判1年(或许因证据不足)；如果其中一人坦白一人抵赖，坦白的放出去，不坦白的判刑10年(这有点＇坦白从宽，抗拒从严＇的味道)．这里，每个囚徒都有两种战略：坦白或抵赖．表中每一格的两个数字代表对应战略组合下两个囚徒的支付（效用），其中第一个数字是第一个囚徒的支付，第二个数字为第二个囚徒的支付．战略形式又称标准形式，是博弈的两种表述形式之一，它特别方便于静态博弈分析．在这个例子里，纳什均衡就是（坦白，坦白）：给定B坦白的情况下，Ａ的最优战略是坦白；同样，给定Ａ坦白的情况下，Ｂ的最优战略也是坦白．事实上，这里，（坦白，坦白）不仅是纳什均衡，而且是一个占优战略均衡．就是说，不论对方如何选择，个人的最优选择是坦白．比如说，如果Ｂ不坦白，Ａ坦白的话被放出来，不坦白的话判１年，所以坦白比不坦白好；如果Ｂ坦白，Ａ坦白的话判８年，不坦白的话判１０年，所以，坦白还是比不坦白好。这样，坦白就是Ａ占优战略；同样，坦白也是Ｂ的占优战略．结果是，每个人都选择坦白，各判刑８年．＜案例二：智猪博弈＞这个例子讲的是，猪圈里有两头猪，一大一小．猪圈的一头有一个猪食槽，另一头安装一个按钮，控制着猪食的供应。按一下按钮会有１０个单位的猪食进槽，但谁按按钮需要付２个单位的成本．若大猪先到，大猪吃到９个单位，小猪只能吃１个单位；若同时到，大猪吃７个单位，小猪吃３个单位；若小猪先到，大猪吃６个单位，小猪吃４个单位。表中第一格表示两猪同时按按钮，因而同时走到猪食槽，大猪吃７个，小猪吃３个，扣除２个单位的成本，支付水平分别为５和１．其他情形可以类推．在这个例子中，什么是纳什均衡？首先我们注意到，无论大猪选择＂按＂还是＂等待＂，小猪的最优选择均是＂等待＂．比如说给定大猪按，小猪也按时得到１个单位，等待则得到４个单位；给定大猪等待，小猪按得到－１单位，等待则得０单位，所以，＂等待＂是小猪的占优战略．给定小猪总是选择＂等待＂，大猪的最优选择只能是＂按＂．所以，纳什均衡就是：大猪按，小猪等待，各得４个单位．多劳者不多得！＜案例三：性别战＞

博弈论基础作业及答案

博弈论基础作业及答案Last revision on 21 December 2020

博弈论基础作业一、名词解释纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识见PPT 二、问答题 1.举出囚徒困境和智猪博弈的现实例子并进行分析。囚徒困境的例子：军备竞赛；中小学生减负；几个大企业之间的争相杀价等等；以中小学生减负为例：在当前的高考制度下，给定其他学校对学生进行减负，一个学校最好不减负，因为这样做，可以带来比其他学校更高的升学率。给定其他学校不减负，这个学校的最佳应对也是不减负。否则自己的升学率就比其他学校低。因此，不论其他学校如何选择，这个学校的最佳选择都是不减负。每个学校都这样想，所以每个学校的最佳选择都是不减负，因此学生的负担越来越重。请用同样的方法分析其他例子。智猪博弈的例子：大企业开发新产品；小企业模仿；股市中，大户搜集分析信息，散户跟随大户的操作策略以股市为例：给定散户搜集资料进行分析，大户的最佳选择是跟随。而给定散户跟随，大户的最佳选择是自己搜集资料进行分析。但是不论大户是选择分析还是跟随，散户的最佳选择都是跟随。因此如果大户和散户是聪明的，并且大户知道散户也是聪明的，那么大户就会预见到散户会跟随，而给定散户跟随，大户只有自己分析。请用同样的方法分析其他例子。 2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。破釜沉舟是一个承诺行动。目的是要断绝自己的退路，让自己无路可退，让自己决一死战变得可以置信。也就是说与敌人对决时，只有决一死战，这样才可以取得胜利。否则，如果不破釜沉舟，那么遇到困难时，就很有可能退却，也就无法取得胜利。穷寇勿追就是要给对方一个退路，由于有退路，对方就不会殊死抵抗。否则，对方退无可退，只有坚决抵抗一条路，因而必然决一死战。自己也会付出更大的代价。

博弈论三大经典案例

经典的囚徒困境 1950年，由就职于兰德公司的梅里尔·弗拉德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问阿尔伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择： ?若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。 ?若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。 ?若二人都互相检举（互相“背叛”），则二人同样判监2年。用表格概述如下：甲沉默（合作）甲认罪（背叛）乙沉默（合作）二人同服刑半年甲即时获释；乙服刑10年乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择： ?若对方沉默、背叛会让我获释，所以会选择背叛。 ?若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。由囚徒困境可以写出类似的员工困境：一名经理，数名员工; 前提，经理比较苛刻; 如果所有员工都听从经理吩咐，则奖金等待遇一样，不过所有人都超负荷工作如果某人不听从吩咐，其他人听从吩咐，则此人下岗。其他人继续工作如果所有人都不听从经理吩咐，则经理下岗但是，由于员工之间信息是不透明的，而且，都担心别人听话自己不听话而下岗，所以，大家只能继续繁重的工作. 囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

博弈论的基础知识与应用

博弈论的基础知识与应用(转) 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰.冯.诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡.摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括：1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是“理性”的？ 3）如果对2）的回答是“有时候是”，那么在什么样的环境下侵略是理性的，在什么样的情况下合作是理性的？ 4）在特定情况下，正在持续的关系与单方退出这种关系是不同的吗？ 5）在理性的自我主义者的行为互动中，合作的道德规则可以自然而然地出现吗？ 6）在这些情况下，真正的人类行为与“理性”行为是否相符？ 7）如果不符，在那些方面不符？相对于“理性”，人们更倾向于合作？或者更倾向于侵略？抑或二者皆是？因而，博弈论研究的“博弈”包括：破产门口的野蛮人（Barbarians at the Gate）网络战（Battle of the Networks）货物出门，概不退换（Caveat Emptor）征召（Conscription）协调（Coordination）逃避（Escape and Evasion）青蛙呼叫配偶（Frogs Call for Mates）鹰鸽博弈（Hawk versus Dove） Mutually Assured Destruction 多数决定原则（Majority Rule） Market Niche 共同防卫（Mutual Defense）囚徒困境（Prisoner’s Dilemma）补贴小商业Subsidized Small Business 公共地悲剧Tragedy of the Commons 最后通牒Ultimatum

博弈论第四章习题

第四章习题一、如果T次重复齐威王田忌赛马，双方在该重复博弈中的策略是什么？博弈结果如何？答：因为这是零和博弈，结论比较具体。重复Nash 均衡，均以1/6的概率选择各个策略，期望收益分别为1和-1。因为这是竞争性的零和博弈，无论是有限次重复博弈还是无限次的重复博弈，均不能达成合作的条件。二、举出现实生活中的一个重复博弈与一次性博弈效率不同的例子。答：火车站和机场餐饮业的服务的顾客往往是一次性的，回头客和常客也比较少，价格高，质量差，一次性博弈。效率也比较低。商业区和居民区的餐饮业和商业服务业，回头客和常客比较多，比较注重信誉，质优、价廉，重复博弈。效率也比较高。三、有限次重复博弈和无限次重复博弈有什么区别？这些区别对我们有什么启发？

答：动态博弈的逆向归纳法可以用于有限次重复博弈，但不能用于无限次重复博弈，主要用逆向归纳法。无限次重复博弈的效率往往高于有限次重复博弈。当重复次数较少不一定考虑贴现问题，但无限次重复博弈必须考虑贴现问题。启发：重视有限次与无限次的区别，区分和研究这两类博弈，在实践方面重要启发是促进和保持经济的长期稳定和可持续发展，提高社会经济效率是非常有意义的。四、判断下列表述是否正确，并作简单讨论：（1）有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。答：不一定。对于有两个以上纯策略纳什均衡的条件下就不一定。如“触发策略”就不是。（2）有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。答：是，根据子博弈完美纳什均衡的要求，最后一次必须是原博弈的一个纳什均衡。（3）无限次重复博弈均衡解的得益一定优于原博

博弈论中的几个经典问题精编版

博弈论中的几个经典问题集团企业公司编码：（LL3698-KKI1269-TM2483-LUI12689-ITT289-

3、次序（orders）：各博弈方的决策有先后之分，且一个博弈方要作不止一次的决策选择，就出现了次序问题；其他要素相同次序不同，博弈就不同。 4、博弈涉及到均衡：均衡是平衡的意思，在经济学中，均衡意即相关量处于稳定值。在供求关系中，某一商品市场如果在某一价格下，想以此价格买此商品的人均能买到，而想卖的人均能卖出，此时我们就说，该商品的供求达到了均衡。 5、纳什均衡(NashEquilibrium)：在一策略组合中，所有的参与者面临这样一种情况，当其他人不改变策略时，他此时的策略是最好的。也就是说，此时如果他改变策略他的支付将会降低。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中，当局中人A采取其最优策略a*,局中人B 也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a，那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。经典的博弈问题 1、“囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯（Ａ和Ｂ）作案后被警察抓住，隔离审讯；警方的政策是"坦白从宽，抗拒从严"，如果两人都坦白则各判８年；如果一人坦白另一人不坦白，坦白的放出去，不坦白的判１０年；如果都不坦白则因证据不足各判１年。在这个例子里，博弈的参加者就是两个嫌疑犯Ａ和Ｂ，他们每个人都有两个策略即坦白和不坦白，判刑的年数就是他们的支付。可能出现的四种情况：Ａ和Ｂ均坦白或均不坦白、Ａ坦白Ｂ不坦白或者Ｂ坦白Ａ不坦白，是博弈的结果。Ａ和Ｂ均坦白是这个博弈的纳什均衡。这是因