“囚徒困境”中非纳什均衡出现的可能性及其原因分析

摘要：“囚徒困境”博弈是完全信息静态博弈的典型例子，被认为是上策纳

什均衡，具有必然性，但在现实中非纳什均衡也同样出现。本文就“囚徒困境”中非纳什均衡出现的问题，对博弈的前提假设完全理性、完全信息以及概率进

行了分析，得出的结论是：完全理性中的整体思维方式和概率为零的事件的发

生以及完全信息等于一致信念时引起的不确定性，都可能导致非纳什均衡出现，而其出现的可能性则取决于采取整体思维方式的人的比例。

关键词：囚徒困境；完全理性；概率；完全信息；整体思维方式

The Analysis about the Probability and Reasons of Non-

Nash Equilibrium in Prisoners’Dilemma

Abstract: The prisoners’dilemma, which is the representative example of complete information static game, is deemed to dominant-

strategy Nash equilibrium and has the inevitability, but in fact non-

Nash equilibrium also appears. To the question of non-

Nash equilibrium in prisoners’dilemma, this paper makes an analysis to Game Theory’s hypothesis: complete rationality, complete information and probability, and gets a result: sy stems thinking style in complete rationality, the happen of the event of zero probability, and the uncertainty that is brought out when complete information is concordant beliefs,

all can bring the appearance of non-

Nash equilibrium, and the probability of appearance is decide

d by th

e proportion o

f men who think in systems thinkin

g s tyle.

Key Words: prisoners’dilemma; complete rationality; probabili ty; complete information; systems thinking style

“囚徒困境”博弈是图克（Tucker）1950年提出的一个著名的博弈模型，是完

全信息静态博弈的典型例子。

一、“囚徒困境”博弈及其纳什均衡

囚徒困境博弈的基本情况如下：警察抓住了两个合伙犯罪的罪犯，但却缺乏足

够的证据指证他们所犯的罪行。如果其中至少有一人供认犯罪，就能确认罪名

成立。为了得到所需的口供，警察将这两名罪犯分别关押以防止他们串供或结

成攻守同盟，并给他们同样的选择机会；如果他们两人都拒不认罪，则他们会

被以较轻的妨碍公务罪各判1年徒刑；如果两人中有一人坦白认罪，则坦白者

从轻认罪，立即释放，而另一人则将重判8年徒刑；如果两人同时坦白认罪，

则他们将被各判5年监禁。

如果分别用－1、－5和－8 表示罪犯被判刑1年、5年和8年的得益，用0表示罪犯被立即释放的得益，则两囚徒的得益矩阵如下：

囚徒2

坦白不坦白

囚徒1 坦白－5，－5 0，－8

不坦白－8，0 －1，－1

在上图中，“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方，也就是两个罪犯；他们各自都有“不坦白”和“坦白”两种可选择的策略；因为这两个

囚徒被隔离开，其中任何一人在选择策略时都不可能知道另一人的选择是什么，因此不管他们决策的时间是否真正相同，我们都可以把他们的决策看作是同时

做出的。其中矩阵中第一个数字代表决策结果后囚徒1的得益，第二个数字代

表决策结果后囚徒2的得益。

博弈的结果是：由于这两个囚徒之间不能串通，并且各人都追求自己的最大利

益而不会顾及同伙的利益，双方又都不敢相信或者说指望对方有合作精神，因

此只能实现对他们都不理想的结果（各判5年），并且这个结果具有必然性，

很难摆脱，因此这个博弈被称为“囚徒困境”。［1］

二、非纳什均衡出现的可能性及其原因分析

1、完全理性与非纳什均衡

囚徒困境博弈的一个假设是博弈方具有完全理性的行为能力。完全理性来源于

经济学中的理性人假设，即博弈方都以个体利益最大化为目标，且有准确的判

断选择能力，也不会“犯错误”。以个体利益最大为目标被称为“个体理性”，有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。具体地说来，完全理性包括追求最大利益的理性意识、分析推理能力、识别判断能力、

记忆能力和准确行为能力等多方面的完美性要求，其中任何一方面不完美就不

属于完全理性。［1］我们可以看出，这是一个要求非常严格的假设。即便如此，完全理性仍在一个方面没有做出规定（至少是没有意识到或明确地规定出来），就是思维方式，也即是博弈方是以将问题分解的方式来思考问题呢，还是以系

统的整体的方式来思考问题的。我引用《第五项修炼》上的一段话来表达这两

种思维方式的不同。

自幼我们就被教导把问题加以分解，把世界拆成片片段段来理解。这显然能够

使复杂的问题容易处理，但是无形中，我们却付出了巨大的代价――全然失掉

对“整体”的连属感，也不了解自身行动所带来的一连串后果。于是，当我们

想一窥全貌时，便努力重整心中的片段，试图拼凑所有的碎片。但是就如物理

学家鲍姆（David Bohm）所说的，这只是白费力气；就像试着重新组合一面破镜子的碎片，想要看清镜中的真像。经过一阵子努力，我们甚至干脆放弃一窥

全貌的意图。

现在我们以系统的整体的思维方式来重新分析囚徒困境博弈。警察的目的是获

得证据，以使囚徒获得应有的惩罚，囚徒的目的是“获取”最少的惩罚。双方

的这种矛盾使得囚徒有串通的倾向，为了离间两个囚徒，警察确立了模型中的

规则（且不论这些规则和设置合不合理）。对每个囚徒来说，要想达到自身的

目的，而不考虑整个模型设置的让双方都坦白的目的，很显然是不行的。囚徒

该如何选择呢？答案是不坦白。如果囚徒看出了该模型的目的，若选择坦白，

以自推人，对方也会选择坦白，必然落入警察的圈套，此所谓鹬蚌相争，渔翁

得利。当两博弈方都用整体思维来考虑这个问题时，相互配合是其最好的选择，因为在完全理性假设前提下，自己选择坦白而另一方选择不坦白，这种机

会是没有的，这种饶幸心理也是取不得的，剩余的只有要不都坦白，要不都不

坦白，所以相互配合是其最好的选择，结果一定是不坦白。此所谓兄弟阋于墙，

浅析囚徒困境与纳什均衡

浅析囚徒困境囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效，中小学生课业负担不减反增。又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。可是，我错了吗？没有。当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。可是，我对了吗？没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。再看中国的法治之路。虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。不过，任何事物都有两面性，“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。但囚徒困境一定是坏事吗？就以囚徒困境的经典案例来说，作为一个比喻，我们会为囚犯不能合作而遗憾；可是如果它发生在现实中，我们就巴不得他们不能合作。然而如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺，向另一方表示合作的善意，努力把这个善意表达清楚，并传达出去。比如在楼市的囚徒困境中，政府能适当调控房价，给予购房者房价稳定合理的承诺，那么楼市的囚徒困境是有可能破解的。在重复的囚徒困境中，博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出

博弈论与纳什均衡

《博弈论与纳什均衡理论》姓名张贺祺学号 2010010404 专业政治经济学指导老师张秉云

摘要博弈论是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题，具有斗争或竞争性质现象的数学理论和方法，也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。关键字：博弈论；纳什均衡；合作博弈；非合作博弈

目录摘要 (2) 关键字 (2) 一、引言 (4) 二、博弈论与纳什均衡的主要内容 (4) （一）博弈论的主要思想 (4) （二）博弈论的分类 (5) 三、经典案例 (7) （一）博弈论的经典案例 (7) （二）纳什均衡经典案例 (7) 四、博弈论和纳什均衡的重要影响 (8) （一）博弈论的重要影响 (8) （二）纳什均衡的重要影响 (8) 参考文献 (9)

博弈论与纳什均衡理论一、引言近代对于博弈论的研究，开始于策墨咯（Zermelo），波雷尔（Borel）及冯·诺伊曼（von Neumann）。 1928年，冯·诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。1944年，冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。1950～1951年，约翰·福布斯·纳什（John Forbes Nash Jr）利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。此外，塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的学科。博弈论（Game Theory）:亦名“对策论”、“赛局理论”，属应用数学的一个分支，主要研究公式化了的激励结构间的相互作用。是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题，具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。纳什均衡：（Nash equilibrium）又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。假设有n人局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己利益最大化。所有局中人策略构成一个策略组合（Strategy Profile）。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。二、博弈论与纳什均衡的主要内容（一）博弈论的主要思想一个完整的博弈应当包括五个方面的内容：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；第二，博弈信息，即博弈者所掌握的对选择策略有帮助的情报资料；第三，博弈方可选择的全部行为或策略的集合；第四，博弈的次序，即博弈参加者做出策略选择的先后；第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。博弈论模型可以用五个方面来描述:G = {P, A S, I, U) P：为局中人，博弈的参与者，也称为博弈方，局中人是能够独立决策，独立承担责任的个人或组织，局中人以最终实现自身利益最大化为目标。决策人：在博弈中率先做出决策的一方，这一方往往依据自身的感受、经验和表面状态优先采取一种有方向性的行动。对抗者：在博弈二人对局中行动滞后的那个人，与决策人要做出基本反面的决定，并且他的动作是滞后的、默认的、被动的，但最终占优。他的策略可能依赖于决策人劣势的策略选择，因此对

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法摘要：囚徒困境是博弈论中的一个重要范例，这个问题涉及各个领域。本文通过三个简单的实例，来谈谈解决的方法。案例一：一个面馆的囚徒困境我曾经在路边一个小店里吃面，由于当时客人不是很多，就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅，开始的时候为了调动他的积极性他们采用按销售量分成，一碗面给5毛钱提成。这样的话，客人越多他挣得也就越多，为了吸引更多的顾客，他在碗里放很多的肉来吸引回头客，一碗面才6块钱，本来就靠薄利多销，他放的肉多，面馆自然也赚不到钱。后来呢，就换了一个结算方式，给厨师发固定的工资，这样客人多少跟他没有什么关系，但是新的问题又出现了，这次他在碗里放肉放很少，基本上把所有的客人都赶走了。客人少了，他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧，由于没有处理好，使得双方都处在不利的结局。解决方法：面馆的老板应该对厨师明确，每碗面的元材料是固定的，大师傅的工资还是按照销售量提成走，但是前题是每个月使用的原材料不能超额，否则只有基本工资。或者就规定每碗面里就放多少克肉。此外，还有一个更简单的办法就是：面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。经过以上的分析，我们可以得知解决的方法：1.工资加提成的制度确实能调动员工的积极性；2.权利下放可以，但是要有度；3.员工的工资提成不能只和销量挂钩，应该和老板的利润挂钩。4.有效的沟通、激励，平时给员工传达精神的奖励，让员工认为自己也是公司的主人。案例二：小餐馆的囚徒困境在天津新建的一片经济适用房社区里有两家小餐馆，他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房，而周边像小饭馆这样的生活配套设施很缺乏，所以附近的建筑工人都是在这两家小饭馆解决三餐。这两家餐馆因为在口味、价格、菜的品种等都基本相同，所以一直以来这两家面对都是这些人，营业额都差不多，而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长，就在今年的夏天，两家餐馆的其中一家，暂且称为A

博弈论66个经典例子(9)不会令人后悔的纳什均衡

不会令人后悔的均衡在纳什均衡中，你不一定满意其他的策略，但你的策略是回馈对手招数的最佳策略。从囚徒困境中我们会发现，作为博弈各方的行动就是针对对方行动而确定的最佳对策，而一旦知道对方在做什么，就没人愿意改变自己的做法。博弈论学把这么一个结果称为均衡。这个概念是有普林斯顿大学数学家约翰·纳什提出的，因此被称为纳什均衡。诺贝尔经济学奖获得者萨缪尔森有句名言，你可以将一只鹦鹉训练成经济学家，因为它所需要学习的只有两个词，供给与需求。博弈论专家坎多瑞引申说：“要成为现代经济学家，这只鹦鹉必须再多学一个词，这个词就是纳什均衡”。 1950年，还是一名研究生的纳什写了一篇论文，题为《n人博弈的均衡问题》，该文只有短短一页纸，可就这短短一页纸成了博弈论的经典文献。纳什的贡献是，他证明了在这一类的竞争中，在很广泛的条件下是有稳定解存在的，只要是别人的行为确定下来，竞争者就可以有最佳的策略。那么，什么纳什均衡呢？简单说，就是一策略组合中，所有的参与者面临这样的一种情况：给定你的策略，我的策略是我最好的策略。给定我的策略，你的策略也是你最好的策略，即双方在对方给定的策略下不愿意调整自己的策略。纳什均衡从此成为经济学家用来分析商业竞争到贸易谈判现象的有力工具，所以纳什均衡是对冯诺依曼和摩根斯坦的合作博弈论的重大发展，甚至说是一场革命。纳什均衡首先对亚当斯密“看不见的手”的原理提出挑战，按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果，

从纳什均衡引出一个悖论：从利己的目的触发，结果损人不利己。“囚徒困境”就是如此，从这个意义说，纳什均衡提出的悖论实际上动摇了西方经济学的基石。纳什的想法成为我们指导“同时行动博弈”的最后一个法则的基础。这个法则如下：走完寻找优势策略和剔除劣势策略的捷径之后，下一步就是寻找这个博弈的均衡。所谓博弈均衡，它是一稳定的博弈结果。均衡是博弈的一结果，但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的，因而是可以预测的。在囚徒困境中存在唯一的纳什均衡点，即两个囚犯均选择“招认”，这是唯一稳定的结果。有些博弈的纳什均衡点不止一个，如下述夫妻博弈中有两个纳什均衡点。丈夫和妻子商量晚上的活动，丈夫喜欢看拳击，而妻子喜欢欣赏歌剧，但两个人都希望在一起度过夜晚。在这个夫妻博弈中有两个纳什均衡点：要么一同去看歌剧，要么一同去看拳击。在有两个或两个以上纳什均衡点的博弈中，其最后的结果难以预测。在夫妻博弈中，我们无法知道，最后结果是一同欣赏歌剧还是一同看拳击。是不是所有的博弈均存在纳什均衡点呢？不一定存在纯策略纳什均衡点，但至少存在一个混合策略均衡点。这里所谓纯策略是指参与者在他的策略空间中选取唯一确定的策略，所谓混合策略是指参与者采取的不是唯一的策略，而是其策略空间上的概率分布。我们下面将在警察与小偷的博弈中给出混合策略的说明。在西部片里，我们常能看到这样的故事：某个小镇上只有一名警察，他要负责整个镇的治安，现在我们假定，小镇的一头有一家酒馆，另一头有一家银行，再假定该地有一个小偷，要实施偷盗。因为分身乏术，警察一次只能在一个地方

囚徒困境案例分析

囚徒困境解说例子 1950年，由就职于兰德公司的梅里尔·弗勒德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问艾伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监1年。若二人都互相检举（相关术语称互相“背叛”），则二人同样判监8年。用表格概述如下：解说如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。

博弈论论文囚徒困境的启示和思考

囚徒困境的启示和思考二、囚徒困境的解释如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑8年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑1年，总体利益更高，结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。实际上囚徒困境在我们的实际生活中也有很多，下面举两个进行说明

三、经济学例子：关税战两个国家，在关税上可以有以两个选择: 提高关税，以保护自己的商品。（背叛）与对方达成关税协定，降低关税以利各自商品流通。（合作）当一国因某些因素不遵守关税协定，独自提高关税（背叛），另一国也会作出同样反应（亦背叛），这就引发了关税战，两国的商品失去了对方的市场，对本身经济也造成损害（共同背叛的结果）。然后二国又重新达成关税协定。（重复博弈的结果是将发现共同合作利益最大。）四、商业例子：广告战商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。两个公司互相竞争，二公司的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。但若不提高广告质量，生意又会被对方夺走。此二公司可以有二选择：互相达成协议，减少广告的开支。（合作）增加广告开支，设法提升广告的质量，压倒对方。（背叛）若二公司不信任对方，无法合作，背叛成为支配性策略时，二公司将陷入广告战，而广告成本的增加损害了二公司的收益，这就是陷入囚徒困境。在现实中，要二互相竞争的公司达成合作协议是较为困难的，多数都会陷入囚徒困境中。除了这些还有的很多类似的例子，比如说公共产品的提供，商家的价格战等等，在这里就不多赘述了。五、“囚徒困境”现象的意义和启示通过以上几个关于囚徒困境的例子，特别是作为经济管理学院的学生，我们可以将博弈论的一些知识运用好，更好的指导我们的经济生活。理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。在经济发展中，我们应该认识到“看不见的手”还有更多内涵，有待我们去发掘。本文主要通过对该理论的分析，从中发现对企业经营管理活动的有义启示。第一，在市场竞争过程中，一名优秀的经营者，无论做任何决策还是考虑问题应该有战略眼观，特别是在做出对企业乃至行业今后发展的竞争策略时，从长远出发，做正确的决断。第二，保存对手就是保存自己。在市场竞争中，让竞争对手发展就是自己发展，本着求同存异的思想，共谋发展，避免恶性竞争，避免两败俱伤的情况。第三，市场竞争不是纯粹的竞争，在义和利之间应该如何取舍，是一位有战略眼观的企业家该做的第一个选择。 2杜兰：走出“囚徒困境”《通信企业管理》[J] 2003年第4期，第31页

博弈论与纳什平衡

博弈论与纳什平衡博弈论（game theory）对人的基本假定是：人是理性的（rational，或者说自私的）,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。纳什（John Nash）编制的博弈论经典故事"囚徒的困境"，说明了非合作博弈及其均衡解的成立，故称"纳什平衡"。所有的博弈问题都会遇到三个要素。在囚徒的故事中，两个囚徒是当事人(players)又称参与者；当事人所做的选择策略(strategies)是承认了杀人事实，最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人，另外一个抵赖，不承认杀人，那么承认者将会得到减刑处理，而抵赖者将会得到最严厉的死刑判决，在纳什故事中两个人都承认了犯罪事实，所以两个囚徒得到的是中间的结果。类似的：我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。在互联网这个原始丛林中：最优策略是如何产生的呢？一、博弈中最优策略的产生艾克斯罗德（Robert Axelrod）在开始研究合作之前，设定了两个前提：一、每个人都是自私的；二、没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你合作。社会实践中有很多合作的问题。比如国家之间的关税报复，对他国产品提高关税有利于保护本国的经济，但是国家之间互提关税，产品价格就提高了，丧失了竞争力，损害了国际贸易的互补优势。在对策中，由于双方各自追求自己利益的最大化，导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。 A和B各表示一个人，他们的选择是完全无差异的。选择C代表合作，选择D代表不合作。如果AB都选择C合作，则两人各得3分；如果一方选C，一方选D，则选C的得零分，选D的得5分；如果AB都选D，双方各得1分。显然，对群体来说最好的结果是双方都选C，各得3分，共得6分。如果一方选C，一方选D，总体得5分。如果两人都选D，总体得2分。对策学界用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于A来说，当对方选C，他选D得5

囚徒困境研究专题

第五章囚徒困境研究专题一、囚徒困境为什么被关注？之所以囚徒困境被广泛的关注，不仅仅在于它由强大的解释力，如它可以解释企业竞争，应试教育困境，集体劳动悲剧等等，更重要的在于人们从中看到一个深刻的问题：个体理性与集体理性的冲突。哈丁的公共地悲剧（1968）如何破解？重复进行！什么是重复博弈？重复博弈指的是参与人之间进行多次相同的博弈，每个人所得收益为每次博弈的收益之和。注意：（1）这里的收益之和应该考虑贴现率。（2）重复博弈分为有限次重复和无限次重复有限次重复囚徒困境博弈的特征：（1）完全但不完美信息，（2）重复。有限次重复囚徒困境的解，每步都“不合作”为纳什均衡。二、无限次重复囚徒困境中的策略两个参与人无限次地重复囚徒困境，每个人的收益为每次博弈所获收益之和。在这样的博弈中因无最后一步，我们无法通过逆向归纳法来求解它。无限次重复囚徒困境博弈及其各种策略分析：触发策略：参与人开始采取合作行动，若发现对方在某步采取“背叛”行动，参与人以后都采取背叛行动。 “永远合作”：在每个囚徒困境博弈中均采取“合作”策略二无论对方采取什么策略。一旦采取这个策略，对方的最优策略是每步均采取“背叛”策略。在重复囚徒困境博弈中人们通过策略的变化或偏离进行学习的。一旦人们的合作行动的偏离——无论这样的偏离是有意还是无意的——得到额外的好处、对方遭受损失，同时这样的偏移没有被“惩罚”，人们将尝试性的进一步偏移。我们看到，若某个参与人在重复囚徒困境中采取永远“合作”，其结果是对方将通过一步步偏移，直至永远偏离。因此，理性人应该知道上述这个分析的结论，他不会采取这个永远合作策略。 “永远背叛”策略：在对方第一步采取合作并假定对方以后采取“一报还一报”的情况下，第一步或者某一步主动采取“背叛”的收益为： U=4+2δ+2δ2+……=4+2δ/(1-δ) U’= 3+3δ+3δ2+……=3+3δ/(1-δ) U≥U’ δ≤1/2.

囚徒困境和纳什均衡

囚徒困境和纳什均衡当对手知道了你的决定之后，就能做出对自己最有利的决定------普林斯顿大学数学家约翰·纳什囚徒困境著名的“囚徒困境”，是纳什均衡理论的经典案例。警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供一下相同的选择：若有一人认罪并作证检控对方（背叛对方）而对方保持沉默，此人将立即获释，沉默者将判监禁十年。若两人都保持沉默(互相合作）则两人同时被判监禁半年。若两人都互相检举（互相背叛）则两人同时监禁两年。如同博弈论的其他论证，囚徒困境假设每个囚徒都是利己的，激斗寻求自己的最大利益。囚徒到底应该选择哪一项策略，才能将自己的刑期缩至最短？两名囚徒由于相互隔离监禁，并不知道对方的选择。试想困境中两名理性的囚徒会如何选择：若对方沉默，背叛会让我获释，所以对方会选择背叛。若对方背叛我，我也要指控对方才能得到较低的刑期，所以也是这样会选择背叛。二人面对的情况一样，所以二人的理想思考会得到相同的答案----选择背叛。背叛是两种策略之间的支配性策略。因此这场博弈中唯一可能达到的纳什均衡就是两人选择同时背叛对方，结果两人同时服刑两年。这场博弈的纳什均衡，显然不是最优的解决方案。如果两人都选择沉默，两人都只会被判刑半年。但根据以上假设，两人均为理性的个人，均衡状况回事两个囚徒都选择背叛。这就是“困境”所在。寻找“纳什均衡点” 在现实生活中，纳什均衡理论影响着人们的行为。比如，在有些国家，报亭既无管理人员也不上锁，买报纸的人在自行放下前后拿走报纸。当然某些人可能取走报纸却不付钱（背叛）但由于大家意识到如果每个人都偷窃报纸（共同背叛）会造成以后不方便的有害结果，这种情形很少发生。在商业活动中，也会出现各种各样的囚徒困境的例子。两个公司相互竞争，他们的广告互相影响，即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告，收入增加很少但成本增加。因此，这两家公司可以有两种选择:1.互相达成协议，减少广告的开支（合作）；2.增加广告开支，设法提升广告的质量，压倒对方（背叛）。若两家公司不信任对方，无法合作，背叛成为支配性策略时，它们将陷入广告战，而广告的成本的增加损害了两家公司的利益，这就是陷入囚徒困境。在现实中，要互相竞争的公司达成合作协议是比较困难的，多数会陷入囚徒困境中。在自行车赛事或者长跑赛事中，也会出现一种博弈。例如，每年都会举行的的环法自行车赛事中有以下情况：选手们在到终点前的路程常以大部队方式前进，他们采取这种策略是为了令自己不至于太落后，又出力适中。最前方的选手在迎风时是最费力的，所以在前方是最差的策略。因此，在起先阶段，大家都不愿意在前面（共同背叛），所以这个时段，整体的速度很慢。而后，通常会有几位选手骑到前面，然后互相一段时间交换到最前面位置，以分担风的阻力（共同合作），使得全体的速度有所提升。而此时，如果前方的一人试图一直保持前方位置（背叛）其他选手以及大部队就会赶上（共同背叛）。通常情况是，在最前面次数最多的选手（合作），通常会到最后被落后的选手赶上，因为后面的选手骑在最前面选手的冲流中，比较不费力。用科学的语言来描述纳什均衡，指的是在一组策略中，所有的参与者面临这样一种情况：当其他人不改变策略时，他此时的策略是最好的。在纳什均衡点上，每一个理性的参与者都不会有单独改变策略的冲动。

博弈论和纳什均衡

关于博弈论和纳什均衡你应该知道这些美股腾讯财经[微博]2015-05-25 10:05 我要分享 139 [摘要]纳什在与命运的博弈中找到均衡，纪念大师最好的方式就是尝试了解博弈论。腾讯财经综合报道（风生）奥斯卡获奖电影《美丽心灵》主角原型、诺贝尔奖得主、美国数学家约翰-纳什日前与妻子在美国新泽西州乘搭的士时遇上车祸，两人均不幸遇难。事发当时，这辆出租车失控撞向栏杆，两人均被抛出车外。约翰-纳什因发表两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。不均衡人生中孕育出均衡论纳什于1928年在美国西弗吉尼亚州出生，曾在麻省理工学院任教，晚年为普林斯顿大学担任数学系教授，死前与82岁妻子艾丽西亚在普林斯顿居住。纳什以研究博弈论闻名，1994年获颁诺贝尔经济学奖。他的理论被运用在市场经济、计算、演化生物学、人工智能、会计、政策和军事理论等多个领域。纳什在数学领域上取得多项突破，但他同时深受精神分裂症困扰，其生平故事在2001年被改编成电影《美丽心灵》，赢得包括最佳电影在内的4项奥斯卡奖项。尽管西维亚-纳萨斯（Sylvia Nasars）广为人知的小说《美丽心灵》（A Beautiful Mind）和改编自该书的、由拉塞尔-克罗（Russell Crowe）主演的

同名奥斯卡电影探究了纳什错综复杂的生平，但都没有深入挖掘他的数学思想。他的数学成果依然不被大众所熟知。在当今科学界，人们普遍认为，与牛顿和爱因斯坦的数学理论相比，纳什的数学理论触及到的学科更多。牛顿和爱因斯坦的数学旨在处理物理问题，而纳什的数学却可以应用在生物学和社会学领域。如若不是精神疾病的困扰，纳什今天可能已与那些科学伟人齐名。尽管如此，他在几个数学领域的重要贡献大家有目共睹。他最大的成就来自于经济学方面。由于他在博弈论上的开创性成就，他与约翰海萨尼（John Harsanyi）和莱茵哈德-泽尔腾（Reinhard Selten）一起获得了1994年诺贝尔经济学奖。什么是博弈论与纳什均衡博弈论 :亦名“对策论”、“赛局理论”，属应用数学的一个分支，主要研究公式化了的激励结构间的相互作用。是研究决策主体的行为发生直接相互作用时候的决策以及这种决策的均衡问题，具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。纳什均衡：又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰-纳什命名。假设有n人局中人参与博弈，给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的战略），从而使自己利益最大化。所有局中人策略构成一个策略组合。纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。近代对于博弈论的研究，开始于策墨咯，波雷尔及冯-诺伊曼。1928年，冯-诺依曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。1944年，冯-诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。1950～1951年，约翰-福布斯-纳什利用不动点定理证明了均衡点的存在，为博弈论的一般化奠定了坚实的基础。纳什的开创性论文《n人博弈的均

博弈论之囚徒困境

博弈论之囚徒困境阿普顿是普林斯大学的高材生，毕业后被安排在爱迪生身边工作，他对依靠自学而没有文凭的爱迪生很不以为然。一次，爱迪生要阿普顿算出梨形玻璃泡的容积，阿普顿点点头，心想：这么简单的事一会几就行了。只见他拿来梨形玻璃泡，用尺上下量了几遍，再按照武样在纸上画好革田，列出了一道算式，算来算去，算得满头大汗仍没算出来。一连换了几十个公式，还是没结果，阿普顿惠得满脸通红，狼狈不堪。爱迪生在实验室等了很久，觉得奇怪，便走到阿普顿的工作问，看到几张白纸上密密麻麻的算式．便笑荚说：“您这样计算太浪费时间了。”只见爱迪生将一杯水倒连玻璃泡内，交给阿普顿说：“再找个量筒来就知道答案了。”阿普顿茅塞顿开，终于对爱迪生敬服．最后成为爱迪生事业上的好助手。有时候。科学并不一定意味着烦琐的计算与剥量，而是一种有浓厚艺术气息的思维方式。前者固然可以得出正确的结论，但是后者同样可以用一种出入意表的方式曲径通幽。这种方式，与我们在生活中运用博弈科学有异曲同工之妙。大量的教学模型吓不倒我们，因为我们可以对它们置之不理。有一个脑筋息转弯问题是这样的：在什么情况下零大干二，二大干五，五又大干零’答案是：在玩“石头．剪刀．布”游戏的时候。博弈．就是用这种游戏思维来突破看似无法改变的局面，解决现实的严肃问题的策略。在博弈中，每个参与者都在特定条件下争取其最大利益，强差一者来必胜券在握，弱者也未必永无出头之日。因为在博弈中，特别是多十参与者的博弈中，结果不仅取决干参与者的实

力与策略，而且还取决于其他参与者的制约和策略。事实上，博弈过程本来就不过是一种日常现象。我们在日常生活中经常薷要先分析他人的意田从而做出合理的行为选择，而所谓博弈就是行为者在一定环境条件和规则下，选择一定的行为或策略加以实施并取得相应结果的过程。博弈论首先是我们思索现实世界的一套逻辑，其次才是把这套逻辑严密化的数学形式。博弈论的目的在于巧妙的策略，而不是解法。我们学习博弈论的目的．不是为了享受博弈分析的过程，而在于赢得更好的结局。说到底，博弈论毕竟只是一个分析问题的工具，用这个工具来简化问题，使问题的分析清晰明了也就够了。博弈的思想既然来自现实生活，它就既可以高度抽象化地用教学工具来表述，也可以用日常事例来说明，并运用到生活中去。在斯大林时代的苏联，有一位乐队指挥坐火车前往下一个演出地点。正当他在车看当晚就要指挥演奏的作品乐谱时。两名克格勃(KGB，苏联国家安全警察。实际是政治特务将他作为间谍逮捕了。他们以为那乐谱是某种密码，这位乐队指挥争辩说那只是柴可夫斯基的小提琴协奏曲，却无济于事。在乐队指挥被投入牢房的第二天，审问者自鸣得意地走进来说：“我看你最好还是老实招了吧，我们已经抓住你的朋友柴可夫斯基了．他这会儿正向我们交代呢。你如果再不招就枪毙了你。如果交代了，只判你10年。”笑过之后，每个人都会思考其中所蕴涵的东西。但是如果认为这个笑话仅仅讽刺了克格勃特务的无知与无耻，那是不够的。事实上，克格勃们的花招，是想运

论博弈论与纳什均衡的影响及局限

论博弈论与纳什均衡的影响及局限摘要：纳什均衡指的是这样一种战略组合，这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下，没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。同时，纳什均衡理论奠定了现代主流博弈理论和经济理论的根本基础。关键词：纳什均衡、博弈论、影响、局限引言：Nash平衡是指博弈中这样的局面，对于每个参与者来说，只要其他人不改变策略，他就无法改善自己的状况。Nash在证明了在每个参与者都只有有限种策略选择、并允许混合策略的前提下，Nash平衡一定存在。以两家公司的价格大战为例，Nash 平衡意味着两败俱伤的可能：在对方不改变价格的条件下，既不能提价，否则会进一步丧失市场；也不能降价，因为会出现赔本甩卖。于是两家公司可以改变原先的利益格局，通过谈判寻求新的利益评估分摊方案，也就是Nash平衡。纳什均衡理论正如克瑞普斯①书中所说，?在过去的一二十年内，经济学在方法论以及语言、概念等方面，经历了一场温和的革命，非合作博弈理论已经成为范式的中心……在经济学或者与经济学原理相关的金融、会计、营销和政治科学等学科中，现在人们已经很难找到不懂纳什均衡能够‘消费’近期文献的领域。? 博弈论是研究决策主体的行为发生直接相互作用时候的决

以及这种决策的均衡问题，具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为，并研究它们的优化策略。一．博弈论的影响一个完整的博弈应当包括五个方面的内容：第一，博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；第二，博弈信息，即博弈者所掌握的对选择策略有帮助的情报资料；第三，博弈方可选择的全部行为或策略的集合；第四，博弈的次序，即博弈参加者做出策略选择的先后；第五，博弈方的收益，即各博弈方做出决策选择后的所得和所失。博弈论所研究的是理性的决策者之间冲突及合作的理论，可以为实际决策提供理论基础和方向指导。其最终追求结果是使博弈方达到利益最大化的均衡。博弈论不仅仅存在于数学的运筹学中，也正在经济学中占据越来越重要的地位，但如果你认为博弈论的应用领域仅限于此的话，那你就大错了。实际上，博弈论甚至在我们的工作和生活中无处不在！在工作中，你在和上司博弈，也在和下属博弈，你也同样会跟其他相关部门人员博弈；而要开展业务，你更是在和你的客户以及竞争对手博弈。在生活中，博弈仍然无处不在。博弈论代表着一种全新的分析方法和全新的思想。诺贝尔经济学奖获得者包罗·萨缪尔逊如是说：要想在现代社会

囚徒困境实验报告

《实验经济学》结课论文总分囚徒困境实验报告学院财政税务学院专业12级资产评估姓名李岩学号0506 囚徒困境实验分析一、实验目的根据囚徒困境经典悖论，通过实验来探寻单词与多次重复结果，分析结论。然后通过研究“囚徒困境”，了解囚徒困境产生的原因，想出走出囚徒困境的方法，并且理解和利用囚徒困境解决生活中与经济中的实际问题。二、实验原理囚徒困境是博弈论的非零和博弈中具代表性的例子。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。

若二人都互相检举（互相“背叛”），则二人同样判监2年。用表格概述如下：三、实验说明通过角色扮演的方式再现经典的囚徒困境。实验者两人一组，扮演囚徒。在相同的情境下看不同的实验者如何选择策略来完成实验。实验并没有考虑其他客观因素，是在完全假设的没有任何干扰囚徒做出选择的因素的情境下进行的。实验规则:实验参与人被随机地分配到有两个人组成的不同小组中。如果小组中的两个成员都选择坦白，那他们将会分别获得6年的刑期；如果小组中的两个成员都选择否认，那他们将会分别获得3年的刑期；如果小组中有一个成员选择坦白、另一个选择否认，那么选择坦白的成员获得1年的刑期，选择否认的成员获得10年的刑期。四、实验准备实验小组一共五人，通过抽签的方式分出两人，一人为囚徒一，一人为囚徒二。实验分为两种，一个是单次，一个为多次。另外三人分别记录单次实验与多次试验的结果，分析数据。五、实验步骤 1、在单次实验的情况下，囚徒一与囚徒二分别只有一次机会选择拒绝或坦白。 2、在多次重复实验的情况下，分为三轮，囚徒一与囚徒二分别有十次机会甲沉默甲背叛乙沉默二人同服刑1年乙服刑10年，甲即时获释乙背叛甲服刑10年，乙即时获释二人同服刑8年

浅析囚徒困境与纳什均衡

浅析囚徒困境令狐采学囚徒困境是博弈论的非零和博弈中具代表性的例子，指反映个人最佳选择并非团体最佳选择。囚徒困境的经典案例这里不再复述，让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境：减轻中小学生过重负担喊了20多年，仅1985年至2000年的15年里，中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来，反倒呈现出越演越烈之势，致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效，中小学生课业负担不减反增。又比如近年来炒得火热的楼市——“我没买房，结果房价还是涨了，因为我们无法保证大家都不买房。可是，我错了吗？没有。当初如果我买房了，房价下跌了呢？因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下，房价竟还能且调且涨。可是，我对了吗？没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的

经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”：买，难担高房价重负；不买，难受房价节节攀升的煎熬。再看中国的法治之路。虽然法治让所有人都长期受益，甚至执政者自己也不例外，但是一个狭隘理性社会却偏偏无力支撑法治，以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人，不会故意给自己找茬，多数律师也不例外。不过，任何事物都有两面性，“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”：一种行为模式对于个人看起来是很理性的，但是对于个人构成的集体来说却是非理性的，最后对于每个人来说也是非理性的。我们都不敢站出来说话，对每个人来说都是很“理性”的一种行为方式，但最后的结果只能是让整个社会丧失法治。但囚徒困境一定是坏事吗？就以囚徒困境的经典案例来说，作为一个比喻，我们会为囚犯不能合作而遗憾；可是如果它发生在现实中，我们就巴不得他们不能合作。然而如果是多次博弈，人们就有了合作的可能性，囚徒困境就有可能破解，合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解，这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明，要想使合作成为多次博弈的均衡解，博弈的一方（最好是实力更强的一方）必须主动通过可信的承诺，向另一方表示合

“囚徒困境”引发的思考

“囚徒困境”引发的思考 “囚徒困境”博弈是图克（Tucker）1950年提出的一个著名的博弈模型，是完全信息静态博弈的典型例子。一、基本模型囚徒困境博弈的基本情况如下：警察抓住了两个合伙犯罪的罪犯，但却缺乏足够的证据指证他们所犯的罪行。如果其中至少有一人供认犯罪，就能确认罪名成立。为了得到所需的口供，警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟，并给他们同样的选择机会；如果他们两人都拒不认罪，则他们会被以较轻的妨碍公务罪各判1年徒刑；如果两人中有一人坦白认罪，则坦白者从轻认罪，立即释放，而另一人则将重判8年徒刑；如果两人同时坦白认罪，则他们将被各判5年监禁。如果分别用－1、－5和－8 表示罪犯被判刑1年、5年和8年的得益，用0表示罪犯被立即释放的得益，则两囚徒的得益矩阵如下：囚徒2 坦白不坦白囚徒1 坦白－5，－5 0，－8 不坦白－8，0 －1，－1 在上图中，“囚徒1”、“囚徒2”分别代表本博弈中的两个博弈方，也就是两个罪犯；他们各自都有“不坦白”和“坦白”两种可选择的策略；因为这两个囚徒被隔离开，其中任何一人在选择策略时都不可能知道另一人的选择是什么，因此不管他们决策的时间是否真正相同，我们都可以把他们的决策看作是同时做出的。其中矩阵中第一个数字代表决策结果后囚徒1的得益，第二个数字代表决策结果后囚徒2的得益。博弈的结果是：由于这两个囚徒之间不能串通，并且各人都追求自己的最大利益而不会顾及同伙的利益，双方又都不敢相信或者说指望对方有合作精神，因此只能实现对他们都不理想的结果（各判5年），并且这个结果具有必然性，很难摆脱，因此这个博弈被称为“囚徒困境”。［1］二、关于完全理性的思考囚徒困境博弈的一个假设是博弈方都是完全理性。完全理性来源于经济学中的理性人假设，即博弈方都以个体利益最大化为目标，且有准确的判断选择能力，也不会“犯错误”。以个体利益最大为目标被称为“个体理性”，有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。完全理性包括追求最大利益的理性意识、分析推理能力、识别判断能力、记忆能力和准确行为能力等多方面的完美性要求，其中任何一方面不完美就不属于完全理性。［1］我们可以看出，这是一个要求非常严格的假设。即便如此，完全理性仍在一个方面没有做出规定（至少是没有意识到或明确地规定出来），就是思维方式，也即是博弈方是以将问题分解的方式来思考问题呢，还是以系统的整体的方式来思考问题的。我引用《第五项修炼》上的一段话来表达这两种思维方式的不同。自幼我们就被教导把问题加以分解，把世界拆成片片段段来理解。这显然能够使复杂的问题容易处理，但是无形中，我们却付出了巨大的代价——全然失掉对“整体”的连属感，也不了解自身行动所带来的一连串后果。于是，当我们想一窥全貌时，便努力重整心中的

博弈论的主要均衡概念及其比较

博弈论的主要均衡概念及其比较【摘要】均衡概念是构成整个博弈论的基石，对博弈论均衡概念的透彻理解将对博弈论的学习打下良好的基础。本文首先将博弈划分为不同的类型，并对主要的均衡概念进行了数学描述，最后对不同的均衡概念进行了比较。【关键词】博弈论；纳什均衡；重复博弈博弈论在现代经济学中占据着相当重要的位置，在微观经济学的本科教学环节中，如果将博弈论这一部分排除在外，那么教学内容是不完整的，并且和现代微观经济学的发展严重脱节。但是由于课时以及学生接受能力的限制，对博弈论的内容进行全面深入地讲解难以做到，因此，将博弈论的基本概念和方法清晰地向本科学生进行展示就显得十分重要了。在博弈论的基本概念当中，最重要的当属博弈均衡的概念，这些概念的掌握有助于学生把握博弈论的整体框架，并对博弈论的后续学习至关重要。因此，本文将主要的博弈均衡概念进行分类和表述，并对不同的博弈概念进行比较，以期对博弈论的教学有所助益。一、博弈的主要类型博弈构成的基本要素包括：1、参与人（1～N）；2、各个参与人各自可选择的行动集合Ai={ai}；3、参与人i的策略Si，给定信息集，该策略决定在博弈的每一阶段他选择的行动；4、参与人的收益Ui （S1，S2…SN）。依据不同的分类标准，博弈可以被划分为不同的类型。 1、静态博弈、动态博弈和重复博弈博弈各方同时选择策略的博弈称为静态博弈，如猜硬币、投标等，静态博弈一般可以用支付矩阵来表达。动态博弈是指博弈各方按照一定的先后次序进行策略的选择，典型的例子如对弈，动态博弈一般可以用“博弈树”来表达。Game Theory 中文翻译为博弈论也是分别用静态和动态博弈的典型代表博彩和对弈的简称而来。重复博弈是指同一个博弈（静态或动态）反复进行所构成的博弈过程，如体育比赛中的多局赛制等。 2、完全信息和不完全信息博弈完全信息博弈是指每个参与人都了解其他参与人的收益函数的博弈，不完全信息博弈是指参与人并不完全了解其他参与人收益函数的博弈。 3、完美信息和不完美信息博弈在动态博弈中，一参与人完全了解在自己行为之前的博弈进程，则称此参与人为有完美信息的参与人，如果博弈中所有的参与人都具有完美信息，则称此动态博弈为完美信息的动态博弈。反之，如果在存在具有不完美信息的参与人（参