博弈论 | 三姬分金与囚徒困境

前言

昨天在刷李永乐老师视频的时候看到了一个“三姬分金”的问题,然后引到了博弈论。说实话,从这个老师的课程中深深的感受到了知识的魅力。就想着写一个专栏,学习一下博弈论的有关知识。

什么是博弈

通俗地讲, 博弈就是指游戏中的一种选择策略的研究。 博弈的英文为“game”, 我们一般将它翻译成“游戏”。 而在英语中, “game”的意义不同于汉语中的游戏, 它是人们遵循一定规则的活动, 进行活动的人的目的是让自己“赢”。 我们在和对手竞赛或游戏的时候怎样使自己赢呢? 这不但要考虑自己的策略, 还要考虑其他人的选择。 生活中博弈的案例很多, 只要涉及人群的互动以及选择决策, 就有博弈。
一个人做选择时必须考虑其他人的选择或是事务的变化, 而其他人做选择时也会考虑此人的选择。 此人的结果——博弈论称之为支付, 不仅取决于他的行动选择——博弈论称之为策略选择, 同时取决于其他人的策略选择。 这样, 此人和其他人或事务就构成一个博弈。

在这里插入图片描述

三姬分金问题

背景

当年,韩非子到一个大将军处索要军饷,看见大将军的三个妃子在玩分金币的游戏。于是韩非子提议,玩点更刺激的。

游戏规则

现有A、B、C三名美姬,分100枚金币。从A开始,每个人依次提议分配方案。如果提议赞同人数不超过50%,则提议人被处死。反之则提议通过。A、B、C的顺序通过抽签来决定。
此外,有两点前提:
1.每个人都是聪明的,即她知道每个提议带来的后果,并追求自己利益的最大化。
2.每个人都是邪恶的,在她追求自己利益最大化的同时,要尽量多的杀死其余美姬。

思维实验0

如果游戏按照规则进行,那么结果会是怎样?
(1)我们不妨先假设A的提议被B、C否决:
美姬A被处死,到美姬B提议,根据规则"赞同人数不超过50%则提议人被处死",故无论美姬B提议什么,美姬C都不会同意(即使B提议金币全给C也是如此)。美姬B这么聪明当然也考虑到了这个问题。
(2)美姬A提议必然通过:
由(1)中分析,美姬A的提议必然会被B同意(B不同意就死),所以A可以肆无忌惮的提议分配方案,故A提出了(100,0,0)的分配方案,实现了自己利益最大化。

在思维实验0中,美姬A具有先手优势。


思维实验1

假设在美姬A前面加一个美姬X,其他规则不变,结果会如何?
(1)不妨先假设美姬X的提议被否决:
美姬X被处死,到美姬A提议,参考思维实验0可知,美姬A还是提出(100,0,0)的提议,且必定被通过。
(2)美姬X提出方案对B,C有利则会被通过:
美姬X考虑到如果由美姬A提议,则B,C什么都得不到。故美姬X决定拉拢美姬B,C。她提出了(98,0,1,1)的分配方案。美姬A肯定不同意(但是没有用),美姬B,C一看还能得到1枚金币,于是通过了美姬X的提议方案。
在思维实验1中,美姬X具有先手优势,即领导群体,美姬B、C属于基层群体,是领导群体拉拢的对象。在有限次的实验中,拿到先手权意味着锁定胜局。而且只要条件规则稳定,结果是一定的,这样的局面叫做纳什均衡


思维实验2

共谋

在思维实验1的背景下,美姬A,B,C觉得不公平,还想实现利益最大化。于是A提议:否定美姬X的提议,A,B,C各分33枚金币,剩下一枚丢进海里。这个过程叫做"共谋"。

那么在实验的过程中,如何保证在杀掉美姬X之后,美姬A信守承诺均分金币呢?
A,B,C之间需要制定一个契约,规定B,C帮助A杀掉X之后,A能信守承诺均分金币。此外,为了防止A撕毁契约,还需要执行和守护契约的团体,通过分权的方式使其不能串通。执行和守护契约的团体的建立权在B,C手中,即实现了"民主"。


囚徒困境问题

问题简介

囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。


问题描述

1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:

警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:

若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
在这里插入图片描述

若二人都保持沉默(相关术语称互相“合作”),则二人同样判监一年。
在这里插入图片描述

若二人都互相检举(互相“背叛”),则二人同样判监8年。

表格描述

囚徒行为 甲沉默(合作) 甲认罪(背叛)
乙沉默(合作) 二人同服刑1年 甲当即释放,乙服刑10年
乙认罪(背叛) 乙当即释放,甲服刑10年 二人同服刑8年

如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。


思维实验0

(1)从个体来看,囚徒的选择如下:

  • 如果对方选择沉默,背叛可以使我获释
  • 如果对方选择背叛,背叛可以使我的刑期减少

即从个体角度出发,背叛无疑是最优选择。 这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。

(2)从团体角度来看,如果两个参与者都合作保持沉默,两人都只会被判刑一年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优纳什均衡是相冲突的。


思维实验1

当囚徒困境多次重复发生

单次发生的囚徒困境,和多次重复的囚徒困境结果不会一样。在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出现。欺骗的动机这时可能被受到惩罚的威胁所克服,从而可能导向一个较好的、合作的结果。作为反复接近无限的数量,纳什均衡趋向于帕累托最优。


总结

囚徒困境主旨

囚徒困境的主旨为,囚徒们虽然彼此合作,坚决不坦白,可为全体带来最佳利益(累计和最少刑期),但在资讯不明的情况下,因为出卖同伙可为自己带来利益(缩短刑期)。同伙坦白可为他带来利益,因此彼此出卖虽违反最佳共同利益,反而是自己最大利益所在。但实际上,执法机构不可能设立如此情境来诱使所有囚徒招供,因为囚徒们必须考虑刑期以外之因素(出卖同伙会受到报复等),而无法完全以执法者所设立之利益(刑期)作考量。

囚徒困境的应用

许多行业的价格竞争都是典型的囚徒困境现象,每家企业都以对方为敌手,只关心自己的利益。在价格博弈中,只要以对方为敌手,那么不管对方的决策怎样,自己总是以为采取低价策略会占便宜,这就促使双方都采取低价策略。如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。

在国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中每一方的市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。如果清楚这种前景,双方勾结或合作起来,都制定比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。但是往往这些联盟处于利益驱动的“囚徒困境”,双赢也就成泡影。五花八门的价格联盟总是非常短命,道理就在这里。

发布了114 篇原创文章 · 获赞 79 · 访问量 9665

猜你喜欢

转载自blog.csdn.net/weixin_43092232/article/details/105456372