囚徒困境

囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，不坦白的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，不坦白的话判十年，坦白还是比不坦白好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。

整理囚徒困境的基本博弈结构，可更清楚地分析囚徒困境。以下是实现一般形式的其中一例：

有两个参与者和一个庄家。参与者每人有一式两张卡片，各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下，放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后，庄家翻开两个参与者卡片，根据以下规则支付利益：

· 一人背叛、一人合作：背叛者得5分（背叛诱惑），合作者0分（受骗支付）。

· 二人都合作：各得3分（合作报酬）。

· 二人都背叛：各得1分（背叛惩罚）。

用支付矩阵表格展示支付如下（以红和蓝分别表示二参与者）：

一般形式囚徒困境的支付矩阵	以“T、R、P、S”符号表示	以“胜－负”术语表示
	合作	背叛		合作	背叛		合作	背叛
合作	3, 3	0, 5	合作	R, R	S, T	合作	胜-胜	大负-大胜
背叛	5, 0	1, 1	背叛	T, S	P, P	背叛	大胜-大负	负-负

简单博弈获得的点数可以得出一些一般化的结论。

T、R、P、S符号表
符号	分数	英文	中文（非术语）	解释
T	5	Temptation	背叛诱惑	单独背叛成功所得。
R	3	Reward	合作报酬	共同合作所得
P	1	Punishment	背叛惩罚	共同背叛所得
S	0	Suckers	受骗支付	被单独背叛所获

若以T（Temptation）=背叛诱惑，R（Reward）=合作报酬，P（Punishment）=背叛惩罚，S（Suckers）=受骗支付，以个人选择得分而言，可得出以下不等式。

T>R>P>S

（解：从5>3>1>0获得以上不等式）

若以整体获分而言，将得出以下不等式。

2R>T+S或2R>2P

（解：2×3>5+0或2×3>2x1；合作2人共得6分，比起互相背叛的共得2分及单独背叛的共得5分，显然合作获分比背叛高。合作在团体而言是支配性策略。）

而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特（侯世达）创建的。

猜你喜欢