囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。
整理囚徒困境的基本博弈结构,可更清楚地分析囚徒困境。以下是实现一般形式的其中一例:
有两个参与者和一个庄家。参与者每人有一式两张卡片,各印有“合作”和“背叛”。参与者各把一张卡片文字面朝下,放在庄家面前。文字面朝下排除了参与者知道对方选择的可能性。然后,庄家翻开两个参与者卡片,根据以下规则支付利益:
· 一人背叛、一人合作:背叛者得5分(背叛诱惑),合作者0分(受骗支付)。
· 二人都合作:各得3分(合作报酬)。
· 二人都背叛:各得1分(背叛惩罚)。
用支付矩阵表格展示支付如下(以红和蓝分别表示二参与者):
一般形式囚徒困境的支付矩阵
|
以“T、R、P、S”符号表示
|
以“胜-负”术语表示
|
||||||
合作
|
背叛
|
合作
|
背叛
|
合作
|
背叛
|
|||
合作
|
3, 3
|
0, 5
|
合作
|
R, R
|
S, T
|
合作
|
胜-胜
|
大负-大胜
|
背叛
|
5, 0
|
1, 1
|
背叛
|
T, S
|
P, P
|
背叛
|
大胜-大负
|
负-负
|
简单博弈获得的点数可以得出一些一般化的结论。
T、R、P、S符号表
|
||||
符号
|
分数
|
英文
|
中文(非术语)
|
解释
|
T
|
5
|
Temptation
|
背叛诱惑
|
单独背叛成功所得。
|
R
|
3
|
Reward
|
合作报酬
|
共同合作所得
|
P
|
1
|
Punishment
|
背叛惩罚
|
共同背叛所得
|
S
|
0
|
Suckers
|
受骗支付
|
被单独背叛所获
|
若以T(Temptation)=背叛诱惑,R(Reward)=合作报酬,P(Punishment)=背叛惩罚,S(Suckers)=受骗支付,以个人选择得分而言,可得出以下不等式。
T>R>P>S
(解:从5>3>1>0获得以上不等式)
若以整体获分而言,将得出以下不等式。
2R>T+S或2R>2P
(解:2×3>5+0或2×3>2x1;合作2人共得6分,比起互相背叛的共得2分及单独背叛的共得5分,显然合作获分比背叛高。合作在团体而言是支配性策略。)
而重复博弈或重复的囚徒困境将会使参与者从注重T>R>P>S转变成注重2R>T+S。就是说将使参与者脱离困境。以上理论是道格拉斯·霍夫施塔特(侯世达)创建的。