文章目录
前言
博弈模型,占优策略,纯纳什平衡,混合策略的纳什平衡,斯塔克伯格平衡,协同问题,特殊博弈,马尔科夫博弈,强化学习
一、博弈模型
一个博弈模型包括:
玩家集合
策略收益
效用函数
效用函数的目的是用来更准确的描述模型,将玩家的偏好关系(大于小于等于)用具体是实数体现,方便之后的运算。(感兴趣的同学了解一下圣彼得堡悖论)效用函数如何更准确的描述模型呢?例如,同样是100万,在穷人眼里很重要,即期望效用很高;但是在亿万富翁眼中,可能就没那么重要。这时候,就需要用一个凹函数来描述效用函数。
下图是效用函数与偏好关系的联系:
囚徒问题
玩家集合{P1,P2}
策略集合{C(合作:cooperation),B(背叛:btray)}
收益函数:{0y,1y,2y,3y}(被判处0年,1年,3年,6年)
基于囚徒问题的基本假设:
1.囚徒们同时决策
2.囚徒们已知策略集合和收益函数
3.囚徒们都是,理性的
注意:这里对理性的解释:理性是指玩家要符合完备性和传递性
completeness:任何两个选择摆在玩家面前,玩家总能作出一个选择。
transitivety:如果玩家喜欢a比喜欢b多,喜欢b比喜欢c多;那么玩家一点喜欢a比喜欢c多。
二,基于囚徒问题的博弈策略1
占优策略(Dominate Strategy)
(分为强占优策略和弱占优策略)
解释:不管对方的决策是什么,我的决策都是最好的。
例如囚徒们的效用矩阵如下:
不管P1选择C还是B,P2选B都是占优策略。因为当P1=C,对于P2的效用10>8;当P1=B,对于P2的效用5>0。
同理,P1选B也是占优策略。
所以,如果双方都是理性的,那么最后结果会收敛到(5,5)
而且!对于P1,因为效用10>8,5>0。所以称B是强占优策略。
同理,对于P2的效用:10>8,5>0。所以B也是P2的强占优策略。
其他情况则为弱占优策略
对于严格劣策略(强不占优策略):代表其他所有策略总是比这个策略更优秀,它永远不会成为最优回应best reply
在任何情况下总有别的策略更好,因此,我们把严格劣策略从博弈中剔除
重复迭代的意思是:我们剔除它们,得到了一个更简单的博弈,然后再做同样的事情。现在可能又有了一些策略是严格劣势的,在这个简化的博弈中博弈者永远不会采取它们,因此我们再把它们剔除,循环反复,最后给我们了一些预测。当博弈者理性 他们也认识到其他博弈者理性时是合乎逻辑的结果 ,这些策略就会在这个子博弈中。
进行这个过程的术语称作严格劣策略重复剔除(Iterated elimination)
三, 基于囚徒问题的博弈策略2
纳什均衡(Nash Equibrium)
解释:双方都处于最佳应对策略。
如图,(5,5)是一个纳什平衡
注意:不是所以的博弈都存在纳什平衡;有的博弈存在多个纳什平衡。
而如下图所示,在这个效用矩阵中,没有纳什平衡
而在,如下图所示的效用矩阵中,则有多个纳什平衡
另外,用Iterated elimination反复消除强占优策略时,不会消除纳什平衡;但反复消除弱占优策略时,有可能删除纳什平衡。
四,混合策略的纳什平衡
混合策略可以看成一种随机选择,例如,如果你重复囚徒问题,并且每次都用相同的方法去玩,那么结果就会变得可预测。
混合策略的每一个小单位就是一个符合彩票。而二,三节中的策略单位成为简单彩票。
对于符合彩票的期望效用来说,它有三个公理:单调性,连续性,独立性。
对于任意一个博弈,必定存在一个混合策略的纳什平衡
案例和解法详见博客链接
要看,是重点!
(以下为拓展内容)
五,Stackelberg平衡
如果改变囚徒问题的假设1:囚徒们同时做出决定。
变成囚徒们作出决定时存在先后顺序。
在这种情况下的纳什平衡称为Stackelberg平衡
六,协同问题
存在多个纳什平衡的情况下,如何选择的问题称为协同问题。
协同问题的解决方法一般是人为的制定规则:比如制定通讯机制或者社会规则等等
七,特殊博弈
特殊博弈分为合作博弈和竞争博弈
合作博弈(cooperation Game)追求所以玩家收益均等
竞争博弈(competitive Game)要求玩家收益之和固定,例如经典的零和博弈
八,马尔科夫博弈
增加了状态集合和转移函数,即相对于之前的博弈,增加了环境因素,玩家的决策要考虑实时的环境因素,而且对于对手和自己的效用函数可能也是未知的。在这种情况下,优化博弈的算法称为强化学习
九,强化学习
解释:在一定环境下,做收益最大化的学习。
学习目标一般有以下几个:
1.追求纳什平衡
2.最求
总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。