【文献阅读】Solving Imperfect Information Games Using Decomposition

作者:Neil Burch


概要

在完备信息博弈(perfect information games)中,使用 分解(Decomposition) 的方法能够有效地做出决策。分解,即独立地分析可能出现的子博弈。 然而分解的思想在非完备信息博弈(imperfect information games)中并不适用,先前的所有关于在非完备信息博弈使用分解思想都并没有理论的支持。本文是首个提出 将非完备信息博弈问题分解为可被独立解决的子问题,同时保留整个博弈的最优性保证 的论文。我们可以在此技术上构建理论上合理的算法,以便在求解一个博弈问题时,能更好地利用运行时可用的信息克服运行时内存或磁盘的限制,或者对运行时的时间维度和空间维度进行更好的均衡。针对现有的博弈子问题的求解算法具有较大误差的情况,本文提出了一种在解决博弈子问题的同时能够保证在整个博弈问题中也有良好表现的算法。另外,本文还提出了一个离线博弈算法——CFR-D,它可以为大于可用存储空间的博弈问题生成纳什均衡策略。


1 研究动机是什么?

完备信息博弈能够被解决的一个主要原因是它可以很容易地被分解为博弈残局,这些博弈残局可以相互独立地进行求解,产生的策略片段可以组合成整个博弈的最优策略。由于在非完全信息博弈上中的博弈残局是由多棵博弈树组成的森林,故无法将完全信息博弈中的分解方法直接应用在非完全信息博弈上。


2 主要解决了什么问题?

作者主要解决了以下三个问题:

第一,针对非完备信息博弈的博弈残局的构建问题,作者扩展了在非完备信息博弈中的信息集的概念,并给出定义。

第二,针对非完备信息博弈的博弈残局策略求解问题,作者提出了 resolving 算法,该算法能够在整个博弈中限制主干策略和博弈残局策略的可利用度(exploitability)。

可利用度(exploitability):策略在面对其最佳应对策略组时的平均损失。

第三,针对非完备信息博弈的主干策略的求解问题,作者提出了 CFR-D 算法,该算法能够降低对存储空间的需求,达到亚线性(sub-linear)的空间代价。


3 所提方法是什么?

首先作者对 博弈问题进行形式化 的描述:

  • P 是博弈参与者(player)的集合

  • H 是所有可能的博弈状态的集合

  • h · a ∈ H 是状态 h 的子状态,hh · a 的父状态

  • Z 是所有终止状态(terminal)的集合

  • 对于每个非终止状态 h,A(h) 表示合法行为集;P(h) = P ∪ {c} 表示玩家行动集,其中 c 是机会玩家(chance player),表示玩家无法掌控的随机事件。

  • σ_c (h, a) 表示机会玩家在状态 h 时采取行为 a 的概率

  • 对于每个 z ∈ Z,u_p (z) ∈ R 表示参与者 p 在终止状态 z 下所得到的收益

  • 参与者 p 的 信息集(information set):在信息集中的任意两个状态对 p 而言都是不可区分的。

进一步,作者 针对非完备信息博弈的博弈残局的定义 进行扩展。作者在本文中对非完备信息博弈的博弈残局定义:一个非完备信息博弈的博弈残局是一个由多棵博弈树组成的森林,森林中的每一棵博弈树都对后代关系和成员关系封闭。也就是,如果博弈状态 s 在博弈残局中,那么 s 的后继节点和与 s 处于同一个信息集的节点 t 都在该博弈残局中。

以石头剪刀布为例,作者将该游戏分解为两部分,上面部分为主干部分,其状态集合为空集;下面部分为一个博弈残局,包含了三个状态 R,S 和 P。

进一步,作者 针对非完全信息博弈的博弈残局的策略 提出 re-solving 求解方法。作者提出 使用从该博弈残局的前一个策略中保留的一些压缩的关键摘要信息来对该博弈残局的策略进行求解,该方法的优点是能够在整个博弈中限制主干策略和博弈残局策略的可利用度。

该算法首先要进行 博弈残局的构建。具体构建步骤如下: 

构造完成后,博弈残局策略求解问题被模型化表示为扩展式博弈,可使用 CFR 算法进行求解。

进一步,作者 针对非完备信息博弈的主干策略求解方法 提出了 CFR-D 算法。CFR-D 的特性使得博弈残局可以串行求解,求解之后具体的残局策略还可以丢弃,因此在求解过程中,我们只需要保存博弈树的 主干策略残局根节点处的虚拟收益值,博弈残局策略就可以丢弃。

CFR-D 算法搜索到博弈树主干的边界处时,开始以此构造每一个博弈残局,将博弈残局表示为一个标准的扩展式博弈问题,随后 CFR-D 算法调用 CFR 算法求解博弈残局的均衡策略组 σ_s。求解之后,我们可以得到博弈残局根节点处的虚拟收益向量。CFR-D 算法借助博弈残局根节点处的虚拟收益向量,通过反向回传计算主干中每一个信息集的虚拟收益值,进而计算遗憾值,并通过遗憾值匹配算法来更新主干部分的博弈策略。伪代码参考来自王豪杰论文。

CFR-D 算法同样是一个迭代式的自我博弈算法,通过反复迭代来独立地最小化每个信息集上的累计虚拟遗憾值,最终使得平均博弈策略组趋近于纳什均衡策略组。


4 关键结果以及结论是什么?

第一,作者为了验证解决博弈残局策略的 resolving 算法仅仅会引入一个任意小的可利用度(exploitability),使用 Leduc Hold‘em Poker 游戏作为测试平台。在这个实验中,以第一次投注作为博弈树的主干部分,由5个不同的投注序列作为5个博弈残局。作者预先计算并存储一个离线的纳什均衡,在运行时,利用虚拟收益值和博弈树主干策略构造的博弈残局策略对每个博弈残局进行解析,并测量了博弈树主干和博弈残局的组合策略的可利用度。解析测试结果如下,显然作者提出的 re-solving 算法要比以往的算法优秀很多,具有显著低的可利用度。 

第二,作者为了验证 CFR-D 的性能,同样使用 Leduc Hold‘em Poker 游戏作为测试平台。作者在 CFR-D 的实现中使用 CFR 算法作为博弈树主干策略和博弈残局策略的求解算法。通过不断加深对博弈树主干和博弈残局的迭代,可利用度不断下降。


5 创新点在哪里?

第一,作者提出对非完备信息博弈的博弈残局策略的求解方法,该方法使用从该博弈残局的前一个策略中保留的一些压缩的关键摘要信息来对该博弈残局的策略进行求解。该方法的优点是能够在整个博弈中限制主干策略和博弈残局策略的可利用度。

第二,作者提出了构造博弈残局的方法。通过引入机会节点和机会行为构造博弈残局,将博弈残局问题转化为扩展式博弈问题,由此可使用 CFR 类算法进行求解。

第三,作者提出了 CFR-D 算法。CFR-D 算法搜索仅限于主干部分,通过博弈残局根节点处的虚拟收益向量计算主干的虚拟收益向量,进而计算虚拟遗憾值,再结合遗憾值匹配算法进行迭代。


6 有什么值得阅读的文献?

Burch, N.; Johanson, M.; and Bowling, M. 2013. Solving imperfect information games using decomposition. CoRR abs/1303.4441.


7 综合评价

作者借鉴解决完备信息博弈中的分解思想,在非完备信息博弈策略求解中提出基于分解的算法,并给出了公式证明其有效性。在实验过程中,算法性能均由于以往不安全的分解算法,可利用度远低于后者。但 CFR-D 算法是一种以时间换空间的算法,它优点在于能够很大程度降低对空间的需求,使空间代价处于亚线性,但其时间代价较高。

猜你喜欢

转载自blog.csdn.net/weixin_41960890/article/details/120547099