目录
一、前言
1.1 Decentralized 和 Centralized的区别
集中式算法需要一个中心控制器,中心控制器收集全局信息(所有智能体的动作、状态、奖励等)然后给出所有玩家的联合策略。集中式算法通常在玩家策略收敛至NE集合意义下是收敛的。
去中心化的算法无需中心控制器,算法在每个智能体上独立运行,只需要局部信息(自身的动作、相对状态、相应的奖励函数。此处原文没有提到相对状态,我觉得可能不太准确,直观上要实现交互是需要知道相对状态的)相比于集中式算法,去中心化的算法通常更通用,可以在竞争或者合作场景中使用。许多去中心化的算法满足合理性(rational)的性质。
1.2 Rational 和 Convergent的区别
rational是指无论对方采取何种固定的策略,智能体的策略都能收敛到对方的best response。convergent是指所有智能体的策略最终收敛到纳什均衡集合中。rational algorithm与convergent algorithm具有不同的优势,前者更倾向于满足个体的利益,而后者更倾向于满足整体的利益。这篇论文的动机就在于建立一种同时具备rational和convergent性质的算法。
二、主要贡献
在有限时域折扣双人零和马尔可夫博弈设定下的首个具备rational,convergent,agnostic,symmetric,并且有有限时间最后迭代收敛(finite-time last iterate convergence)保证的自博弈(self-play)分布式算法。
三、摘要
论文研究了一种有限时域折扣双人零和马尔可夫博弈,并且提出了一种可证明收敛至纳什均衡集合(Nash Equilibria, NE)的自博弈分布式算法。论文提出的算法基于最优梯度下降/上升算法(Optimistic Gradient Descent Ascent)来学习策略,使用一个critic来缓慢的学习各个状态的value function。论文提出的方法是在此设置下首个同时具备以下特性的算法:理性(rational)(当对手使用固定策略时,算法会收敛到对手的最佳响应(best response))、收敛(在自我博弈中收敛到纳什均衡集合)、无关(无需知道对手所采取的动作)、对称(算法中玩家扮演对称角色),并且享有有限时间内最后迭代收敛保证。以上特性都是去中心化算法所期望具备的。
四、主要内容
4.1 预备知识
考虑双人零和折扣马尔可夫博弈过程 ( S , A , B , σ , p , γ ) (\cal S, \cal A, \cal B, \sigma, p, \gamma) (S,A,B,σ,p,γ),其中 S \cal S S是有限状态空间; A \cal A A 和 B \cal B B分别是玩家1和玩家2的有限动作空间; σ \sigma σ是loss (payoff) function, σ ( s , a , b ) ∈ [ 0 , 1 ] \sigma(s, a,b)\in [0,1] σ(s,a,b)∈[0,1],表明玩家1与玩家2在状态 s s s 下分别采取动作 a a a 和动作 b b b 时玩家1需要支付给玩家2的代价; p : S × A × B → Δ S p: \cal S\times \cal A \times \cal B \to \Delta_{\cal S} p:S×A×B→ΔS 是转移概率, Δ S \Delta_{\cal S} ΔS 表示 S \cal S S 上的概率分布集合; 1 2 ≤ γ < 1 \frac{1}{2} \leq \gamma <1 21≤γ<1 是折扣因子。
玩家1的一个固定策略可以描述为将每个状态映射到动作空间分布的函数 S → Δ A \cal S \to \Delta_{\cal A} S→ΔA。 x s ∈ Δ A x^s \in \Delta_{\cal A} xs∈ΔA表示玩家1在状态 s s s 时的动作概率分布, x = { x s } s ∈ S x=\{ x^s \}_{s\in \cal S} x={ xs}s∈S表示玩家1的完整策略。对玩家2定义类似的动作分布 y s y^s ys 和策略 y = { y s } s ∈ S y=\{ y^s \}_{s\in \cal S} y={ ys}s∈S。进一步定义 z s = ( x s , y s ) ∈ Δ A × Δ B z^s = (x^s, y^s) \in \Delta_{\cal A}\times \Delta_{\cal B} zs=(xs,ys)∈ΔA×ΔB 是所有玩家在 s s s 处的联合策略, z = { z s } s ∈ S z=\{ z^s \}_{s\in \cal S} z={ zs}s∈S。
对于一对固定策略 ( x , y ) (x,y) (x,y) 以及初始状态 s s s,期望折扣值函数可以表示为
V x , y s = E [ ∑ t = 1 ∞ γ t − 1 σ ( s t , a t , b t ) ∣ s 1 = s , a t ∼ x s t , b t ∼ y s t , s t + 1 ∼ p ( ⋅ ∣ s t , a t , b t ) , ∀ t ≥ 1 ] V_{x,y}^s=\mathbb{E}\left[\sum_{t=1}^\infty\gamma^{t-1}\sigma(s_t,a_t,b_t) \Big| s_1=s,a_t\sim x^{s_t},b_t\sim y^{s_t},s_{t+1}\sim p(\cdot|s_t,a_t,b_t), \forall t\geq1\right] Vx,ys=E[t=1∑∞γt−1σ(st,at,bt) s1=s,at∼xst,bt∼yst,st+1∼p(⋅∣st,at,bt),∀t≥1]
minimax值定义为
V ⋆ s = min x max y V x , y s = max y min x V x , y s V_\star^s=\min_x\max_yV_{x,y}^s=\max_y\min_xV_{x,y}^s V⋆s=xminymaxVx,ys=ymaxxminVx,ys
一对固定策略 ( x ⋆ , y ⋆ ) (x_\star,y_\star) (x⋆,y⋆) 能在状态 s s s 达到 minimax值,则 ( x ⋆ , y ⋆ ) (x_\star,y_\star) (x⋆,y⋆) 必然在每个状态都能达到minimax值,称这样的 x ⋆ x_\star x⋆ 为一个 minimax policy, y ⋆ y_\star y⋆ 为一个maximin policy,这样一对策略称为纳什均衡(Nash Equilibrium)。进一步地,定义
Y ⋆ s = { y ⋆ s ∈ y ⋆ : y ⋆ i s a m a x i m i n p o l i c y } \mathcal{Y}_{\star}^{s}=\{y_{\star}^{s}\in y_{\star}:y_{\star} \mathrm{is~a~maximin~policy}\} Y⋆s={
y⋆s∈y⋆:y⋆is a maximin policy} 和 X ⋆ s = { x ⋆ s ∈ x ⋆ : x ⋆ is a minimax policy } \mathcal{X}_{\star}^{s}=\{x_{\star}^{s}\in x_{\star}:x_{\star}\text{ is a minimax policy}\} X⋆s={
x⋆s∈x⋆:x⋆ is a minimax policy},并且记 Z ⋆ s = X ⋆ s × Y ⋆ s \mathcal{Z}_{\star}^{s} = \mathcal{X}_{\star}^{s}\times\mathcal{Y}_{\star}^{s} Z⋆s=X⋆s×Y⋆s。
对于任意的 x s x^s xs,记它到 X ⋆ s \cal X_\star^s X⋆s 的距离为 dist ⋆ ( x s ) = min x ⋆ s ∈ X ⋆ s ∥ x ⋆ s − x s ∥ \begin{aligned}\operatorname{dist}_\star(x^s)=\min_{x_\star^s\in\mathcal{X}_\star^s}\|x_\star^s-x^s\|\end{aligned} dist⋆(xs)=x⋆s∈X⋆smin∥x⋆s−xs∥,其中 ∥ ∥ ˙ \|\dot\| ∥∥˙ 表示向量的二范数,类似地,有 d i s t ⋆ ( y s ) = min y ⋆ s ∈ Y ⋆ s ∥ y ⋆ s − y s ∥ \mathrm{dist}_{\star}(y^{s}) = \min_{y_{\star}^{s}\in\mathcal{Y}_{\star}^{s}}\|y_{\star}^{s}-y^{s}\| dist⋆(ys)=miny⋆s∈Y⋆s∥y⋆s−ys∥ 以及 d i s t ⋆ ( z s ) = m i n z ⋆ s ∈ Z ⋆ s ∥ z ⋆ s − z s ∥ = d i s t ⋆ 2 ( x s ) + d i s t ⋆ 2 ( y s ) \mathrm{dist}_{\star}(z^{s}) = \mathrm{min}_{z_{\star}^{s}\in\mathcal{Z}_{\star}^{s}}\|z_{\star}^{s}-z^{s}\| = \sqrt{\mathrm{dist}_{\star}^{2}(x^{s})+\mathrm{dist}_{\star}^{2}(y^{s})} dist⋆(zs)=minz⋆s∈Z⋆s∥z⋆s−zs∥=dist⋆2(xs)+dist⋆2(ys)。凸集 U \cal U U 上的投影算子定义为: Π U { v } = a r g m i n u ∈ U ∥ u − v ∥ \Pi_{\mathcal{U}}\{v\}=\mathop{\mathrm{argmin}}_{u\in\mathcal{U}}\|u-v\| ΠU{ v}=argminu∈U∥u−v∥。
定义在状态 s s s 处采用策略对 ( x , y ) (x,y) (x,y) 的Q-function为
Q x , y s ( a , b ) = σ ( s , a , b ) + γ E s ′ ∼ p ( ⋅ ∣ s , a , b ) [ V x , y s ′ ] Q_{x,y}^s(a,b)=\sigma(s,a,b)+\gamma\mathbb{E}_{s^{\prime}\sim p(\cdot|s,a,b)}\begin{bmatrix}V_{x,y}^{s^{\prime}}\end{bmatrix} Qx,ys(a,b)=σ(s,a,b)+γEs′∼p(⋅∣s,a,b)[Vx,ys′]
上述Q-function可以写成矩阵形式,即 Q x , y s ∈ R ∣ A ∣ × ∣ B ∣ Q_{x,y}^s\in\mathbb{R}^{|\mathcal{A}|\times|\mathcal{B}|} Qx,ys∈R∣A∣×∣B∣ 使得 V x , y s = x s ⊤ Q x , y s y s V_{x,y}^s=x^{s^\top}Q_{x,y}^sy^s Vx,ys=xs⊤Qx,ysys。对于任意的 minimax/maximin 策略对 ( x ⋆ , y ⋆ ) (x_\star,y_\star) (x⋆,y⋆),有唯一的最优Q-function Q ⋆ s = Q x ⋆ , y ⋆ s Q_\star^s = Q_{x_\star,y_\star}^s Q⋆s=Qx⋆,y⋆s。 Q Q Q矩阵的范数 ∥ Q ∥ \|Q\| ∥Q∥ 定义为 max i , j ∣ Q i , j ∣ \max_{i,j} |Q_{i,j}| maxi,j∣Qi,j∣。
Optimistic Gradient Descent Ascent (OGDA)
对于一个由 Q ∈ R ∣ A ∣ × ∣ B ∣ Q\in \mathbb{R}^{|\mathcal A|\times|\mathcal B|} Q∈R∣A∣×∣B∣ 定义的矩阵博弈问题,OGDA对每个玩家维护两个动作分布(策略)的序列 ,对于玩家1有 x ^ 1 , x ^ 2 , … ∈ Δ A \widehat{x}_1,\widehat{x}_2,\ldots\in \Delta_{\mathcal{A}} x 1,x 2,…∈ΔA 和 x 1 , x 2 , … ∈ Δ A x_1,x_2,\ldots\in \Delta_{\mathcal{A}} x1,x2,…∈ΔA,类似地,对于玩家2有 y ^ 1 , y ^ 2 , … ∈ Δ B \widehat{y}_{1},\widehat{y}_{2},\ldots\in\Delta_{\mathcal{B}} y 1,y 2,…∈ΔB 和 y 1 , y 2 , … ∈ Δ B y_1,y_2,\ldots\in\Delta_\mathcal{B} y1,y2,…∈ΔB,序列按照如下方式进行更新:
x ^ t + 1 = Π Δ A { x ^ t − η Q y t } x t + 1 = Π Δ A { x ^ t + 1 − η Q y t } y ^ t + 1 = Π Δ B { y ^ t + η Q ⊤ x t } y t + 1 = Π Δ B { y ^ t + 1 + η Q ⊤ x t } \begin{aligned} \widehat{x}_{t+1} &=\Pi_{\Delta_{\mathcal{A}}}\{\widehat{x}_{t}-\eta Qy_{t}\} \\ x_{t+1} &=\Pi_{\Delta_{\mathcal{A}}}\{\widehat{x}_{t+1}-\eta Qy_t\} \\ \widehat{y}_{t+1} &=\Pi_{\Delta_{\mathcal{B}}}\{\widehat{y}_{t}+\eta Q^{\top}x_{t}\} \\ y_{t+1} &=\Pi_{\Delta_{\mathcal{B}}}\big\{\widehat{y}_{t+1}+\eta Q^{\top}x_{t}\big\} \end{aligned} x
t+1xt+1y
t+1yt+1=ΠΔA{
x
t−ηQyt}=ΠΔA{
x
t+1−ηQyt}=ΠΔB{
y
t+ηQ⊤xt}=ΠΔB{
y
t+1+ηQ⊤xt}
其中, η \eta η 是学习率。不同于标准的梯度下降/上升算法,OGDA并没有直接将 ( x ^ t , y ^ t ) (\hat x_t, \hat y_t) (x^t,y^t) 赋值给 ( x t , y t ) (x_t, y_t) (xt,yt),而是在 ( x ^ t , y ^ t ) (\hat x_t, \hat y_t) (x^t,y^t) 上又进行了一步下降/上升的更新,然后再判断 f ( x , y ) = x ⊤ Q y f(x,y) = x^\top Q y f(x,y)=x⊤Qy 的梯度。已有论文证明该算法可以以线性速度收敛到纳什均衡。本论文将OGDA推广到马尔可夫博弈的情况。
4.2 论文提出的算法
将OGDA推广到马尔可夫博弈,一个直观的想法是对于每个状态 s s s 使用OGDA,但是一个显著的区别是马尔可夫博弈中的矩阵 Q x t , y t s Q_{x_t,y_t}^s Qxt,yts 是随时间变化的,直接使用OGDA会导致每个状态的策略更新不稳定。
为了解决这个问题,论文使用使用一个critic缓慢地学习每个状态的value function,对于每个状态 s s s,critic 维护一个value function的序列 V 0 s = 0 , V 1 s , V 2 s , ⋯ V_0^s=0,V_1^s,V_2^s,\cdots V0s=0,V1s,V2s,⋯,在算法每次迭代时,不直接使用 Q x t , y t s Q_{x_t,y_t}^s Qxt,yts,而是使用如下的定义通过value function计算:
Q t s ( a , b ) = σ ( s , a , b ) + γ E s ′ ∼ p ( ⋅ ∣ s , a , b ) [ V t − 1 s ′ ] Q_t^s(a,b) = \sigma(s,a,b)+\gamma\mathbb{E}_{s'\sim p(\cdot|s,a,b)}[V_{t-1}^{s'}] Qts(a,b)=σ(s,a,b)+γEs′∼p(⋅∣s,a,b)[Vt−1s′]
OGDA则作为actor,并且使用梯度 Q t s y t s Q_t^sy_t^s Qtsyts 更新 x t + 1 s x_{t+1}^s xt+1s 和 x ^ t + 1 s \hat x_{t+1}^s x^t+1s,使用梯度 Q t s ⊤ x t s Q_{t}^{s\top}x_{t}^{s} Qts⊤xts 更新 y t + 1 s y_{t+1}^s yt+1s 和 y ^ t + 1 s \hat y_{t+1}^s y^t+1s。由于精确的梯度信息通常是未知的,因此需要使用估计量 ℓ t s \ell_t^s ℓts 和 r t s r_t^s rts 估计梯度,估计误差满足 ∥ ℓ t s − Q t s y t s ∥ ≤ ε \|\ell_t^s-Q_t^sy_t^s\|\leq\varepsilon ∥ℓts−Qtsyts∥≤ε 和 ∥ r t s − Q t s ⊤ x t s ∥ ≤ ε \|r_{t}^{s}-Q_{t}^{s\top}x_{t}^{s}\|\leq\varepsilon ∥rts−Qts⊤xts∥≤ε。论文提出的算法整体流程如 Algorithm 1 所示。Alg 1使用了固定的学习率 η \eta η,与迭代次数 T T T 无关。
在每次迭代 t t t 结束后,critic通过式(6)更新 value function,其中 ρ t s \rho_t^s ρts 是 x t s ⊤ Q t s y t s x_t^{s^\top}Q_t^sy_t^s xts⊤Qtsyts 的估计,估计误差满足 ∣ ρ t s − x t s ⊤ Q t s y t s ∣ ≤ ε |\rho_{t}^{s}-x_{t}^{s^{\top}}Q_{t}^{s}y_{t}^{s}|\leq\varepsilon ∣ρts−xts⊤Qtsyts∣≤ε。为了使矩阵 Q t s Q_t^s Qts 稳定,需要学习率 α t \alpha_t αt 在 t t t 内减小并逐渐减小到0。论文中的收敛性分析都是基于 α t \alpha_t αt 逐渐减小到0的假设。算法最终收敛的速度取决于 α t \alpha_t αt 的具体形式,论文中设计的学习率更新为:
α t = H + 1 H + t H = 2 1 − γ \begin{aligned} \alpha_t &= \frac{H+1}{H+t}\\ H &= \frac{2}{1-\gamma} \end{aligned} αtH=H+tH+1=1−γ2
论文的两个主要结果是以下两个定理:
Theorem 1 (Average duality-gap convergence): 具有 α t = H + 1 H + t \alpha_t= \frac{H+1}{H+t} αt=H+tH+1 和 H = 2 1 − γ H= \frac{2}{1-\gamma} H=1−γ2 的Algorithm 1能够保证
1 T ∑ t = 1 T max s , x ′ , y ′ ( V x ^ t , y ′ s − V x ′ , y ^ t s ) = O ( ∣ S ∣ η ( 1 − γ ) 2 log T T + ∣ S ∣ ε η ( 1 − γ ) 2 ) \frac{1}{T}\sum_{t=1}^{T}\max_{s,x',y'}\left(V_{\widehat{x}_{t},y'}^{s}-V_{x',\widehat{y}_{t}}^{s}\right)=\mathcal{O}\left(\frac{|\mathcal{S}|}{\eta(1-\gamma)^{2}}\sqrt{\frac{\log T}{T}}+\frac{|\mathcal{S}|\sqrt{\varepsilon}}{\sqrt{\eta}(1-\gamma)^{2}}\right) T1t=1∑Ts,x′,y′max(Vx
t,y′s−Vx′,y
ts)=O(η(1−γ)2∣S∣TlogT+η(1−γ)2∣S∣ε)
Theorem 2 (Last-iterate convergence):具有 α t = H + 1 H + t \alpha_t= \frac{H+1}{H+t} αt=H+tH+1 和 H = 2 1 − γ H= \frac{2}{1-\gamma} H=1−γ2 的Algorithm 1,对于 z ^ T s = ( x ^ T s , y ^ T s ) \widehat{z}_T^s=(\widehat{x}_T^s,\widehat{y}_T^s) z
Ts=(x
Ts,y
Ts),有
1 ∣ S ∣ ∑ s ∈ S d i s t ⋆ 2 ( z ^ T s ) = O ( ∣ S ∣ 2 η 4 C 4 ( 1 − γ ) 4 T + ε η C 2 ( 1 − γ ) 3 ) \frac1{|\mathcal{S}|}\sum_{s\in\mathcal{S}}\mathrm{dist}_\star^2(\widehat{z}_T^s)=\mathcal{O}\left(\frac{|\mathcal{S}|^2}{\eta^4C^4(1-\gamma)^4T}+\frac\varepsilon{\eta C^2(1-\gamma)^3}\right) ∣S∣1s∈S∑dist⋆2(z
Ts)=O(η4C4(1−γ)4T∣S∣2+ηC2(1−γ)3ε)
式中, C > 0 C>0 C>0 是一个存在且与问题无关的常数, C C C 满足:对于所有的状态 s s s 和所有的策略对 z = ( x , y ) z = (x,y) z=(x,y), max x ′ , y ′ ( x s Q ⋆ s y ′ s − x ′ s Q ⋆ s y s ) ≥ C d i s t ⋆ ( z s ) \operatorname*{max}_{x^{\prime},y^{\prime}}(x^{s}Q_{\star}^{s}y^{\prime s}-x^{\prime s}Q_{\star}^{s}y^{s})\geq C\mathrm{dist}_{\star}(z^{s}) maxx′,y′(xsQ⋆sy′s−x′sQ⋆sys)≥Cdist⋆(zs)。
定理1表明,当 1 / T 1/T 1/T 和 ε \varepsilon ε 趋近于0时每个状态的对偶间隙收敛到0。定理2表明,策略对 z ^ T s \widehat z_T^s z Ts到纳什均衡集合的有限时间收敛速度。
4.3 对梯度以及value function的估计
在信息完全已知的情况下, Q t s y t s Q_t^sy_t^s Qtsyts, Q t s ⊤ x t s Q_{t}^{s\top}x_{t}^{s} Qts⊤xts 和 x t s ⊤ Q t s y t s x_t^{s\top} Q_t^sy_t^s xts⊤Qtsyts 可以被精确计算,这时论文提出的算法实际上就是一种策略迭代的方法。但是,如果未知对方动作以及矩阵 Q t s Q_t^s Qts,那么算法就无法正常工作。因此论文在这一部分中研究了智能体仅通过自身动作、奖励以及奖励函数估计这些未知量。
在算法的一次迭代 t t t 中,两个玩家使用如下的策略与对方交互 L L L 个steps:
x ~ t s ( a ) = ( 1 − ε ′ 2 ) x t s ( a ) + ε ′ 2 ∣ A ∣ y ~ t s ( b ) = ( 1 − ε ′ 2 ) y t s ( b ) + ε ′ 2 ∣ B ∣ \begin{aligned} \widetilde x_{t}^{s}(a)=\left(1-\frac{\varepsilon^{\prime}}{2}\right)x_{t}^{s}(a)+\frac{\varepsilon^{\prime}}{2|\mathcal{A}|} \\ \widetilde{y}_{t}^{s}(b)=\left(1-\frac{\varepsilon^{\prime}}{2}\right)y_{t}^{s}(b)+\frac{\varepsilon^{\prime}}{2|\mathcal{B}|} \end{aligned} x
ts(a)=(1−2ε′)xts(a)+2∣A∣ε′y
ts(b)=(1−2ε′)yts(b)+2∣B∣ε′
其中, ( x t s , y t s ) (x_{t}^{s}, y_{t}^{s}) (xts,yts) 是此次迭代时的策略, x ~ t s ( a ) \widetilde x_{t}^{s}(a) x
ts(a)是交互时玩家1采取动作 a a a 的概率。 ε ′ = ( 1 − γ ) ε \varepsilon^{\prime}=(1-\gamma)\varepsilon ε′=(1−γ)ε。这个策略同时具有本轮迭代时的策略以及与估计误差 ε \varepsilon ε 相关的随机探索策略。
两个玩家的交互会产生两个轨迹 { ( s i , a i , σ ( s i , a i , b i ) ) } i = 1 L \{(s_i,a_i,\sigma(s_i,a_i,b_i))\}_{i=1}^L {(si,ai,σ(si,ai,bi))}i=1L 和 { ( s i , b i , σ ( s i , a i , b i ) ) } i = 1 L \{(s_i,b_i,\sigma(s_i,a_i,b_i))\}_{i=1}^L {(si,bi,σ(si,ai,bi))}i=1L,此处 a i ∼ x ~ t s i a_i\sim\widetilde{x}_t^{s_i} ai∼x
tsi, b i ∼ y ~ t s i b_i\sim\widetilde{y}_t^{s_i} bi∼y
tsi, s i + 1 ∼ p ( ⋅ ∣ s i , a i , b i ) s_{i+1}\sim p(\cdot|s_i,a_i,b_i) si+1∼p(⋅∣si,ai,bi)。论文构造的估计方程如下:
ℓ t s ( a ) = ∑ i = 1 L 1 [ s i = s , a i = a ] ( σ ( s , a , b i ) + γ V t − 1 s i + 1 ) ∑ i = 1 L 1 [ s i = s , a i = a ] , r t s ( b ) = ∑ i = 1 L 1 [ s i = s , b i = b ] ( σ ( s , a i , b ) + γ V t − 1 s i + 1 ) ∑ i = 1 L 1 [ s i = s , b i = b ] , ρ t s = ∑ i = 1 L 1 [ s i = s ] ( σ ( s , a i , b i ) + γ V t − 1 s i + 1 ) ∑ i = 1 L 1 [ s i = s ] . \begin{gathered} \ell_{t}^{s}(a) \begin{aligned}=\frac{\sum_{i=1}^{L}\mathbb{1}[s_{i}=s,a_{i}=a]\left(\sigma(s,a,b_{i})+\gamma V_{t-1}^{s_{i+1}}\right)}{\sum_{i=1}^{L}\mathbb{1}[s_{i}=s,a_{i}=a]},\end{aligned} \\ r_{t}^{s}(b) =\frac{\sum_{i=1}^L\mathbb{1}[s_i=s,b_i=b]\left(\sigma(s,a_i,b)+\gamma V_{t-1}^{s_{i+1}}\right)}{\sum_{i=1}^L\mathbb{1}[s_i=s,b_i=b]}, \\ \rho_t^{s} =\frac{\sum_{i=1}^L\mathbb{1}[s_i=s]\left(\sigma(s,a_i,b_i)+\gamma V_{t-1}^{s_{i+1}}\right)}{\sum_{i=1}^L\mathbb{1}[s_i=s]}. \end{gathered} ℓts(a)=∑i=1L1[si=s,ai=a]∑i=1L1[si=s,ai=a](σ(s,a,bi)+γVt−1si+1),rts(b)=∑i=1L1[si=s,bi=b]∑i=1L1[si=s,bi=b](σ(s,ai,b)+γVt−1si+1),ρts=∑i=1L1[si=s]∑i=1L1[si=s](σ(s,ai,bi)+γVt−1si+1).
若上述估计方程的分母为0,则将该项估计置为0。为了使估计方程能对每个状态准确估计,该算法要求博弈过程中每个状态应该被足够频繁地访问,即要求任何平稳策略对下的诱导马尔科夫链都是不可约的,有如下假设1:存在 μ > 0 \mu > 0 μ>0 使得 1 / μ = max x , y max s , s ′ T x , y s → s ′ 1/\mu = \max_{x,y} \max_{s, s'} T_{x,y}^{s\to s'} 1/μ=maxx,ymaxs,s′Tx,ys→s′,其中 T x , y s → s ′ T_{x,y}^{s\to s'} Tx,ys→s′ 是在策略对 ( x , y ) (x,y) (x,y) 作用下从 s s s 转移到 s ′ s' s′ 的期望时间。
在这条假设下,可以确定,令估计方程中的 L ≈ 1 / ε 3 L \approx 1/ \varepsilon^3 L≈1/ε3 能够使估计器拥有足够高的估计精度。进而有如下定理:
Theorem 3:若假设1成立,并且 L L L 为
L = Ω ~ ( ∣ A ∣ 3 + ∣ B ∣ 3 ( 1 − γ ) μ ε 3 log 2 ( T / δ ) ) L = \widetilde{\Omega}\left(\frac{|\mathcal{A}|^3+|\mathcal{B}|^3}{(1-\gamma)\mu\varepsilon^3}\log^2(T/\delta)\right) L=Ω
((1−γ)με3∣A∣3+∣B∣3log2(T/δ))
则估计器能够保证在所有步 t t t,至少有 1 − δ 1-\delta 1−δ 的概率,估计误差 ∥ ℓ t s − Q t s y t s ∥ \|\ell_t^s-Q_t^sy_t^s\| ∥ℓts−Qtsyts∥, ∥ r t s − Q t s ⊤ x t s ∥ \|r_t^s-Q_t^{s\top}x_t^s\| ∥rts−Qts⊤xts∥, ∣ ρ t s − x t s ⊤ Q t s y t s ∣ |\rho_{t}^{s}-x_{t}^{s\top}Q_{t}^{s}y_{t}^{s}| ∣ρts−xts⊤Qtsyts∣ 是 ε \varepsilon ε 的高阶无穷小。
定理1、2说明了为了让对偶间隙收敛到0、双方策略达到最优,算法迭代的步数 T T T 以及 ε \varepsilon ε 应当设定为多少;定理3说明了为了让学习过程中对梯度的估计达到设定精度,应当使估计器将双方交互数据长度 L L L 设定为多少。论文的推论4和推论5给出了对偶间隙和收敛到最优策略的一些参数选择的结论,本处不再赘述。
4.4 理性
所谓理性(rationality)指的就是如果对方不使用equilibrium的策略,我方能收敛到对方的best response。针对玩家2不采用算法1的情形,论文提出了算法2,在算法2中玩家2采用固定策略,而玩家1仍然使用OGDA算法更新自身策略。由于论文提出的算法本身提出的agnostic假设,玩家具备理性也是策略收敛的暗示。算法2考虑的马尔可夫博弈过程中对手在每个状态上只有1个动作,记为 1 1 1,损失函数重新定义为 σ ‾ ( s , a , 1 ) = E b ∼ y s [ σ ( s , a , b ) ] \underline{\sigma}(s,a,1)=\mathbb{E}_{b\sim y^{s}}[\sigma(s,a,b)] σ(s,a,1)=Eb∼ys[σ(s,a,b)],转移概率重新定义为 p ‾ ( s ′ ∣ s , a , 1 ) = E b ∼ y s [ p ( s ′ ∣ s , a , b ) ] \underline{p}(s'|s,a,1) = \mathbb{E}_{b\sim y^s}[p(s'|s,a,b)] p(s′∣s,a,1)=Eb∼ys[p(s′∣s,a,b)]。容易看出,算法2中玩家1的行为与算法1中按照相同的方式更新自身策略,而玩家2也可以被视为使用算法1,但是动作空间只包含一个动作的智能体。进而,对于算法1的收敛性保证可以扩展到算法2,有如下定理:
Theorem 6:当选择 α t = H + 1 H + t \alpha_t = \frac{H+1}{H+t} αt=H+tH+1、 H = 2 1 − γ H = \frac{2}{1-\gamma} H=1−γ2 时算法2能够保证
1 T ∑ t = 1 T max s , x ′ ( V x ^ t , y s s − V x ′ , y s s ) = O ( ∣ S ∣ η ( 1 − γ ) 2 log T T + ∣ S ∣ ε η ( 1 − γ ) 2 ) \frac{1}{T}\sum_{t=1}^{T}\max_{s,x'}\left(V_{\widehat{x}_{t},y^{s}}^{s}-V_{x',y^{s}}^{s}\right)=\mathcal{O}\left(\frac{|\mathcal{S}|}{\eta(1-\gamma)^{2}}\sqrt{\frac{\log T}{T}}+\frac{|\mathcal{S}|\sqrt{\varepsilon}}{\sqrt{\eta}(1-\gamma)^{2}}\right) T1t=1∑Ts,x′max(Vx
t,yss−Vx′,yss)=O(η(1−γ)2∣S∣TlogT+η(1−γ)2∣S∣ε)
并且对于 X B R = { x : V x , y s = min x ′ V x ′ , y s , ∀ s ∈ S } \mathcal{X}_{BR}=\left\{x:V_{x,y}^{s}=\operatorname*{min}_{x^{\prime}}V_{x^{\prime},y}^{s},\forall s\in\mathcal{S}\right\} XBR={
x:Vx,ys=minx′Vx′,ys,∀s∈S} 以及与问题无关的常数 C ′ > 0 C' > 0 C′>0,有
1 ∣ S ∣ ∑ s ∈ S ∥ x ^ T s − Π X B R { x ^ T s } ∥ 2 = O ( ∣ S ∣ 2 η 4 C ′ 4 ( 1 − γ ) 4 T + ε η C ′ 2 ( 1 − γ ) 3 ) \frac{1}{|\mathcal{S}|}\sum_{s\in\mathcal{S}}\|\widehat{x}_{T}^{s}-\Pi_{\mathcal{X}_{BR}}\{\widehat{x}_{T}^{s}\}\|^{2}=\mathcal{O}\left(\frac{|\mathcal{S}|^{2}}{\eta^{4}C'^{4}(1-\gamma)^{4}T}+\frac{\varepsilon}{\eta C'^{2}(1-\gamma)^{3}}\right) ∣S∣1s∈S∑∥x
Ts−ΠXBR{
x
Ts}∥2=O(η4C′4(1−γ)4T∣S∣2+ηC′2(1−γ)3ε)
这篇论文后续讲了证明思路,详细证明过程在附录中,感兴趣的读者可以自行阅读,笔者本人由于数学水平一般,本部分只停留于看懂阶段,无法进一步讲解,暂时省略。
五、结论
- 这项工作中提出了第一个适用于双人零和马尔可夫博弈的分布式算法,该算法具备理性、收敛性、无偏、对称性
- 算法具有有限时间收敛的保证。算法的核心是在每个状态上运行 OGDA,并结合一个缓慢变化的评价器来稳定每个状态下的博弈矩阵。
- 该研究集中在最基本的表格形式上,同时在需要估计时引入了一个结构性假设(每个状态都能被足够频繁地访问),避免了在状态空间中进行探索的困难。
- 未来的重要研究方向包括放宽这些假设,扩展框架以支持函数逼近和/或引入有效的探索机制。
- 此外,将基于 OGDA 的算法推广到双人零和博弈之外的场景也是一个潜在的研究方向。
后记
这是笔者第一次从头到尾完整地看这种博弈/强化学习理论性非常强的文章,一方面感叹于数学证明的精妙,另一方面也看到了自身在数学功底上的不足,以后做理论的可能性还是比较小哈哈哈。
如果读者有强化学习相关项目经验,可能会和笔者有相同感受,即理论文章与实际好用的算法之间存在比较大的差别,可能是理论的入门门槛以及为证明方便而增加的假设,导致一些理论上比较好的算法在实际场景中的应用较少。以后结合笔者的研究方向,本系列文章还是会更多写一些在实际系统中的多智能体博弈,理论性比较强的文章可能会逐渐少一些了。