多智能体博弈论文学习(2)Reach-Avoid Games With Two Defenders and One Attacker: An Analytical Approach

上期链接多智能体博弈论文学习(1)Intercepting Rogue Robots

一、摘要

本篇论文考虑在矩形区域上进行的reach-avoid博弈,其中有两名防守者和一名攻击者。攻击者的目标是到达区域边界的特定边缘(ATL),而防御者则努力通过捕获攻击者来阻止这种情况。首先,论文针对barrier进行研究,它是reach-avoid集合的边界,将状态空间分为两个不相交的部分:1)防御者优势区域(DDR)和2)攻击者优势区域(ADR)。对于位于 DDR 中的初始状态,无论攻击者如何尽力,防御者都存在拦截攻击者的策略,而对于位于 ADR 中的初始状态,攻击者总能找到成功的攻击策略。针对两种速度比,论文提出了一种利用 Voronoi 图和 Apollonius 圆解析构造barrier的攻击区域方法。然后,考虑到实际的收益函数,论文提出了智能体的初始状态位于获胜区域时的最优策略,并表明 ADR 被分为与智能体的不同策略相对应的几个部分。数值方法存在固有的不准确性,已被用于多智能体reach-avoid博弈,但计算复杂性使解决此类博弈问题的求解变得复杂,从而阻碍了高效的在线应用。然而,本文的方法可以获得barrier的精确公式并且适用于实时更新。

二、主要内容

符号说明

2.1 问题描述

在这里插入图片描述

智能体的运动学模型用如下公式描述
x ˙ D i , 1 = v D i cos ⁡ ϕ D i , x ˙ D i , 2 = v D i sin ⁡ ϕ D i x ˙ A , 1 = v A cos ⁡ ϕ A , x ˙ A , 2 = v A sin ⁡ ϕ A \begin{aligned}\dot{x}_{D_i,1}&=v_{D_i}\cos\phi_{D_i},\dot{x}_{D_i,2}=v_{D_i}\sin\phi_{D_i}\\\dot{x}_{A,1}&=v_A\cos\phi_A,\dot{x}_{A,2}=v_A\sin\phi_A\end{aligned} x˙Di,1x˙A,1=vDicosϕDi,x˙Di,2=vDisinϕDi=vAcosϕA,x˙A,2=vAsinϕA
智能体速率恒定,通过控制 ϕ A \phi_A ϕA ϕ D i \phi_{D_i} ϕDi控制自身的运动,航向角范围均为 [ − π , π ) [-\pi,\pi) [π,π)
攻击者的目标是到达ATL,而防御者的目标是在攻击者到达ATL之前拦截攻击者。每个智能体都看作平面中的质点。

由于防御者之间存在协同关系,因此防御者的控制量 ϕ D 1 \phi_{D_1} ϕD1 ϕ D 2 \phi_{D_2} ϕD2是同时选取的。假设控制量没有其他约束,则攻击者和防御者能够不同时地计算他们的控制量。两个防御者的速率相等,为方便起见记 ν D \nu_D νD为防御者的速率。

定义 α = ν A / ν D \alpha=\nu_A /\nu_D α=νA/νD为攻击者和防御者的速率比值,由于 α > 1 \alpha>1 α>1时攻击者总能胜利,因此论文只考虑 α ≤ 1 \alpha\leq1 α1的情形。

各个智能体在博弈过程中均拥有 Ω \Omega Ω的完整信息,并且能够获取其他智能体的位置和速度。

收益函数

扫描二维码关注公众号,回复: 17474823 查看本文章

在DDR中,无论攻击者采用什么策略均会被拦截,假设攻击者会尽可能地靠近ATL,尽管可能不能被避免被拦截,为了表征攻击者与ATL的接近程度,第一个收益函数定义为:
J T = min ⁡ p ∈ T ∥ x A ( t 2 ) − p ∥ 2 J_\mathcal{T}=\min_{p\in \mathcal{T}}\|x_A(t_2)-p\|_2 JT=pTminxA(t2)p2
式中 t 2 t_2 t2为拦截时刻。

在ADR中,无论防御者采用何种策略,攻击者都能够到达ATL,在此过程中,攻击者离防御者越远则越安全;对于防御者而言,尽管可能无法拦截,但是还是会尽可能靠近攻击者。因此定义如下的第二个收益函数:
J d = min ⁡ i = 1 , 2 ∥ x D i ( t 1 ) − x A ( t 1 ) ∥ 2 J_d=\min\limits_{i=1,2}\|\boldsymbol{x}_{D_i}(t_1)-\boldsymbol{x}_A(t_1)\|_2 Jd=i=1,2minxDi(t1)xA(t1)2
式中 t 1 t_1 t1为攻击者到达ATL的时刻。

论文解决了以下几个问题:

  1. 给定 Ω \Omega Ω T \mathcal{T} T和其他初始条件,哪一方会获得胜利?
  2. 如果防御者一定能够拦截,那么攻击者应当采用什么策略来最小化 J T J_\mathcal{T} JT(防御者应当采用什么策略来最大化 J T J_\mathcal{T} JT)?
  3. 如果攻击者一定能够成功到达ATL,那么那么攻击者应当采用什么策略来最大化 J d J_d Jd(防御者应当采用什么策略来最小化 J d J_d Jd)?

2.2 胜利区域和Barrier

2.2.1 计算AR和BAR

这部分解决了第一个问题,即“1. 给定 Ω \Omega Ω T \mathcal{T} T和其他初始条件,哪一方会获得胜利?”

首先考虑单攻击者-单防御者的情形,在 α = 1 \alpha=1 α=1的情形下, R A 1 ( x A 0 , x D 0 , α ) \mathcal{R}_{A}^{1}(\boldsymbol{x}_{A}^{0},\boldsymbol{x}_{D}^{0},\alpha) RA1(xA0,xD0,α)是包含攻击者的Voronoi cell, b a r 1 ( x A 0 , x D 0 , α ) \mathrm{bar}^{1}(\boldsymbol{x}_{A}^{0},\boldsymbol{x}_{D}^{0},\alpha) bar1(xA0,xD0,α)即为攻击者与防御者所在cell的边界;当 α < 1 \alpha<1 α<1时, R A 1 ( x A 0 , x D 0 , α ) \mathcal{R}_{A}^{1}(\boldsymbol{x}_{A}^{0},\boldsymbol{x}_{D}^{0},\alpha) RA1(xA0,xD0,α)是Apollonius圆的内部区域,边界 b a r 1 ( x A 0 , x D 0 , α ) \mathrm{bar}^{1}(\boldsymbol{x}_{A}^{0},\boldsymbol{x}_{D}^{0},\alpha) bar1(xA0,xD0,α)即为Apollonius圆(平面内一动点到两定点的距离之比等于一个不为1的常数,则此动点的轨迹是圆)。

通过类比,存在两个防御者时, α = 1 \alpha=1 α=1,直接计算三个智能体对应的Voronoi图,攻击者对应的cell即为 R A 2 ( x A 0 , x D 1 0 , x D 2 0 , α ) \mathcal{R}_{A}^{2}(\boldsymbol{x}_{A}^{0},\boldsymbol{x}_{D_{1}}^{0},\boldsymbol{x}_{D_{2}}^{0},\alpha) RA2(xA0,xD10,xD20,α);当 α < 1 \alpha<1 α<1时,首先分别计算 R D 1 1 \mathcal{R}_{D_1}^1 RD11 R D 2 1 \mathcal{R}_{D_2}^1 RD21,两者取并集即为 R A 2 \mathcal{R}_{A}^2 RA2。自然而然地,取 R A 2 \mathcal{R}_{A}^2 RA2的边界即为 b a r 2 ( x A 0 , x D 1 0 , x D 2 0 , α ) \mathrm{bar}^{2}(\boldsymbol{x}_{A}^{0},\boldsymbol{x}_{D_{1}}^{0},\boldsymbol{x}_{D_{2}}^{0},\alpha) bar2(xA0,xD10,xD20,α)

Proposition 1
对于边界上的任一点 p ∈ b a r 2 ( x A 0 , x D 1 0 , x D 2 0 , α ) \boldsymbol{p}\in\mathrm{bar}^{2}(\boldsymbol{x}_{A}^{0},\boldsymbol{x}_{D_{1}}^{0},\boldsymbol{x}_{D_{2}}^{0},\alpha) pbar2(xA0,xD10,xD20,α),当且仅当攻击者沿初始位置到 p \boldsymbol{p} p的直线段移动时,攻击者能够在不被抓捕的情况下到达 p \boldsymbol{p} p

2.2.2 单攻击者-单防御者

论文首先定义了Upper Region和Lower Region。这两者为何物呢?可以简单理解成 Ω \Omega Ω中的一条曲线将其分成了上下两个部分,上面的部分至少包含上面两个顶点 m \boldsymbol{m} m n \boldsymbol{n} n中的一个。这个定义与问题相结合,barrier B 1 ( x D 0 , α ) \mathcal{B}^{1}(\boldsymbol{x}_{D}^{0},\alpha) B1(xD0,α)即为这条曲线,上方的upper region为攻击者获胜区域,下方的lower region为防御者获胜区域,记为:
W A 1 ( x D 0 , α ) = R u ( B 1 ( x D 0 , α ) ) W D 1 ( x D 0 , α ) = R l ( B 1 ( x D 0 , α ) ) \begin{aligned} {\cal W}_{A}^{1}(\boldsymbol{x}_{D}^{0},\alpha)=\cal R_{u}(\cal B^{1}(\boldsymbol{x}_{D}^{0},\alpha)) \\ {\cal W}_{D}^{1}(\boldsymbol{x}_{D}^{0},\alpha)=\cal R_{l}(\cal B^{1}(\boldsymbol{x}_{D}^{0},\alpha)) \end{aligned} WA1(xD0,α)=Ru(B1(xD0,α))WD1(xD0,α)=Rl(B1(xD0,α))

α = 1 \alpha=1 α=1时Barrier的计算

然后,针对 α = 1 \alpha = 1 α=1的情形,论文给出了一对一的barrier计算方法,并给出了证明。
B 1 1 ( x D 0 , 1 ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ d i s t ( x , m ) = d i s t ( x D 0 , m ) , x 1 ∈ [ 0 , x D , 1 0 ] } \begin{aligned}\mathcal{B}_1^1\big(\boldsymbol{x}_D^0,1\big)&=\big\{\boldsymbol{x}=(x_1,x_2)\in\Omega|\mathrm{dist}(\boldsymbol{x},\boldsymbol{m})\\&=\mathrm{dist}\big(\boldsymbol{x}_D^0,\boldsymbol{m}\big),x_1\in\big[0,x_{D,1}^0\big]\big\}\end{aligned} B11(xD0,1)={ x=(x1,x2)Ω∣dist(x,m)=dist(xD0,m),x1[0,xD,10]}

B 2 1 ( x D 0 , 1 ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ d i s t ( x , n ) = d i s t ( x D 0 , n ) , x 1 ∈ ( x D , 1 0 , l ] } \begin{aligned} \mathcal{B}_{2}^{1}(\boldsymbol{x}_{D}^{0},1)=\{\boldsymbol{x}& =(x_1,x_2)\in\Omega|\mathrm{dist}(x,n) \\ &=\mathrm{dist}\big(\boldsymbol{x}_{D}^{0},\boldsymbol{n}\big),x_{1}\in\big(x_{D,1}^{0},l\big]\big\} \end{aligned} B21(xD0,1)={ x=(x1,x2)Ω∣dist(x,n)=dist(xD0,n),x1(xD,10,l]}

针对 α < 1 \alpha<1 α<1的情形,假设攻击者能够成功到达ATL,令 p ∗ = ( p 1 ∗ , h ) ∈ T \boldsymbol{p}^*=(p_1^*,h)\in \cal T p=(p1,h)T为最优目标点(OTP),OTP是 J T J_\mathcal{T} JT最小化得到的,即攻击者希望尽可能接近ATL。以 x A , 1 0 ≥ x D , 1 0 x_{A,1}^{0}\geq{x_{D,1}^{0}} xA,10xD,10的情况为例,很容易得到 p 1 ∗ ≥ x A , 1 0 ≥ x D , 1 0 p_{1}^{*}\geq x_{A,1}^{0}\geq x_{D,1}^{0} p1xA,10xD,10

p = ( p 1 , h ) ∈ T \boldsymbol{p}=(p_1,h)\in \cal T p=(p1,h)T,并且定义如下的函数用于衡量攻击者与防御者分别沿 P ( x A 0 , p ) \mathcal{P}(\boldsymbol{x}_A^0,\boldsymbol{p}) P(xA0,p) P ( x D 0 , p ) \mathcal{P}(\boldsymbol{x}_D^0,\boldsymbol{p}) P(xD0,p)运动,当攻击者到达 p \boldsymbol{p} p P D P_D PD P A P_A PA的距离。
F ( p 1 ) = dist ⁡ ( x D 0 , p ) − dist ⁡ ( x A 0 , p ) α F(p_1)=\operatorname{dist}(\boldsymbol{x}_D^0,\boldsymbol{p})-\frac{\operatorname{dist}(\boldsymbol{x}_A^0,\boldsymbol{p})}\alpha F(p1)=dist(xD0,p)αdist(xA0,p)

如果攻击者与防御者均采用在 J T J_\mathcal{T} JT下的最优策略,那么 p 1 ∗ p_1^* p1一定是 F ( p 1 ) F(p_1) F(p1)的极值点,显然 F ( p 1 ) F(p_1) F(p1) p 1 p_1 p1是连续可导的,对其求导可以得到:
F ′ ( p 1 ∗ ) = 0 ⇒ p 1 ∗ − x D , 1 0 d i s t ( x D 0 , p ∗ ) = p 1 ∗ − x A , 1 0 α d i s t ( x A 0 , p ∗ ) F'(p_1^*)=0\Rightarrow\frac{p_1^*-x_{D,1}^0}{\mathrm{dist}(\boldsymbol{x}_D^0,\boldsymbol{p}^*)}=\frac{p_1^*-x_{A,1}^0}{\alpha\mathrm{dist}(\boldsymbol{x}_A^0,\boldsymbol{p}^*)} F(p1)=0dist(xD0,p)p1xD,10=αdist(xA0,p)p1xA,10
因此,若 p ∗ ∈ T \boldsymbol{p}^*\in \cal T pT是OTP,则其一定满足上面求导得到的等式。后文中将这一等式简称为FNC(First-order Necessary Condition)。

α < 1 \alpha<1 α<1时Barrier的计算
α < 1 \alpha<1 α<1时,对于任意初始的 x D 0 ∈ Ω \boldsymbol x_D^0\in \Omega xD0Ω,Barrier B 1 ( x D 0 , α ) \mathcal{B}^{1}(\boldsymbol{x}_{D}^{0},\alpha) B1(xD0,α)由如下的公式进行计算:
B 1 ( x D 0 , α ) = ⋃ i = 1 3 B i 1 ( x D 0 , α ) \mathcal{B}^{1}(\boldsymbol{x}_{D}^{0},\alpha) = \bigcup_{i=1}^{3}\mathcal{B}_{i}^{1}(\pmb{x}_{D}^{0},\alpha) B1(xD0,α)=i=13Bi1(xD0,α)
定义 k 1 = α 2 x D , 1 0 k_1 = \alpha^2 x_{D,1}^0 k1=α2xD,10 k 2 = ( 1 − α 2 ) l + α 2 x D , 1 0 k_2 = (1-\alpha^2)l + \alpha^2 x_{D,1}^0 k2=(1α2)l+α2xD,10,则Barrier的三个部分可以分别按照如下公式得到:
B 1 1 ( x D 0 ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ d i s t ( x , m ) = α d i s t ( x D 0 , m ) , x 1 ∈ [ 0 , k 1 ] } \begin{aligned} \mathcal B_1^1 (\boldsymbol{x}_D^0) = \left\{ \boldsymbol x = (x_1,x_2)\in \Omega | \mathrm{dis}t(\boldsymbol x,\boldsymbol m) = \alpha \mathrm{dist}(\boldsymbol x_D^0, \boldsymbol m), x_1 \in [0, k_1] \right\} \end{aligned} B11(xD0)={ x=(x1,x2)Ω∣dist(x,m)=αdist(xD0,m),x1[0,k1]}
B 2 1 ( x D 0 , α ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ d i s t ( x , n ) = α d i s t ( x D 0 , n ) , x 1 ∈ [ k 2 , l ] } \begin{aligned}\mathcal{B}_2^1\left(\boldsymbol x_D^0,\alpha\right)&=\left\{\boldsymbol x=(x_1,x_2)\in\Omega|\mathrm{dist}(\boldsymbol x,n)\right.\\\\&=\alpha\mathrm{dist}\Big(\boldsymbol x_D^0,n\Big),x_1\in[k_2,l]\Big\}\end{aligned} B21(xD0,α)={ x=(x1,x2)Ω∣dist(x,n)=αdist(xD0,n),x1[k2,l]}
B 3 1 ( x D 0 , α ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ ( x 1 − x D , 1 0 ) 2 − ( 1 / α 2 − 1 ) ( x 2 − h ) 2 + ( 1 − α 2 ) ( x D , 2 0 − h ) 2 = 0 , x 1 ∈ ( k 1 , k 2 ) } \begin{aligned} \mathcal{B}_{3}^{1}\left(\boldsymbol{x}_{D}^{0},\alpha\right)& =\left\{\boldsymbol x=(x_{1},x_{2})\in\Omega|\left(x_{1}-x_{D,1}^{0}\right)^{2}\right. \\ &-\left(1/\alpha^{2}-1\right)(x_{2}-h)^{2} \\ &+\left.\left(1-\alpha^{2}\right)\left(x_{D,2}^{0}-h\right)^{2}=0,x_{1}\in(k_{1},k_{2})\right\} \end{aligned} B31(xD0,α)={ x=(x1,x2)Ω∣(x1xD,10)2(1/α21)(x2h)2+(1α2)(xD,20h)2=0,x1(k1,k2)}

通过上述Barrier的计算和证明,论文得到了智能体(包括攻击者和防御者)初始位置位于Barrier时的最优策略:

  1. α = 1 \alpha=1 α=1,若 x A 0 ∈ B 1 1 ( x D 0 , 1 ) \boldsymbol x_A^0 \in \mathcal B_1^1(\boldsymbol x_D^0,1) xA0B11(xD0,1),则攻击者和防御者的最优策略分别是沿 P ( x A 0 , m ) \mathcal P (\boldsymbol x_A^0, \boldsymbol m) P(xA0,m) P ( x D 0 , m ) \mathcal P (\boldsymbol x_D^0, \boldsymbol m) P(xD0,m)运动;若 x A 0 ∈ B 2 1 ( x D 0 , 1 ) \boldsymbol x_A^0 \in \mathcal B_2^1(\boldsymbol x_D^0,1) xA0B21(xD0,1),则攻击者和防御者的最优策略分别是沿 P ( x A 0 , n ) \mathcal P (\boldsymbol x_A^0, \boldsymbol n) P(xA0,n) P ( x D 0 , n ) \mathcal P (\boldsymbol x_D^0, \boldsymbol n) P(xD0,n)运动。
  2. α < 1 \alpha < 1 α<1,若 x A 0 ∈ B 1 1 ( x D 0 , 1 ) \boldsymbol x_A^0 \in \mathcal B_1^1(\boldsymbol x_D^0,1) xA0B11(xD0,1)或者 x A 0 ∈ B 2 1 ( x D 0 , 1 ) \boldsymbol x_A^0 \in \mathcal B_2^1(\boldsymbol x_D^0,1) xA0B21(xD0,1),攻击者和防御者的最优策略与 α = 1 \alpha =1 α=1时相同。如果 x A 0 ∈ B 3 1 ( x D 0 , α ) \boldsymbol x_A^0 \in \mathcal B_3^1(\boldsymbol x_D^0, \alpha) xA0B31(xD0,α),则OTP的纵坐标为h,横坐标通过如下公式进行计算:
    p 1 ∗ = x A , 1 0 − α 2 x D , 1 0 1 − α 2 p_{1}^{*}=\frac{x_{A,1}^{0}-\alpha^{2}x_{D,1}^{0}}{1-\alpha^{2}} p1=1α2xA,10α2xD,10

2.2.3 双防御者-单攻击者

当存在两个防御者和一个攻击者时,barrier可以分为两种类型,其一只与两个防御者的其中一个有关,而另一种与两个防御者均有关。假设 x D 1 , 2 0 ≥ x D 2 , 2 0 x_{D_1,2}^0 \geq x_{D_2,2}^0 xD1,20xD2,20,即初始时刻的 P D 1 P_{D_1} PD1到边界的距离不大于 P D 2 P_{D_2} PD2到边界的距离。记 B 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{B}^{2}(\boldsymbol{x}_{D_{1}}^{0},\boldsymbol{x}_{D_{2}}^{0},\alpha) B2(xD10,xD20,α) W A 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{W}_{A}^{2}(\boldsymbol{x}_{D_{1}}^{0},\boldsymbol{x}_{D_{2}}^{0},\alpha) WA2(xD10,xD20,α) W D 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{W}_{D}^{2}(\boldsymbol{x}_{D_{1}}^{0},\boldsymbol{x}_{D_{2}}^{0},\alpha) WD2(xD10,xD20,α)分别为Barrier、ADR和DDR。随后论文给出了如下引理:

  • 假设 x D 2 0 ∈ W D 1 ( x D 1 0 , 1 ) ∪ B 1 ( x D 1 0 , 1 ) \boldsymbol x_{D_{2}}^{0}\in\mathcal{W}_{D}^{1}(\boldsymbol x_{D_{1}}^{0},1)\cup\mathcal{B}^{1}(\boldsymbol x_{D_{1}}^{0},1) xD20WD1(xD10,1)B1(xD10,1),则 d i s t ( q , x D 2 0 ) ≥ d i s t ( q , x D 1 0 ) \mathrm{dist}(\boldsymbol{q},\boldsymbol{x}_{D_{2}}^0)\geq\mathrm{dist}(\boldsymbol{q},\boldsymbol{x}_{D_{1}}^0) dist(q,xD20)dist(q,xD10)对于任意ATL上的点 q ∈ T \boldsymbol q\in \mathcal T qT均成立。
    在这里插入图片描述

于是有如下的定理,说明了barrier只与 P D 1 P_{D_1} PD1相关的充分必要条件:

Barrier只与 P D 1 P_{D_1} PD1相关,当且仅当 x D 2 0 ∈ W D 1 ( x D 1 0 , 1 ) ∪ B 1 ( x D 1 0 , 1 ) x_{D_{2}}^{0}\in\mathcal{W}_{D}^{1}(\boldsymbol x_{D_{1}}^{0},1)\cup \mathcal B^1(\boldsymbol x_{D_1}^0,1) xD20WD1(xD10,1)B1(xD10,1)

对于其他情况,Barrier均由两个防御者共同决定,有如下定理成立,这一条定理给出了Barrier的计算方法:

对于两个防御者都相关的Barrier,即 x D 2 0 ∈ W A 1 ( x D 1 0 , 1 ) \boldsymbol x_{D_2}^0 \in \mathcal W_A^1(\boldsymbol x_{D_1}^0,1) xD20WA1(xD10,1),并且 x D 2 , 1 0 > x D 1 , 1 0 x_{D_2,1}^0 > x_{D_1,1}^0 xD2,10>xD1,10时,Barrier B 2 ( x D 1 0 , x D 2 0 , α ) \mathcal B^2(\boldsymbol x_{D_1}^0, \boldsymbol x_{D_2}^0, \alpha) B2(xD10,xD20,α)由以下五部分的并集 ⋃ i = 1 5 B i 2 ( x D 1 0 , x D 2 0 , α ) \bigcup_{i=1}^5\mathcal{B}_i^2(\boldsymbol x_{D_1}^0, \boldsymbol x_{D_2}^0,\alpha) i=15Bi2(xD10,xD20,α)组成,分别为

B 1 2 ( x D 1 0 , x D 2 0 , α ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ d i s t ( x , m ) = α d i s t ( x D 1 0 , m ) , x 1 ∈ [ 0 , k 3 ] } B 2 2 ( x D 1 0 , x D 2 0 , α ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ ( x 1 − x D 1 , 1 0 ) 2 − ( 1 / α 2 − 1 ) ( x 2 − h ) 2 + ( 1 − α 2 ) × ( x D 1 , 2 0 − h ) 2 = 0 , x 1 ∈ ( k 3 , k 4 ) } B 3 2 ( x D 1 0 , x D 2 0 , α ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ d i s t ( x , p c ) = α d i s t ( x D 1 0 , p c ) , x 1 ∈ [ k 4 , k 5 ] } B 4 2 ( x D 1 0 , x D 2 0 , α ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ ( x 1 − x D 2 , 1 0 ) 2 − ( 1 / α 2 − 1 ) ( x 2 − h ) 2 + ( 1 − α 2 ) × ( x D 2 , 2 0 − h ) 2 = 0 , x 1 ∈ ( k 5 , k 6 ) } B 5 2 ( x D 1 0 , x D 2 0 , α ) = { x = ( x 1 , x 2 ) ∈ Ω ∣ d i s t ( x , n ) = α d i s t ( x D 2 0 , n ) , x 1 ∈ [ k 6 , l ] } \begin{aligned} &\mathcal{B}_{1}^{2}\Big(\boldsymbol x_{D_{1}}^{0}, \boldsymbol x_{D_{2}}^{0},\alpha\Big) =\left\{\boldsymbol x=(x_{1},x_{2})\in\Omega|\mathrm{dist}(\boldsymbol x,\boldsymbol m)\right. \\ &=\alpha\mathrm{dist}\bigg(\boldsymbol x_{D_{1}}^{0},\boldsymbol{m}\bigg),x_{1}\in[0,k_{3}]\bigg\} \\ &\mathcal{B}_{2}^{2}\Big(\boldsymbol x_{D_{1}}^{0},\boldsymbol x_{D_{2}}^{0},\alpha\Big) =\begin{cases}\boldsymbol x=(x_1,x_2)\in\Omega|\biggl(x_1-x_{D_1,1}^0\biggr)^2\end{cases} \\ &-\left(1/\alpha^{2}-1\right)(x_{2}-h)^{2}+\left(1-\alpha^{2}\right) \\ &\times\left.\left(x_{D_{1},2}^{0}-h\right)^{2}=0,x_{1}\in(k_{3},k_{4})\right\} \\ &\mathcal{B}_{3}^{2}\Big(\boldsymbol x_{D_{1}}^{0},\boldsymbol x_{D_{2}}^{0},\alpha\Big) =\begin{cases}\boldsymbol x=(x_1,x_2)\in\Omega|\mathrm{dist}(\boldsymbol x,\boldsymbol p_c)\end{cases} \\ &=\alpha\mathrm{dist}\bigg(\boldsymbol x_{D_{1}}^{0},\boldsymbol p_{c}\bigg),x_{1}\in[k_{4},k_{5}]\bigg\} \\ &\mathcal{B}_{4}^{2}\Big(\boldsymbol x_{D_{1}}^{0},\boldsymbol x_{D_{2}}^{0},\alpha\Big) =\left\{\boldsymbol x=(x_1,x_2)\in\Omega|\left(x_1-x_{D_2,1}^0\right)^2\right. \\ &-\left(1/\alpha^{2}-1\right)(x_{2}-h)^{2}+\left(1-\alpha^{2}\right) \\ &\times\left.\left(x_{D_{2},2}^{0}-h\right)^{2}=0,x_{1}\in(k_{5},k_{6})\right\} \\ &\mathcal{B}_{5}^{2}\Big(\boldsymbol x_{D_{1}}^{0},\boldsymbol x_{D_{2}}^{0},\alpha\Big) =\begin{cases}\boldsymbol x=(x_1,x_2)\in\Omega|\mathrm{dist}(\boldsymbol x,\boldsymbol n)\end{cases} \\ &=\alpha\mathrm{dist}\bigg(\boldsymbol x_{D_{2}}^{0},\boldsymbol{n}\bigg),x_{1}\in[k_{6},l]\bigg\} \end{aligned} B12(xD10,xD20,α)={ x=(x1,x2)Ω∣dist(x,m)=αdist(xD10,m),x1[0,k3]}B22(xD10,xD20,α)={ x=(x1,x2)Ω∣(x1xD1,10)2(1/α21)(x2h)2+(1α2)×(xD1,20h)2=0,x1(k3,k4)}B32(xD10,xD20,α)={ x=(x1,x2)Ω∣dist(x,pc)=αdist(xD10,pc),x1[k4,k5]}B42(xD10,xD20,α)={ x=(x1,x2)Ω∣(x1xD2,10)2(1/α21)(x2h)2+(1α2)×(xD2,20h)2=0,x1(k5,k6)}B52(xD10,xD20,α)={ x=(x1,x2)Ω∣dist(x,n)=αdist(xD20,n),x1[k6,l]}
其中
k 3 = α 2 x D 1 , 1 0 k 4 = ( 1 − α 2 ) p c , 1 + α 2 x D 1 , 1 0 k 5 = ( 1 − α 2 ) p c , 1 + α 2 x D 2 , 1 0 k 6 = ( 1 − α 2 ) l + α 2 x D 2 , 1 0 p c = ( p c , 1 , h ) p c , 1 = d i s t 2 ( x D 1 0 , m ) − d i s t 2 ( x D 2 0 , m ) 2 ( x D 1 , 1 0 − x D 2 , 1 0 ) \begin{aligned} k_3 &= \alpha^2 x_{D_1,1}^0\\ k_4 &= (1-\alpha^2)p_{c,1} + \alpha^2 x_{D_1,1}^0 \\ k_5 &= (1-\alpha^2)p_{c,1} + \alpha^2 x_{D_2,1}^0 \\ k_6 &=(1-\alpha^2)l + \alpha^2 x_{D_2,1}^0 \\ \boldsymbol p_c &= (p_{c,1},h)\\ p_{c,1} &= \frac{\mathrm{dist}^2(\boldsymbol x_{D_1}^0, \boldsymbol m) - \mathrm{dist}^2(\boldsymbol x_{D_2}^0, \boldsymbol m)}{2 (x_{D_1,1}^0 - x_{D_2,1}^0)} \end{aligned} k3k4k5k6pcpc,1=α2xD1,10=(1α2)pc,1+α2xD1,10=(1α2)pc,1+α2xD2,10=(1α2)l+α2xD2,10=(pc,1,h)=2(xD1,10xD2,10)dist2(xD10,m)dist2(xD20,m)
如果攻击者位于 B 1 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{B}_{1}^{2}\Big(\boldsymbol x_{D_{1}}^{0}, \boldsymbol x_{D_{2}}^{0},\alpha\Big) B12(xD10,xD20,α) B 3 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{B}_{3}^{2}\Big(\boldsymbol x_{D_{1}}^{0}, \boldsymbol x_{D_{2}}^{0},\alpha\Big) B32(xD10,xD20,α) B 5 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{B}_{5}^{2}\Big(\boldsymbol x_{D_{1}}^{0}, \boldsymbol x_{D_{2}}^{0},\alpha\Big) B52(xD10,xD20,α)则OTP分别为 m \boldsymbol m m p c \boldsymbol p_c pc n \boldsymbol n n。当 α < 1 \alpha<1 α<1时,如果攻击者位于 B 2 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{B}_{2}^{2}\Big(\boldsymbol x_{D_{1}}^{0}, \boldsymbol x_{D_{2}}^{0},\alpha\Big) B22(xD10,xD20,α)则攻击者和 P D 1 P_{D_1} PD1的OTP均为上文一对一时给出的 p ∗ \boldsymbol p^* p,而另一个防御者可以采用任意策略。当攻击者位于 B 4 2 ( x D 1 0 , x D 2 0 , α ) \mathcal{B}_{4}^{2}\Big(\boldsymbol x_{D_{1}}^{0}, \boldsymbol x_{D_{2}}^{0},\alpha\Big) B42(xD10,xD20,α)时情况类似。

2.3 胜利区域内的最优策略

由2.1中的两个收益函数可知,当攻击者初始位置位于DDR内,则攻击者会尽可能靠近ATL;当攻击者初始位置位于ADR内,攻击者会尽可能远离防御者以保证安全。防御者也会采取策略使得对应的 J J J与攻击者期望的方向反向变化。

2.3.1 DDR中的策略

由于在DDR中防御者能够保证抓捕,因此防御者的策略应当为接近抓捕位置,记抓捕位置为 p ∗ p^* p,则收益函数 J T J_\mathcal T JT可以改写为:
J T = min ⁡ d i s t ( p , p ∗ ) J_\mathcal T = \min \mathrm{dist}(\boldsymbol p,\boldsymbol p^*) JT=mindist(p,p)

由2.1节可知,攻击者能够到达的区域为AR,因此 p ∗ p^* p一定在AR的边界,即 p ∗ ∈ b a r 2 ( x A 0 , x D 1 0 , x D 2 0 , α ) \boldsymbol p^{*}\in\mathrm{bar}^{2}(\boldsymbol x_{A}^{0},\boldsymbol x_{D_{1}}^{0},\boldsymbol x_{D_{2}}^{0},\alpha) pbar2(xA0,xD10,xD20,α)。同时,由Proposition1可知,攻击者为了靠近ATL会沿 P ( x A 0 , p ∗ ) \mathcal P(\boldsymbol x_A^0, \boldsymbol p^*) P(xA0,p)运动,因此有如下引理:

x A 0 ∈ W D 2 ( x D 1 0 , x D 2 0 , α ) \boldsymbol x_{A}^{0}\in\mathcal{W}_{D}^{2}(\boldsymbol x_{D_{1}}^{0},\boldsymbol x_{D_{2}}^{0},\alpha) xA0WD2(xD10,xD20,α),并且采用 J T J_\mathcal T JT,则抓捕点 p ∗ p^* p b a r 2 ( x A 0 , x D 1 0 , x D 2 0 , α ) \mathrm{bar}^{2}(\boldsymbol x_{A}^{0},\boldsymbol x_{D_{1}}^{0},\boldsymbol x_{D_{2}}^{0},\alpha) bar2(xA0,xD10,xD20,α)中最接近 T \mathcal T T的点,并且攻击者的最优策略是沿 P ( x A 0 , p ∗ ) \mathcal P(\boldsymbol x_A^0, \boldsymbol p^*) P(xA0,p)运动。

对于防御者,若 p ∗ \boldsymbol p^* p位于 b a r 1 ( x A 0 , x D 1 0 , α ) ∩ b a r 1 ( x A 0 , x D 2 0 , α ) \mathrm{bar}^{1}(\boldsymbol x_{A}^{0},\boldsymbol x_{D_{1}}^{0},\alpha)\cap\mathrm{bar}^{1}(\boldsymbol x_{A}^{0},\boldsymbol x_{D_{2}}^{0},\alpha) bar1(xA0,xD10,α)bar1(xA0,xD20,α),显然防御者的最优策略分别为沿着 P ( x D 1 0 , p ∗ ) \mathcal{P}(\boldsymbol x_{D_1}^0, p^*) P(xD10,p) P ( x D 2 0 , p ∗ ) \mathcal{P}(\boldsymbol x_{D_2}^0, p^*) P(xD20,p)运动。而当 p ∗ ∈ b a r 1 ( x A 0 , x D 1 0 , α ) \boldsymbol p^*\in \mathrm{bar}^{1}(\boldsymbol x_{A}^{0},\boldsymbol x_{D_{1}}^{0},\alpha) pbar1(xA0,xD10,α)并且 p ∗ ∉ b a r 1 ( x A 0 , x D 1 0 , α ) \boldsymbol p^*\notin \mathrm{bar}^{1}(\boldsymbol x_{A}^{0},\boldsymbol x_{D_{1}}^{0},\alpha) p/bar1(xA0,xD10,α),通过2.2节的定理可知, P D 2 P_{D_2} PD2可以采用任意策略,因此两个防御者仍然采用分别沿 P ( x D 1 0 , p ∗ ) \mathcal{P}(\boldsymbol x_{D_1}^0, p^*) P(xD10,p) P ( x D 2 0 , p ∗ ) \mathcal{P}(\boldsymbol x_{D_2}^0, p^*) P(xD20,p)运动的策略。下面的Fig. 6和Fig. 7展示了这里所述的策略。
在这里插入图片描述

2.3.2 ADR中的策略

在ADR中,攻击者可以保证到达ATL,攻击者会最大化 J d J_d Jd以保证其安全,而防御者会最小化 J d J_d Jd以尽可能接近攻击者。根据2.2可知,根据攻击者的初始位置,最优目标点可能是固定的或者不固定的,因此论文将ADR拆分为FTPR(Fixed Target Point Region)和UTPR(Unfixed Target Point Region),分别对应最优目标点固定/不固定的攻击者初始位置集合,两种区域的分界线称为SCL(Strategy Change Line)。

首先考虑 x D 2 0 ∈ W D 1 ( x D 1 0 , 1 ) ∪ B 1 ( x D 1 0 , 1 ) x_{D_{2}}^{0}\in\mathcal{W}_{D}^{1}(\boldsymbol x_{D_{1}}^{0},1)\cup \mathcal B^1(\boldsymbol x_{D_1}^0,1) xD20WD1(xD10,1)B1(xD10,1),此时ADR只与 P D 1 P_{D_1} PD1有关。设 p ∗ = ( p 1 ∗ , h ) \boldsymbol p^*=(p_1^*,h) p=(p1,h)为OTP,由2.2可知, p 1 ∗ p_1^* p1一定满足FNC,并且有 p 1 ∗ ≥ x A , 1 0 ≥ x D 1 , 1 0 p_1^*\geq x_{A,1}^0 \geq x_{D_1,1}^0 p1xA,10xD1,10,相等的情况只出现在三者均相等,即防御者抓捕成功时攻击者恰好到达ATL,为了避免这种情况出现,我们严格限定 x A , 1 0 > x D 1 , 1 0 x_{A,1}^0 > x_{D_1,1}^0 xA,10>xD1,10。然后论文得到如下引理:

x A 0 ∈ W A 2 ( x D 1 , x D 2 , α ) \boldsymbol x_{A}^{0}\in\mathcal{W}_{A}^{2}(\boldsymbol x_{D_{1}},\boldsymbol x_{D_{2}},\alpha) xA0WA2(xD1,xD2,α)并且 x D 2 0 ∈ W D 1 ( x D 1 0 , 1 ) ∪ B 1 ( x D 1 0 , 1 ) x_{D_{2}}^{0}\in\mathcal{W}_{D}^{1}(\boldsymbol x_{D_{1}}^{0},1)\cup \mathcal B^1(\boldsymbol x_{D_1}^0,1) xD20WD1(xD10,1)B1(xD10,1)并且 l l l足够长,则OTP是唯一的,并且 p 1 ∗ > x A , 1 0 p_1^* > x_{A,1}^0 p1>xA,10。并且 F ( p 1 ) F(p_1) F(p1)在区间 [ x A , 1 0 , p 1 ∗ ] [x_{A,1}^0, p_1^*] [xA,10,p1]内是单调递增的,在区间 [ p 1 ∗ , l ] [p_1^*,l] [p1,l]内是单调递减的。 F ( p 1 ) F(p_1) F(p1)函数在推导FNC时出现过,其形式如下:
F ( p 1 ) = dist ⁡ ( x D 0 , p ) − dist ⁡ ( x A 0 , p ) α F(p_1)=\operatorname{dist}(\boldsymbol{x}_D^0,\boldsymbol{p})-\frac{\operatorname{dist}(\boldsymbol{x}_A^0,\boldsymbol{p})}\alpha F(p1)=dist(xD0,p)αdist(xA0,p)

通过这一引理,论文进一步得出了如下两个定理,用于求解FTPR、UTPR和SCL。

x D 2 0 ∈ W D 1 ( x D 1 0 , 1 ) ∪ B 1 ( x D 1 0 , 1 ) x_{D_{2}}^{0}\in\mathcal{W}_{D}^{1}(\boldsymbol x_{D_{1}}^{0},1)\cup \mathcal B^1(\boldsymbol x_{D_1}^0,1) xD20WD1(xD10,1)B1(xD10,1),则SCL为 P ( s 1 , m ) \mathcal P(\boldsymbol s_1, \boldsymbol m) P(s1,m) P ( s 2 , m ) \mathcal P(\boldsymbol s_2, \boldsymbol m) P(s2,m),ADR被划分为 R F 1 1 \mathcal R_{F1}^1 RF11 R F 2 1 \mathcal R_{F2}^1 RF21 R U F 1 1 \mathcal R_{UF1}^1 RUF11,FTPR中的OTP分别为 m \boldsymbol m m n \boldsymbol n n,UTPR中的OTP可以通过FNC进行计算。其中 s 1 = ( k 1 , s 1 ) \boldsymbol s_1=(k_1,s_1) s1=(k1,s1) s 2 = ( k 2 , s 2 ) \boldsymbol s_2=(k_2,s_2) s2=(k2,s2)为Barrier上的分界点,将 k 1 k_1 k1 k 2 k_2 k2代入Barrier计算纵坐标 s 1 s_1 s1 s 2 s_2 s2即可。

x D 2 0 ∈ W A 1 ( x D 1 0 , 1 ) \boldsymbol x_{D_{2}}^{0}\in\mathcal{W}_{A}^{1}(\boldsymbol x_{D_{1}}^{0},1) xD20WA1(xD10,1),则ADR被划分成五个部分,分别为 R F 1 2 \mathcal{R}_{F1}^{2} RF12 R F 2 2 \mathcal{R}_{F2}^{2} RF22 R F 3 2 \mathcal{R}_{F3}^{2} RF32 R U F 1 2 \mathcal{R}_{UF1}^{2} RUF12 R U F 2 2 \mathcal{R}_{UF2}^{2} RUF22,FTPR中的OTP分别为 m \boldsymbol m m n \boldsymbol n n p c \boldsymbol p_c pc,SCL为 P ( s 3 , m ) \mathcal P(\boldsymbol s_3, \boldsymbol m) P(s3,m) P ( s 4 , p c ) \mathcal P(\boldsymbol s_4, \boldsymbol p_c) P(s4,pc) P ( s 5 , p c ) \mathcal P(\boldsymbol s_5, \boldsymbol p_c) P(s5,pc) P ( s 6 , n ) \mathcal P(\boldsymbol s_6, \boldsymbol n) P(s6,n),UTPR中的OTP通过FNC计算。

三、论文结果复现

本论文着重于讨论DDR、ADR、Barrier的计算,给出了详细严谨的证明,但是没有仿真或者实物实验。在作者之后的另一篇论文Task Assignment for Multiplayer Reach–Avoid Games in Convex Domains via Analytical Barriers中有类似的实验,下一期将会进行完整的实验结果复现。

四、结论

  1. 给出了不同 α \alpha α下的AR、BAR计算方法。
  2. 给出了不同 α \alpha α下的单对单的Barrier计算方法,进一步推广到双防御者-单攻击者的情形,均给出了严谨的证明。
  3. 针对不同的胜利区域,给出了两个具有明确物理意义的代价函数。
  4. 基于上述代价函数,分析了智能体在各自胜利区域以及对方胜利区域内的最优目标点计算方法、最优策略,并给出了最优性的证明。

五、补充说明

5.1 Reach-Avoid Games和Pursuit-Evasion Games的区别

Reach-Avoid Games 和 Pursuit-Evasion Games 是两种研究动态博弈与控制的数学模型,分别用于描述不同的目标和战略场景。

  1. Reach-Avoid Games:

    Reach-Avoid Games 是一种描述两个或更多参与者之间的动态冲突的博弈。在这个游戏中,通常有两组参与者:攻击者和防御者。攻击者的目标是尽量到达某个特定的目标区域,而防御者的目标是阻止攻击者到达该区域。同时,防御者可能会努力将攻击者推向另一个不利的区域。所以这个游戏不仅仅是阻止攻击者达到目标,还包括使攻击者到达某个不利位置的战略。

  2. Pursuit-Evasion Games:

    Pursuit-Evasion Games 则是描述追踪和逃避的场景。在这个游戏中,一组追踪者试图捕捉一组逃避者,而逃避者则试图避免被捕捉。追踪者和逃避者可以有不同的动态特性和能力。这个游戏的核心是追踪与逃避的策略和动态。

区别:

  • 目标: Reach-Avoid Games 的焦点在于到达或避免某个特定区域,而 Pursuit-Evasion Games 的焦点在于追踪和逃避。
  • 策略: Reach-Avoid Games 中,攻击者和防御者可能有复杂的战略,包括到达目标、阻止对方到达目标和引导对方到达不利位置。Pursuit-Evasion Games 中的策略通常更直接,关注于追踪和逃避。
  • 应用: 两者可能有不同的应用背景。Reach-Avoid Games 可能更多地用于军事战略、机器人动态避障等,而 Pursuit-Evasion Games 可能更多地用于搜索和救援、无人机追踪等。

总的来说,这两种游戏都涉及动态决策和博弈,但在目标、战略和应用方面有所不同。

猜你喜欢

转载自blog.csdn.net/qq_45709806/article/details/132147445