论文：Safe Reinforcement Learning with Linear Function Approximation
下载地址：http://proceedings.mlr.press/v139/amani21a/amani21a.pdf
会议/年份：PMLR / 2021

Word版本下载地址（辛辛苦苦打出来的）：https://download.csdn.net/download/baishuiniyaonulia/85863332
本文翻译属于半人工，有错漏请谅解。

文章目录

摘要、1、2、3
4. 扩展到随机化的策略选择 Extension to randomized policy selection
- 4.1. 随机SLUCB-QVI Randomized SLUCB-QVI
- - 引理 2 （面对 RSLUCB-QVI 安全约束的乐观态度） Lemma 2 (Optimism in the face of safety constraint in RSLUCB-QVI)
  - 定理 3 （RSLUCB-QVI 的遗憾） Theorem 3 (Regret of RSLUCB-QVI)
5. 实验 Experiments
6. 结论 Conclusion

摘要、1、2、3

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1 —— https://blog.csdn.net/baishuiniyaonulia/article/details/125504660

4. 扩展到随机化的策略选择 Extension to randomized policy selection

第 2 节中介绍的 SLUCB-QVI 只能输出确定性策略。在本节中，我们表明我们的结果可以扩展到随机策略选择的设置，这在实践中可能是可取的。随机策略 $\pi :\mathcal{S}\times [H]\to { {\Delta }_{\mathcal{A}}}$ 将状态和时间步映射到动作上的分布，使得 $a\sim \pi (s,h)$ 是策略 π 建议智能体在处于状态 $s\in \mathcal{S}$ 时在时间步 $h\in [H]$ 执行的动作。在每个情节 k 和时间步 $h\in [H]$ 中，当处于状态 $s_{h}^{k}$ 时，智能体必须从 a 中提取其动作 $a_{h}^{k}$ 安全策略 ${\pi }_{k}}\left( s_{h}^{k},h \right)$ 使得 ${\mathbb{E}}_{a_{h}^{k}\sim{ {\pi }_{k}}\left( s_{h}^{k},h \right)}}{ {c}_{h}}\left( s_{h}^{k},a_{h}^{k} \right)\le \tau$ 概率很高。我们相应地定义了一组未知的安全策略 ${\tilde{\Pi }}^{\text{safe }}}:=\left\{ \pi :\pi (s,h)\in \Gamma _{h}^{\text{safe }}(s),\forall (s,h)\in \mathcal{S}\times [H] \right\}$

其中 $\Gamma _{h}^{\text{safe}}(s):=\left\{ \theta \in { {\Delta }_{\mathcal{A}}}:{ {\mathbb{E }}_{a\sim\theta }}{ {c}_{h}}(s,a)\le \tau \right\}$ 。因此，在第 k 回合的时间步 $h\in [H]$ 观察状态 $s_{h}^{k}$ 之后，智能体的策略选择必须属于 $\Gamma _{h}^{\text {safe}}(s_{h}^{k})$ 概率很高。在这个公式中，策略 π 的（动作）价值函数定义中的期望值超过了环境和策略 π 的随机性。我们用 $\tilde{V}_{h}^{\pi }$ 和 $\tilde{Q}_{h}^{\pi }$ 来表示它们，以区别于 $\tilde{V}_{h }^{\pi }$ 和 $\tilde{Q}_{h}^{\pi }$ 在 (2) 和 (3) 中定义，用于确定性策略 π。令 ${\pi }_{*}}$ 为最优安全策略，使得 $\tilde{V}_{h}^{ { {\pi }_{*}}}(s):=\tilde {V}_{h}^{*}(s)=\underset{\pi \in { { {\tilde{\Pi }}}^{\text{safe }}}}{\mathop{\sup } }\,\tilde{V}_{h}^{\pi }(s)$ 对于所有 $(s,h)\in \mathcal{S}\times [H]$ 。因此，对于所有 $(a,s,h)\in \mathcal{A}\times \mathcal{S}\times [H]$ ，安全策略的贝尔曼方程 $\pi \in { {\tilde{ \Pi }}^{\text{safe }}}$ 和最优安全策略是

$\begin{aligned} & \tilde{Q}_{h}^{\pi }(s,a)={ {r}_{h}}(s,a)+\left[ { {\mathbb{P}}_{h}}\tilde{V}_{h+1}^{\pi } \right](s,a), \\ & \quad \tilde{V}_{h}^{\pi }(s)={ {\mathbb{E}}_{a\sim\pi (s,h)}}\left[ \tilde{Q}_{h}^{\pi }(s,a) \right], \\ \end{aligned}$ $\begin{aligned} & \tilde{Q}_{h}^{*}(s,a)={ {r}_{h}}(s,a)+\left[ { {\mathbb{P}}_{h}}\tilde{V}_{h+1}^{*} \right](s,a), \\ & \tilde{V}_{h}^{*}(s)={ {\max }_{\theta \in \Gamma _{h}^{\text{safe }(s)}}}{ {\mathbb{E}}_{a\in \theta }}\left[ \tilde{Q}_{h}^{*}(s,a) \right], \\ \end{aligned}$

其中 $\tilde{V}_{H+1}^{\pi }(s)=\tilde{V}_{H+1}^{*}(s)=0$ ，定义了累积后悔如 ${R}_{K}}:=\sum\limits_{k=1}^{K}{\tilde{V}_{1}^{*}}(s_{1}^{k})-\tilde{V}_{1}^{ { {\pi }_{k}}}(s_{1}^{k})$ 。 (11) 中的安全约束定义使我们摆脱了对集合 $\mathcal{D}(s):=\{\phi (s,a):a\in \mathcal{A}\}$ 的星凸假设（假设 5），这是确定性策略选择方法所必需的。我们建议对 SLUCB-QVI 进行修改，以适应这种新的配方，称为随机 SLUCB-QVI (RSLUCB-QVI)。这种新算法还实现了与 SLUCB-QVI 相同阶次的亚线性后悔，即 $\widetilde{\mathcal{O}}\left( \kappa \sqrt{ { {d}^{3}} { {H}^{3}}T} \right)$ .

虽然与 SLUCB-QVI（参见（1））中考虑的安全约束相比，RSLUCB-QVI 尊重了更温和的安全约束定义（参见（11）），但它仍然比其他现有算法通过随机策略选择解决 CMDP 具有显着优势（Efroni 等人，2020；Turchetta 等人，2020；Garcelon 等人，2020；Zheng 和 Ratliff，2020；Ding 等人，2020a；Qiu 等人，2020；Ding 等人，2020b；Xu 等人，2020 年；Kalagarla 等人，2020 年）。首先，这些算法中考虑的安全约束是由低于某个阈值的时间范围内的累积预期成本定义的，而 RSLUCB-QVI 保证在执行动作的每个时间步（而不是时间范围内）产生的预期成本小于阈值。其次，即使对于安全约束的这种更宽松的定义，这些算法在约束满足方面所能保证的最好的方法是约束违反次数的亚线性界限，而 RSLUCB-QVI 确保没有约束违反。

4.1. 随机SLUCB-QVI Randomized SLUCB-QVI

我们现在描述算法 2 中总结的 RSLUCB-QVI。令 ${\phi }^{\theta }}(s):={ {\mathbb{E}}_{a\sim\theta }}\phi (s ,a)$ 。在每个情节 $k\in [K]$ 中，在第一个循环中，智能体计算所有 $s 的真实未知集 $\Gamma _{h}^{\text{safe}}(s)$ 的估计集 $s\in \mathcal{S}$ 如下：
$\Gamma _{h}^{k}(s):=\left\{ \theta \in { {\Delta }_{\mathcal{A}}}:{ {\mathbb{E}}_{a\sim\theta }}\left[ \frac{\left\langle { {\Phi }_{0}}(s,\phi (s,a)),\widetilde{\phi }\left( s,{ {a}_{0}}(s) \right) \right\rangle }{ { {\left\| \phi \left( s,{ {a}_{0}}(s) \right) \right\|}_{2}}}{ {\tau }_{h}}(s) \right] \right.\left. +\underset{\nu \in \mathcal{C}_{h}^{k}(s)}{\mathop{\max }}\,\left\langle \Phi _{0}^{\bot }\left( s,{ {\mathbb{E}}_{a\sim\theta }}[\phi (s,a)] \right),\nu \right\rangle \le \tau \right\}$

$=\left\{ \theta \in { {\Delta }_{\mathcal{A}}}:\frac{\left\langle { {\Phi }_{0}}\left( s,{ {\phi }^{\theta }}(s) \right),\tilde{\phi }\left( s,{ {a}_{0}}(s) \right) \right\rangle }{ { {\left\| \phi \left( s,{ {a}_{0}}(s) \right) \right\|}_{2}}}{ {\tau }_{h}}(s)+\left\langle \gamma _{h,s}^{k},\Phi _{0}^{\bot }\left( s,{ {\phi }^{\theta }}(s) \right) \right\rangle +\beta { {\left\| \Phi _{0}^{\bot }\left( s,{ {\phi }^{\theta }}(s) \right) \right\|}_{ { {\left( \mathbf{A}_{h,s}^{k} \right)}^{-1}}}}\le \tau \right\}$

请注意，由于 MDP 的线性结构，我们可以再次通过线性形式 $\left\langle \mathbf{\tilde{w}}_{h}^{*},\phi (s,a) \right\rangle$ 参数化 $\tilde{Q}_{h}^{*}(s,a)$ , 其中 $\mathbf{\tilde{w}}_{h}^{*}:=\theta _{ h}^{*}+\int_{\mathcal{S}}{\tilde{V}_{h+1}^{*}}({s}')d\mu ({s}')$ 。在下一步中，对于所有 $(s,a)\in \mathcal{S}\times \mathcal{A}$ ，智能体计算 $\tilde{Q}_{h}^{k}(s,a)=\left\langle \mathbf{\tilde{w}}_{h}^{k},\phi (s,a) \right\rangle +{ {\kappa }_{h}}(s)\beta { {\left\| \phi (s,a) \right\|}_{ { {\left( \mathbf{A}_{h}^{k} \right)}^{-1}}}}$

其中 $\mathbf{\tilde{w}}_{h}^{*}:={ {\left( \mathbf{A}_{h}^{k} \right)}^{-1}}\ widetilde{\mathbf{b}}_{h}^{k}$ 是由 Gram 矩阵 $ 计算的 $\mathbf{\tilde{w}}_{h}^{*}$ 的正则化最小二乘估计量\mathbf{A}_{h}^{k}$ 和 $\widetilde{\mathbf{b}}_{h}^{k}:=\sum\limits_{j=1}^{k-1} {\phi _{h}^{j}}\left[ r_{h}^{j}+\min \left\{ { {\max }_{\theta \in \Gamma _{h+1}^ {k}\left( s_{h+1}^{j} \right)}}{ {\mathbb{E}}_{a\sim\theta }}\left[ \tilde{Q}_{h+ 1}^{k}\left( s_{h+1}^{j},a \right) \right],H \right\} \right]$ 。在第一个循环中的这些计算之后，智能体从分布 $\Gamma _{h}^{k}\left( s_{h}^{k} \right)$ 中绘制动作 $a_{h}^{k}$ 在第二个循环中。定义 $\tilde{V}_{h}^{k}(s):=\min \left\{ { {\max }_{\theta \in \Gamma _{h}^{k}(s) }}{ {\mathbb{E}}_{a\sim\theta }}\left[ \tilde{Q}_{h}^{k}(s,a) \right],H \right\}$ , 和 ${\mathcal{E}}_{3}}:=\left\{ \left| \left\langle \mathbf{\tilde{w}}_{h}^{k},\phi (s,a) \right\rangle -\tilde{Q}_{h}^{\pi } \right. \right.\left. (s,a)-\left[ { {\mathbb{P}}_{h}}\tilde{V}_{h+1}^{\pi }-\tilde{V}_{h+1}^{k} \right](s,a) \right|\left. \le \beta { {\left\| \phi (s,a) \right\|}_{ { {\left( \mathbf{A}_{h}^{k} \right)}^{-1}}}},\forall (a,s,h,k)\in \mathcal{A}\times \mathcal{S}\times [H]\times [K] \right\}$ 。

可以很容易地证明，定理 2 中所述的结果适用于专注于随机策略的设置，即在假设 1、2、3 和 4 下，并且根据定理 1 中 β 的定义，概率至少为 $2\delta$ ，事件 $\widetilde{\mathcal{E}}:={ {\mathcal{E}}_{1}}\bigcap { {\mathcal{E}}_{3}}$ 成立。因此，作为命题 1 的直接结论，保证以 ${\mathcal{E}}_{1}}$ 为条件， $\Gamma _{h}^{k}(s)$ 内的所有策略是安全的，即 $\Gamma _{h}^{k}(s)\subset \Gamma _{h}^{\text{safe}}(s)$ 。现在，在下面的引理中，我们量化了 ${\kappa }_{h}}(s)$ 。

引理 2 （面对 RSLUCB-QVI 安全约束的乐观态度） Lemma 2 (Optimism in the face of safety constraint in RSLUCB-QVI)

令 ${\kappa }_{h}}(s):=\frac{2H}{\tau -{ {\tau }_{h}}(s)}+1$ 和假设 1,2,3 ,4 保持。然后，以事件 $\widetilde{\mathcal{E}}$ 为条件，它认为 $\tilde{V}_{h}^{*}(s)\le \tilde{V}_{h}^{ k}(s),\forall (s,h,k)\in \mathcal{S}\times [H]\times [K]$ 。

证明包含在附录 B.1 中。使用引理 2，我们证明 $\tilde{Q}_{h}^{*}(s,a)\le \tilde{Q}_{h}^{k}(s,a)$ , $\ forall (a,s,h,k)\in \mathcal{A}\times \mathcal{S}\times [H]\times [K]$ 。这突出了 RSLUCB-QVI 的 UCB 特性，使我们能够利用不安全的 LSVI-UCB (Jin et al., 2020) 的标准分析来建立后悔界。

定理 3 （RSLUCB-QVI 的遗憾） Theorem 3 (Regret of RSLUCB-QVI)

在假设 1、2、3 和 4 下，存在一个绝对常数 ${c}_{\beta }}>0$ 使得对于任何固定的 $\delta \in (0,1/3)$ ，并且定理 1 中 β 的定义，如果我们设 ${\kappa }_{h}}(s):=\frac{2H}{\tau -{ {\tau }_{h}}(s)} +1$ ，
在这里插入图片描述

在这里插入图片描述

图 1. SLUCB-QVI 与不安全的最先进技术的比较验证：1) 当 LSVI-UCB (Jin et al., 2020) 知道 $\gamma _{h}^{*}$ ，它按预期优于 SLUCB-QVI（不知道 $\gamma _{h}^{*}$ ）； 2）当 LSVI-UCB 不知道 $\gamma _{h}^{*}$ （如 SLUCB-QVI 的情况）并且其目标是最大化 $r-{\lambda }'c$ 而不是 r ，较大的 ${\lambda }'$ 导致每回合奖励和约束违规次数较小，而 SLUCB-QVI 的约束违规次数为零。

然后以至少 $1-3\delta$ 的概率，它认为 ${R}_{K}}\le 2H\sqrt{T\log \left( \frac{dT}{\delta } \right)} +2(1+\kappa )\beta\sqrt{2dHT\log \left( 1+\frac{K}{d\lambda } \right)}$ ，其中 $\kappa :={ {\max } _{(s,h)\in \mathcal{S}\times [H]}}{ {\kappa }_{h}}(s)$ 。证明见附录 B.2。

5. 实验 Experiments

在本节中，我们提出数值模拟来补充和证实我们的理论发现。我们评估 SLUCB-QVI 在合成环境中的性能，并在 OpenAI Gym 的 Frozen Lake 环境中实施 RSLUCB-QVI（Brockman 等人，2016 年）。

5.1. 合成环境中的SLUCB-QVI SLUCB-QVI on synthetic environments

图 1 中显示的结果描述了 20 次实现的平均值，为此我们选择了 $\delta =0.01,\sigma =0.01,\lambda =1,d=5,\tau =0.5,H=3$ 和 $K= 10000 美元。参数 ${\left\{ \theta _{h}^{*} \right\}}_{h\in [H]}}$ 和 ${\left\{ \gamma _{h}^ {*} \right\}}_{h\in [H]}}$ 来自 $\mathcal{N}\left( 0,{ {I}_{d}} \right)$ 。为了调优参数 ${\left\{ \mu _{h}^{*}(.) \right\}}_{h\in [H]}}$ 和特征图 $\phi$ 这样它们与假设 1 兼容，我们认为特征空间 $\{\phi (s,a):(s,a)\in \mathcal{S}\times \mathcal{A}\}$ 是一个子集 d 维单纯形和 $\mathbf{e}_{i}^{\top }\mu _{h}^{*}(.)$ 是对 $\mathcal{S}$ 的任意概率测度所有 $i\in [d]$ 。这保证了假设 1 成立。

在 SLUCB-QVI 的第一个循环（第 6 行）中计算安全集 $\mathcal{A}_{h}^{k}(s)$ ，然后选择最大化线性函数的动作（在特征映射 $ \phi $) 在特征空间 $\mathcal{D}_{h}^{k}\left( s_{h}^{k} \right):=\left\{ \phi \left( s_{h }^{k},a \right):a\in \mathcal{A}_{h}^{k}\left( s_{h}^{k} \right) \right\}$ 在第二个循环中（第 10 行）。不幸的是，即使特征空间 $\{\phi (s,a):(s,a)\in \mathcal{S}\times \mathcal{A}\}$ 是凸的，集合 $\mathcal{D }_{h}^{k}\left( s_{h}^{k} \right)$ 可以具有难以最大化线性函数的形式。在我们的实验中，我们定义映射 $\phi $ 使得集合 $\mathcal{D}(s)$ 在 $\phi \left( s,{ {a}_{0}}(s ) \right)$ 与 $N = 100$ （见定义 1），因此，我们可以证明 SLUCB-QVI 的第 10 行中的优化问题可以有效地解决（见附录 C 的证明）。

定义1 （有限星凸集） Definition 1 (Finite star convex set)

一个围绕 ${x}_{0}}\in { {\mathbb{R}}^{d}}$ 的星形凸集 $\mathcal{D}$ 是有限的，如果存在有限多个向量 $\left \{ { {\mathbf{x}}_{i}} \right\}_{i=1}^{N}$ 使得 $\mathcal{D}=\bigcup _{i=1}^{N }\left[ { {\mathbf{x}}_{0}},{ {\mathbf{x}}_{i}} \right]$ ，其中 $\left[ { {\mathbf{x}}_ {0}},{ {\mathbf{x}}_{i}} \right]$ 是连接 ${\mathbf{x}}_{0}}$ 和 ${\mathbf{x} 的线 }_{i}}$ 。

图 1 描绘了 SLUCB-QVI 的平均每回合奖励，并将其与基线进行了比较，并强调了 SLUCB-QVI 在尊重所有时间步的安全约束方面的价值。具体来说，我们将 SLUCB-QVI 与 1) LSVI-UCB (Jin et al., 2020) 进行比较，因为它具有安全约束知识，即 $\gamma _{h}^{*}$ ； 2) LSVI-UCB，当它不知道 $\gamma _{h}^{*}$ （如 SLUCB-QVI 的情况）并且其目标是最大化函数 $r-{\lambda }' c$ ，约束被推入目标函数，对于 ${\lambda }'=0.8,0.85,0.9$ 和 0.95 的不同值。因此，通过低奖励不鼓励采取代价高昂的行动。该图验证了具有 $\gamma _{h}^{*}$ 知识的 LSVI-UCB 在不了解 $\gamma _{h}^{*}$ 的情况下按预期优于 SLUCB-QVI。此外，当 LSVI-UCB 试图最大化 $r-{\lambda }'c$ （不知道 $\gamma _{h} ^{*}$ ) 而 SLUCB-QVI 的约束违反次数为零。

5.2. 冰冻湖环境下的RSLUCB-QVI RSLUCB-QVI on Frozen Lake environment

我们评估了 RSLUCB-QVI 在 Frozen Lake 环境中的性能。智能体寻求在 10 × 10 2D 地图中达到目标（图 2a），同时避免危险。
在这里插入图片描述

图 2.RSLUCB-QVI 和 CISR (Turchetta et al., 2020) 在 Frozen Lake 环境中的比较。

在每个时间步，智能体可以向四个方向移动，即 $\mathcal{A}=\{ { {a}_{1}}:\text{left, }{ {a}_{2}}:\text{right, }{ {a}_{3}}:\text{down, }{ {a}_{4}}:\text{up}\}$ 。它以 0.9 的概率沿所需方向移动，以 0.05 的概率沿任一正交方向移动。我们设 $H=1000,K=10,d=|\mathcal{S}|=100$ , AND ${\mu }^{*}}(s)\sim\mathcal{N}\left( 0,{ {I}_{d}} \right)$ for all $s\in \mathcal{S}=\left\{ { {s}_{1}},\ldots ,{ {s}_{100}} \right\}$ 。然后，我们通过求解一组线性方程来正确指定所有 $(s,a)\in \mathcal{S}\times \mathcal{A}$ 的特征映射 $\phi (s,a)$ ，使得转换尊重上述环境的细节。为了将避免危险的要求解释为形式 (11) 的约束，我们将 ${\gamma }^{*}}$ 和 $\tau $ 调整如下：执行动作的成本 $a\in \状态 $s\in \mathcal{S}$ 处的 mathcal{A}$ 是智能体移动到危险状态之一的概率。因此，安全策略确保移动到危险状态的概率的期望值是一个小值。为此，我们设置 ${\gamma }^{*}}=\sum\limits_{s\in \text{ Danger states }}{ { {\mu }^{*}}}(s)$ 和 $\tau =0.1$ 。此外，对于每个状态 $s\in \mathcal{S}$ ，将一个安全动作，即导致具有小概率（ $\tau =0.1$ ）的危险状态之一的游戏给予智能体。我们求解一组线性方程来调整 ${\theta }^{*}}$ ，使得在每个状态 $s\in \mathcal{S}$ ，通向最接近目标的状态的方向state 给 agent 奖励 1，而玩其他三个方向给它奖励 0.01。该模型说服智能体朝着目标前进。

在指定特征图 $\phi$ 并调整所有参数后，我们为 10 个交互单元（episodes）（即 $K = 10$ ）实现了 RSLUCB-QVI，每个交互单元由 1000 个时间步（horizon）组成，即 $H= 1000 美元）。在每个交互单元（情节）期间和每次移动之后，智能体可以最终处于以下三种状态之一：1）目标，导致交互单元成功终止； 2) 危险，导致交互单元出现故障并随之终止； 3）安全。智能体达到目标会收到 6 的回报，否则会收到 0.01。

在图 2 中，我们报告了超过 20 个智能体的平均成功率和回报，我们为每个智能体实施了 10 次 RSLUCB-QVI，并将我们的结果与 (Turchetta et al., 2020) 提出的 CISR 的结果进行了比较，其中教师提供了帮助智能体人通过干预来选择安全的行动。虽然 RSLUCB-QVI 和 CISR 这两种方法的性能相当，但要考虑的重要一点是，CISR 中的每个交互单元（情节）由 10000 个时间步长组成，而在 RSLUCB-QVI 中这个数字是 1000 个。值得注意的是，RSLUCB-QVI 的学习率比 CISR 快。同样值得注意的是，我们在使用优化干预时将 RSLUCB-QVI 与 CISR 进行了比较，与其他类型的干预相比，它给出了最好的结果。

6. 结论 Conclusion

在本文中，我们开发了 SLUCB-QVI 和 RSLUCB-QVI，这两种安全 RL 算法在有限水平线性 MDP 的设置中。对于这些算法，我们提供了次线性遗憾边界 $\widetilde{\mathcal{O}}\left( \kappa \sqrt{ { {d}^{3}}{ {H}^{3}}T} \right)$ ，其中 H 是每集的持续时间，d 是特征映射的维度，κ 是表征安全约束的常数， $T = K H$ 是动作戏的总数。我们证明了它们很有可能永远不会违反未知的安全约束。最后，我们分别在合成和 Frozen Lake 环境中实现了 SLUCB-QVI 和 RSLUCB-QVI，这证实了我们的算法具有与了解安全约束或利用现有技术的算法相当的性能帮助代理人避免不安全行为的教师建议。

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2