文章目录

前言
MDP上Bellman方程的收敛性
求解

前言

贝尔曼方程和算子算是RL的基础了，偶然间看到有人总结这个slides的内容，但其实不易懂，排版也看不习惯，我觉得还是要自己整理一下。

主要针对有模型场景，相关资料在末尾有引用。

MDP上Bellman方程的收敛性

Value Functions as Vectors

首先将值函数表示为向量。

状态空间 $S$ 有 $n$ 个状态： $\{s_1,\cdots,s_n\}$ ；动作空间 $A$ 有 $m$ 个动作： $\{a_1,\cdots,a_m\}$ 。这个阐述也能很容易扩展到连续状态/动作空间。

定义随机策略 $\pi(a|s)$ ，确定性策略为 $\pi(s)=a$ 。

考虑一个 $n$ 维空间 $\mathbb{R}^n$ ，每一维对应 $S$ 中的一个状态。将值函数（VF） $\textbf{v}:S\rightarrow\mathbb{R}$ 当做这个空间的一个向量，坐标为： $[\textbf{v}(s_1),\cdots,\textbf{v}(s_n)]$ 。

策略 $\pi$ 的值函数记做 $\textbf{v}_{\pi}:S\rightarrow\mathbb{R}$ ，最优值函数记做 $\textbf{v}_{*}:S\rightarrow\mathbb{R}$ ，满足：
$\textbf{v}_{*}(s)=\max_{\pi}\textbf{v}_{\pi}(s)$

$\mathcal{R}_s^a$ 记做状态 $s$ 执行动作 $a$ 的期望奖赏， $\mathcal{P}_{s,s'}^a$ 记做状态 $s$ 执行动作 $a$ 转移到 $s^{'}$ 的概率。这两个与环境有关。

定义策略 $\pi$ 下状态的期望奖赏 $\bf{R}_{\pi}(s)=\sum_{a\in A}\pi(a|s)\mathcal{R}_s^a$ ， $\bf{R}_{\pi}$ 是向量 $[\bf{R}_{\pi}(s_1),\cdots,\bf{R}_{\pi}(s_n)]$ 。

扫描二维码关注公众号，回复： 13466678 查看本文章

定义策略 $\pi$ 下转移概率 $\bf{P}_{\pi}(s,s')=\sum_{a\in A}\pi(a|s)\mathcal{P}_{s,s'}^a$ ， $\bf{P}_{\pi}$ 是矩阵 $[\bf{P}_{\pi}(s_i,s_j)]$ ， $1\leq i,j\leq n$ 。

上面这两个与策略有关。

$\gamma$ 是MDP的折扣因子。

贝尔曼算子 $\bf{B}_{\pi},\bf{B}_{*}$

定义将一个VF向量转换为另一个VF向量的算子。

贝尔曼期望算子 $\bf{B}_{\pi}$ ： $\bf{B}_{\pi}\bf{v}=\bf{R}_{\pi}+\gamma\bf{P}_{\pi}\bf{v}$ 是一个线性算子，拥有不动点 $\bf{v}_{\pi}$ 满足 $\bf{B}_{\pi}\bf{v}_{\pi}=\bf{v}_{\pi}$ 。

贝尔曼最优算子 $(\bf{B}_*\bf{v})(s)=\max_{a}(\mathcal{R}_s^a+\gamma\sum_{s'\in S}\mathcal{P}_{s,s'}^a\bf{v}(s'))$ 是一个非线性算子，拥有不动点 $\bf{v}_{*}$ 满足 $\bf{B}_{*}\bf{v}_{*}=\bf{v}_{*}$ 。

定义一个函数 $G$ 将 $\bf{v}$ 映射为确定性贪心策略 $G(\bf{v})$ 形式为：
$G(\bf{v})(s)=\argmax_a\{\mathcal{R}_s^a+\gamma\sum_{s'\in S}\mathcal{P}_{s,s'}^a{\bf{v}}(s')\}$
对于任意 $\bf{v}$ ， $\bf{B}_{G(\bf{v})}\bf{v}=\bf{B}_*\bf{v}$

Contraction and Monotonicity of Operators

首先对于有限奖赏的有限MDP，所有值函数都是实数域上的，值函数之间通过 $L_{\infty}$ 度量，对于任意两个值函数度量： $\|{\bf{v}}_1-{\bf{v}}_2\|_{\infty}=\underset{s\in S}{\max}\ |{\bf{v}}_1(s)-{\bf{v}}_2(s)|$ ，即使用两个值函数相差最大的状态的值作为两个值函数的度量。

这里已知度量空间 $L_{\infty})$ 是完备的，具体证明可参考：https://towardsdatascience.com/mathematical-analysis-of-reinforcement-learning-bellman-equation-ac9f0954e19f。

$\bf{B}_{\pi},\bf{B}_*$ 都是 $L_{\infty})$ 上的收缩映射，即：
对于任意两个 $\bf{v}_1,\bf{v}_2$ ，满足：
$\|\bf{B}_{\pi}\bf{v}_1-\bf{B}_{\pi}\bf{v}_2\|_{\infty}\leq\gamma \|\bf{v}_1-\bf{v}_2\|_{\infty}$

$\|\bf{B}_*\bf{v}_1-\bf{B}_*\bf{v}_2\|_{\infty}\leq\gamma \|\bf{v}_1-\bf{v}_2\|_{\infty}$
首先证明 $\bf{B}_{\pi}$ ：
$\begin{aligned} \|\bf{B}_{\pi}\bf{v}_1-\bf{B}_{\pi}\bf{v}_2\|_{\infty} & =\|\bf{R}_{\pi}+\gamma\bf{P}_{\pi}\bf{v}_1-(\bf{R}_{\pi}+\gamma\bf{P}_{\pi}\bf{v}_2)\|_{\infty} \\ & = \|\gamma\bf{P}_{\pi}\bf{v}_1-\gamma\bf{P}_{\pi}\bf{v}_2\|_{\infty} \\ & =\gamma\|\bf{P}_{\pi}(\bf{v}_1-\bf{v}_2)\|_{\infty} \\ & =\gamma\underset{i}{\max}\ {\bf{P}}_{\pi}|{\bf{v}}_1-{\bf{v}}_2|_{i} \end{aligned}$
$\bf{P}_{\pi}$ 作为策略 $\pi$ 下每个状态之间的转移概率矩阵，每一位都不大于1，因此可得：
$\begin{aligned} \gamma\underset{i}{\max}\ {\bf{P}}_{\pi}({\bf{v}}_1-{\bf{v}}_2)_{i} & \leq\gamma\underset{i}{\max}\ ({\bf{v}}_1-{\bf{v}}_2)_{i}\\ & =\gamma\|\bf{v}_1-\bf{v}_2\|_{\infty} \end{aligned}$
所以 $\|\bf{B}_{\pi}\bf{v}_1-\bf{B}_{\pi}\bf{v}_2\|_{\infty}\leq\gamma \|\bf{v}_1-\bf{v}_2\|_{\infty}$ 。

然后证明 $\bf{B}_*$ ，首先将 $\bf{B}_*\bf{v}$ 关于 $s$ 展开：
$\begin{aligned} \bf{B}_*\bf{v}=\{ &\max_{a}(\mathcal{R}_{s_1}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\bf{v}(s')),\\ &\max_{a}(\mathcal{R}_{s_2}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_2,s'}^a\bf{v}(s')),\\ &\cdots,\\ & \max_{a}(\mathcal{R}_{s_n}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_n,s'}^a\bf{v}(s'))\} \end{aligned}$
然后可得：
$\begin{aligned} \bf{B}_*\bf{v}_1-\bf{B}_*\bf{v}_2=\{ &\max_{a}(\mathcal{R}_{s_1}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\bf{v}_1(s'))-\max_{a}(\mathcal{R}_{s_1}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\bf{v}_2(s')),\\ &\max_{a}(\mathcal{R}_{s_2}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_2,s'}^a\bf{v}_1(s'))-\max_{a}(\mathcal{R}_{s_2}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_2,s'}^a\bf{v}_2(s')),\\ &\cdots,\\ & \max_{a}(\mathcal{R}_{s_n}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_n,s'}^a\bf{v}_1(s'))-\max_{a}(\mathcal{R}_{s_n}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_n,s'}^a\bf{v}_2(s'))\} \end{aligned}$
这里虽然没有区分动作符号，但 $\bf{B}_*\bf{v}_1(s)$ 与 $\bf{B}_*\bf{v}_2(s)$ 的最优动作不一定一样。对于其中的每一个元素，我们可得：
$\begin{aligned} \|\bf{B}_*\bf{v}_1(s_1)-\bf{B}_*\bf{v}_2(s_1)\|_{\infty}&=\|\max_{a}(\mathcal{R}_{s_1}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\bf{v}_1(s'))-\max_{a}(\mathcal{R}_{s_1}^a+\gamma\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\bf{v}_2(s'))\|_{\infty}\\ &\leq \|\max_a(\gamma\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\bf{v}_1(s')-\gamma\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\bf{v}_2(s'))\|_{\infty}\\ &=\gamma\max_{a,s'}\ \sum_{s'\in S}\mathcal{P}_{s_1,s'}^a(\bf{v}_1(s')-\bf{v}_2(s'))\\ &=\gamma\|{\bf{v}}_1(s')-{\bf{v}}_2(s')\|_{\infty}\max_{a,s'}\ \sum_{s'\in S}\mathcal{P}_{s_1,s'}^a\\ &=\gamma\|{\bf{v}}_1(s')-{\bf{v}}_2(s')\|_{\infty}\\ \end{aligned}$
其中 $\sum_{s'\in S}\mathcal{P}_{s_1,s'}^a=1$ ，所以上式成立。 $s^{'}$ 其实同 $s_1$ 都是状态空间 $S$ 中的一个元素，元素之间存在这样的偏序关系，所以证得 $\|\bf{B}_*\bf{v}_1-\bf{B}_*\bf{v}_2\|_{\infty}\leq\gamma \|\bf{v}_1-\bf{v}_2\|_{\infty}$ 。

在 $\gamma\in(0,1)$ 时， $\bf{B}_{\pi},\bf{B}_*$ 都是 $L_{\infty})$ 上的收缩映射。

因此，根据Banach不动点定理（非正式地，该定理说，对于完备的度量空间，将压缩映射一遍又一遍地应用到集合的元素上，最终将使我们获得不动点），可以用迭代的方法求Bellman期望算子和Bellman最优算子的不动点，迭代正比于 $\gamma^k$ 的速度收敛（其中 $k$ 是迭代次数）。由于Bellman期望算子的不动点就是策略价值，Bellman最优算子的不动点就是最优价值，所以这就意味着我们可以用迭代的方法求得策略的价值或最优价值。

同时可以得出结论：每个MDP都有一个唯一的最优值函数 $\bf{v}^*$ 。使用该 $\bf{v}^*$ ，我们可以得出最佳策略 $\pi^*$ 。因此证明，对于任何有限的MDP，都存在一个最佳策略 $\pi^*$ ，使其优于或等于其他所有可能的策略 $\pi$ 。

求解

DP方式求解的主要就两种方法，策略迭代和值迭代，下面分别介绍这两种。

Policy Iteration

在这里插入图片描述

策略迭代从一个任意的确定性策略开始，交替进行策略评估和策略改进。这里的策略改进是严格的策略改进，即改进后的策略和改进前的策略是不同的。

对于状态空间和动作空间均有限的Markov决策过程，其可能的确定性策略数是有限的。由于确定性策略总数是有限的，所以在迭代过程中得到的策略序列一定能收敛，并且收敛的结果就是最优策略，这个在策略改进中会有说明。

Policy Evaluation

在这里插入图片描述
整体就是从任意值函数 ${\bf{v}}$ 开始，重复应用 $\bf{B}_{\pi}$ ，就会得到唯一不动点 ${\bf{v}}_{\pi}$ ：
$\lim_{N\to \infty}{\bf{B}}_{\pi}^N{\bf{v}}={\bf{v}}_{\pi}, \text{for any VF }{\bf{v}}$
也就是对于任意策略，我们总会得到其对应的值函数，这就是策略评估。

这里由于使用确定性策略，也就是贪心策略，所以值函数 ${\bf{v}}(s)$ 就是对应动作的 $q (s, a)$ ，但因为可能存在策略改进，所以不一定是 $max_a q(s,a)$ 。

迭代策略评估算法具有以下两大意义：一方面，这个策略评估算法将作为策略迭代算法的一部分，用于最优策略的求解；另一方面，在这个策略评估算法的基础上进行修改，可以得到迭代求解最优策略的算法。

Policy Improvement

在这里插入图片描述
这个过程类似策略评估，同样是先计算每个动作的值，然后得到贪心策略，如果新的策略与旧的策略不一致，就更新。

正如之前所说， $G({\bf{v}})$ 代表贪心策略， ${\bf{B}}_{G({\bf{v}})}{\bf{v}}={\bf{B}}_*{\bf{v}}$ ，每次策略改进其实就是应用 ${\bf{B}}_*$ ，也就是说对于迭代数 $k$ ：
${\bf{B}}_*{\bf{v}}_{\pi_k}={\bf{B}}_{G({\bf{v}}_{\pi_k})}{\bf{v}}_{\pi_k}={\bf{B}}_{\pi_{k+1}}{\bf{v}}_{\pi_k}$
由算子定义可知，对于任意策略 $\pi$ ，都有 ${\bf{B}}_*{\bf{v}}\ge{\bf{B}}_{\pi}{\bf{v}}$ ，并且因为策略评估收敛了，有 ${\bf{B}}_{\pi_{k}}{\bf{v}}_{\pi_{k}}={\bf{v}}_{\pi_{k}}$ ，所以：
${\bf{B}}_*{\bf{v}}_{\pi_k}={\bf{B}}_{\pi_{k+1}}{\bf{v}}_{\pi_k}\geq {\bf{B}}_{\pi_{k}}{\bf{v}}_{\pi_{k}}={\bf{v}}_{\pi_{k}}$
因此每次策略改进都是单调递增的。

之后又会进行策略评估，因此策略评估是重复应用 ${\bf{B}}_{\pi_{k+1}}$ ，由上可知，重复应用产生的是单调递增序列，所以改进后策略对应的值函数为：
${\bf{v}}_{\pi_{k+1}}=\lim_{N\to \infty}{\bf{B}}_{\pi_{k+!}}^N{\bf{v}}_{\pi_k}\geq{\bf{v}}_{\pi_k}$
也就是说，策略迭代过程中产生的值函数序列是单调递增的，同时 ${\bf{B}}_*$ 只有一个不动点，所以策略迭代会收敛到最优值函数 ${\bf{v}}_*$ 。

Value Iteration

在这里插入图片描述
值迭代是一种利用迭代求解最优价值函数进而求解最优策略的方法。策略迭代中，策略评价利用Bellman期望方程迭代求解给定策略的值函数。与之相对，值迭代利用Bellman最优方程迭代求解最优策略的值函数，并进而求得最优策略。

值迭代相当于去掉策略评估，也就是不使用 ${\bf{B}}_{\pi}$ ，只使用 ${\bf{B}}_{*}$ 。已知 ${\bf{B}}_{*}{\bf{v}}$ 是单调递增的运算，之前也证明过其能收敛至唯一不动点，即：
$\lim_{N\to \infty}{\bf{B}}_{*}^N{\bf{v}}={\bf{v}}_{*}, \text{for any VF }{\bf{v}}$
所以值迭代可以收敛收敛到最优值函数 ${\bf{v}}_*$ 。

Greedy Policy from Optimal VF is an Optimal Policy

可以通过证明两个策略对应的值函数等价证明两个策略等价。

上面已经说过 ${\bf{B}}_{G({\bf{v}})}{\bf{v}}={\bf{B}}_*{\bf{v}}$ ，所以对于 ${\bf{B}}_*$ 的不动点 ${\bf{v_*}}$ 有：
${\bf{B}}_{G({\bf{v_*}})}{\bf{v_*}}={\bf{B}}_*{\bf{v_*}}={\bf{v_*}}$
不过 ${\bf{B}}_{G({\bf{v}})}$ 同样有其不动点 ${\bf{v}}_{G({\bf{v}})}$ ，所以有：
${\bf{v}}_{G({\bf{v_*}})}={\bf{v}}_{*}$
也就是说简单地遵循贪心的确定性策略 $G({\bf{v}}_*)$ 实际上就实现了最优值函数 ${\bf{v}}_*$ 。

换句话说， $G({\bf{v}}_*)$ 是最优确定性策略。

https://towardsdatascience.com/mathematical-analysis-of-reinforcement-learning-bellman-equation-ac9f0954e19f
https://developer.aliyun.com/article/726187
http://blog.franktian.xyz/2020/12/10/%E7%94%A8Bellman%E7%AE%97%E5%AD%90%E7%90%86%E8%A7%A3%E5%8A%A8%E6%80%81%E8%A7%84%E5%88%92/

通过Bellman算子理解动态规划

文章目录

前言

MDP上Bellman方程的收敛性

Value Functions as Vectors

贝尔曼算子 $\bf{B}_{\pi},\bf{B}_{*}$

Contraction and Monotonicity of Operators

求解

Policy Iteration

Policy Evaluation

Policy Improvement

Value Iteration

Greedy Policy from Optimal VF is an Optimal Policy

猜你喜欢

通过Bellman算子理解动态规划

文章目录

前言

MDP上Bellman方程的收敛性

Value Functions as Vectors

贝尔曼算子 B π , B ∗ \bf{B}_{\pi},\bf{B}_{*} Bπ​,B∗​

Contraction and Monotonicity of Operators

求解

Policy Iteration

Policy Evaluation

Policy Improvement

Value Iteration

Greedy Policy from Optimal VF is an Optimal Policy

猜你喜欢

贝尔曼算子 $\bf{B}_{\pi},\bf{B}_{*}$