强化学习——值函数与Bellman方程

在强化学习中，agent和环境之间进行一系列交互：在每个时刻 $t$ ，根据环境的状态和奖励，agent采取某一行为；这个行为会作用到环境中，环境改变状态并对agent进行奖励。

这里写图片描述

agent的目标是最大化累积奖励。

1 MDP

马尔可夫决策过程(Markov Decision Process, MDP)是对环境的建模。

MDP是一个五元组 $<{\cal S}, {\cal A}, {\cal P}, {\cal R}, \gamma>$ ，其中
- $\cal S$ 是一个有限状态集
- $\cal A$ 是一个有限动作集
- $\cal P$ 是一个状态转移概率矩阵， ${\cal P}_{ss'}^a = \mathbb P[S_{t+1}=s' | S_t = s, A_t = a]$
- $\cal R$ 是一个奖励函数， ${\cal R}_s^a = \mathbb E[R_{t+1} | S_t = s, A_t = a]$
- $\gamma$ 是一个折扣因子 $\gamma\in [0, 1]$ .

策略 $\pi$ 是agent的行为函数:

$π (a | s) = P [A t = a | S t = s]$ $\pi(a|s) = \mathbb P[A_t = a | S_t = s]$

注意，策略只和状态相关，和时间无关（静态的）。

2 值函数与Bellman期望方程

2.1 值函数

值函数是对未来奖励的一个预测。

回报(return)
回报 $G_t$ 是从时刻 $t$ 开始的总折扣奖励：

$G t = R t + 1 + γ R t + 2 + \dots = \sum k = 1 \infty γ k R t + k + 1$ $G_t = R_{t+1} + \gamma R_{t+2} + \cdots = \sum_{k=1}^{\infty} \gamma^k R_{t+k+1}$

状态值函数
状态值函数 $v_\pi(s)$ 是从状态 $s$ 出发，按照策略 $\pi$ 采取行为得到的期望回报：

$v π (s) = E π [G t | S t = s]$ $v_\pi(s) = \mathbb E_\pi[G_t | S_t = s]$

状态值函数可以用来评价状态的好坏。

根据定义可以得到：

v π (s) = E π [R t + 1 + γ G t + 1 | S t = s] = E π [R t + 1 + γ v π (S t + 1) | S t = s]

$\begin{align} v_\pi(s) &= \mathbb E_\pi[R_{t+1}+\gamma G_{t+1} |S_t = s] \nonumber \\\\ & = \mathbb E_\pi[R_{t+1}+\gamma v_\pi(S_{t+1}) | S_t = s] \nonumber \\\\ \end{align}$

行为值函数
行为值函数 $q_\pi(s, a)$ 是从状态 $s$ 出发，采取行为 $a$ 后，然后按照策略 $\pi$ 采取行为得到的期望回报：

$q π (s, a) = E π [G t | S t = s, A t = a]$ $q_\pi(s, a) = \mathbb E_\pi[G_t | S_t = s, A_t = a]$

根据定义可以得到：

q π (s, a) = E [R t + 1 + γ q π (S t + 1, A t + 1) | S t = s, A t = a]

$\begin{align} q_\pi(s, a) &= \mathbb E[R_{t+1} +\gamma q_\pi(S_{t+1}, A_{t+1}) | S_t = s, A_t = a] \nonumber \\\\ \end{align}$

2.2 Bellman期望方程

Bellman期望方程其实就是 $v_\pi(s)$ 和 $q_\pi(s, a)$ 自身以及相互之间的递推关系。

$v_\pi(s)$ 与 $q_\pi(s, a)$ 之间的关系

v π (s) = \sum a \in A π (a | s) q π (s, a) (1)

$v_\pi(s) = \sum_{a\in {\cal A}} \pi(a|s)q_{\pi}(s, a) \tag{1}$

这里写图片描述

q π (s, a) = R a s + γ \sum s' \in S P a s s' v π (s') (2)

$q_\pi(s,a) = {\cal R}_s^a + \gamma \sum_{s' \in {\cal S}} {\cal P}_{ss'}^a v_\pi(s') \tag{2}$

这里写图片描述

$v_\pi(s)$ 自身的递推关系

把公式(2)代入(1)中得到：

v π (s) = \sum a π (a | s) ⎡ ⎣ R a s + γ \sum s' P a s s' v π (s') ⎤ ⎦ (3)

$\begin{align} v_\pi(s) & = \sum_{a} \pi(a|s) \left[ {\cal R}_s^a + \gamma \sum_{s'} {\cal P}_{ss'}^a v_\pi(s') \right] \nonumber \end{align} \tag{3}$

这里写图片描述

$q_\pi(s, a)$ 自身的递推关系

把公式(1)代入(2)中得到：

q π (s, a) = R a s + γ \sum s' P a s s' \sum a' π (a' | s') q π (s', a') (4)

$\begin{align} q_\pi(s, a) & = {\cal R}_s^a + \gamma \sum_{s'}{\cal P}_{ss'}^a \sum_{a'}\pi(a'|s')q_\pi(s', a') \nonumber \end{align} \tag{4}$

这里写图片描述

3 最优值函数与Bellman最优方程

3.1 最优值函数

最优状态值函数
最优值函数 $v_*(s)$ 是在所有策略上的最大值函数：

$v * (s) = max π v π (s)$ $v_*(s) = \max_{\pi} v_\pi(s)$

最优行为值函数
最优行为值函数 $q_*(s, a)$ 是在所有策略上的最大行为值函数：

$q * (s, a) = max π q π (s, a)$ $q_*(s, a) = \max_{\pi} q_\pi(s, a)$

当最优值函数已知时，可以认为MDP已被解决。

3.2 Bellman最优方程

Bellman最优方程其实就是 $v_*(s)$ 和 $q_*(s, a)$ 自身以及相互之间的递推关系。

$v_(s)$ 与 $q_(s, a)$ 之间的关系

v * (s) = max π v π (s) = max π \sum a \in A π (a | s) q π (s, a) = max a q * (s, a) (5.1) (5.2) (5.3)

$\begin{align} v_*(s)&=\max_{\pi} v_\pi(s) \tag{5.1} \\\\ & = \max_{\pi} \sum_{a\in {\cal A}} \pi(a|s)q_{\pi}(s, a) \tag{5.2} \\\\ & = \max_a q_*(s, a) \tag{5.3} \end{align}$

这里写图片描述

问题：(5.3)为什么成立？

$\sum a \in A π (a | s) q π (s, a) \leq max a q π (s, a) max π \sum a \in A π (a | s) q π (s, a) \leq max π max a q π (s, a) max π \sum a \in A π (a | s) q π (s, a) \leq max a q * (s, a)$ $\begin{align} \sum_{a\in {\cal A}} \pi(a|s)q_{\pi}(s, a) \leq \max_a q_\pi(s, a) \\\\ \max_{\pi} \sum_{a\in {\cal A}} \pi(a|s)q_{\pi}(s, a) \leq \max_{\pi} \max_a q_\pi(s, a) \\\\ \max_{\pi} \sum_{a\in {\cal A}} \pi(a|s)q_{\pi}(s, a) \leq \max_a q_*(s, a) \\\\ \end{align}$
只能证明出 $\leq$ ，怎么证明 $=$ 呢？

q * (s, a) = max π q π (s, a) = max π R a s + γ \sum s' \in S P a s s' v π (s') = R a s + γ \sum s' \in S P a s s' v * (s') (6.1) (6.2) (6.3)

$\begin{align} q_*(s, a) & = \max_{\pi} q_\pi(s, a) \tag{6.1} \\\\ & = \max_{\pi} {\cal R}_s^a + \gamma \sum_{s' \in {\cal S}} {\cal P}_{ss'}^a v_\pi(s') \tag{6.2} \\\\ & = {\cal R}_s^a + \gamma \sum_{s'\in {\cal S}} {\cal P}_{ss'}^a v_*(s')\tag{6.3} \end{align}$

这里写图片描述

同样，怎么证明公式(6.3)呢？

$v_*(s)$ 自身的递推关系

把公式(6)代入(5)中得到：

v * (s) = max a R a s + γ \sum s' \in S P a s s' v * (s') (7)

$v_*(s) = \max_a {\cal R}_s^a + \gamma \sum_{s'\in {\cal S}} {\cal P}_{ss'}^a v_*(s') \tag{7}$

这里写图片描述

$q_*(s, a)$ 自身的递推关系

把公式(5)代入公式(6)得到：

q * (s, a) = R a s + γ \sum s' \in S P a s s' max a q * (s', a') (8)

$q_*(s, a) = {\cal R}_s^a + \gamma \sum_{s'\in {\cal S}} {\cal P}_{ss'}^a \max_a q_*(s', a') \tag{8}$
这里写图片描述

4 最优策略

定义策略之间的偏序关系

$π \geq π' i f v π (s) \geq v π' (s), \forall s$ $\pi \geq \pi' \space if \space v_\pi(s) \geq v_{\pi'}(s), \space \forall s$

那么有如下定理成立：

对任意MDP：

存在最优策略 $\pi_*$ ，满足 $\pi_* \geq \pi, \forall \pi$

所有最优策略的状态值函数都等于最优状态值函数 $v_{\pi_*}(s) = v_*(s)$

所有的最优策略的行为值函数都等于最优行为值函数 $q_{\pi_*}(s, a) = q_*(s, a)$

思考这样一个问题：如果某个状态 $s_1$ 是在策略 $\pi_1$ 上取到最优状态值，而 $s_2$ 是在另一个策略 $\pi_2$ 上取得最优状态值，那么最优策略是什么呢？

这种情况下是不存在最优策略的。
但是对于有限MDP，并且值函数有界时，上述情况并不存在，即至少有一个最优策略。