强化学习--基于值函数的强化学习算法

在基础篇里我们已经介绍了，当我们得到一个最优值函数的时候，直接在每个状态下取使 $q(s,a)$ 值最大的action就能得到一个最优的策略，于是一个求解最优策略的问题可以完完全全等效于一个寻找最优值函数的问题。
本节就来探究寻找最优值函数的方法，它的基本思想是不直接采取行动，而是评价一个行为的好坏进而改善策略

基于蒙特卡洛方法的理论

回忆状态-行为值函数：

\begin{matrix} (8) & q_{π} (s, a) = E_{π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + k + 1} | S_{t} = s, A_{t} = a] \end{matrix}

$\begin{equation} q_{\pi}(s,a) = E_{\pi}[\sum_{k=0}^{\infty}\gamma^k R_{t+k+1}|S_t = s,A_t = a] \end{equation}$
以及

\begin{matrix} (9) & v (s) = E [R_{t + 1} + γ v (S_{t + 1}) | S_{t} = s] \end{matrix}

$\begin{equation} v(s)=E[R_{t+1}+\gamma v(S_{t+1})|S_t = s] \end{equation}$
注意到两者都是数学期望，于是在无模型的时候我们可以利用蒙特卡洛这种非常自然的想法估计状态值函数和状态行为值函数。具体来说就是，我们固定住策略

π

$\pi$ ,我们利用这个固定的

π

$\pi$ 与环境交互，从而得到一系列的回报，拿这些回报的均值作为期望的估计。
注意到一个有趣的事实，当我们估计到一个“好”的

q

$q$ 函数时，我们可以利用这个Q function来改善当前的策略，具体来说，我们可以构造一个新的策略

π^{'} (s) = \arg max_{a} q (s, a)

$\pi'(s) = \arg \max \limits_a q(s,a)$ ,容易证明这个策略要比之前的策略效果好，由此我们可以得到不断改进策略的一般方法：
拿当前策略去与环境交互，交互得到的信息用来估计q值，在利用估计的q值去更新策略，以此循环，我们将得到一个不断改善的策略序列。

蒙特卡洛方法根据探索策略和评估策略是否为同一个策略可以分为on-policy和off-policy

on-policy

同策略是指与环境交互的策略和评估的策略是同一个策略。比如，要产生数据的策略和需要评价的策略都是 $\epsilon$ -贪心策略

off-policy

异策略是指与环境交互的策略和评估的策略不是同一个策略
在基于策略的强化学习算法里也会有同样的on&off policy 算法

下面再来看一下基于重要性采样的蒙特卡洛算法的理论：
假设某个随机变量X的概率分布为 $p(x)$
那么有：

\begin{matrix} (3233) & E [f] = \int f (z) p (z) d z \end{matrix}

$\begin{equation} E[f]=\int f(z)p(z)dz \end{equation}$
当随机变量的分布非常复杂时，我们无法利用函数变换产生一个来自该分布的样本，进而产生期望的估计，这时，我们可以选用一个概率分布比较简单，很容易产生样本的概率分布

q (z)

$q(z)$ ，这样原来的期望可以变为：

\begin{matrix} (3234) & E [f] = \int f (z) p (z) d z = \int f (z) \frac{p (z)}{q (z)} q (z) d z \approx \frac{1}{N} \sum_{n} \frac{p (z^{n})}{q (z^{n})} f (z^{n}), z^{n} \sim q (z) \end{matrix}

$\begin{equation} E[f] = \int f(z)p(z)dz \\ =\int f(z)\frac{p(z)}{q(z)}q(z)dz \\ \approx \frac{1}{N}\sum \limits_n \frac{p(z^n)}{q(z^n)}f(z^n) , z^n \sim q(z) \end{equation}$
我们定义权重

ω^{n} = p (z^{n}) / q (z^{n})

$\omega^n=p(z^n)/q(z^n)$
因此有

\begin{matrix} (3235) & E [f] = \frac{1}{N} \sum_{n} ω^{n} f (z^{n}) \end{matrix}

$\begin{equation} E[f]=\frac{1}{N}\sum \limits_n \omega^n f(z^n) \end{equation}$
基于重要性采样的积分估计为无偏估计，但是重要性采样的方差可以非常大。当原分布与采样分布越接近时，得到的方差越小。一种减小方差的方法是采用加权重要性采样。

\begin{matrix} (3236) & E [f] \approx \sum_{n = 1}^{N} \frac{ω^{n}}{\sum_{m = 1}^{N} ω^{m}} f (z^{n}) \end{matrix}

$\begin{equation} E[f] \approx \sum\limits_{n=1}^{N}\frac{\omega^n}{\sum\limits_{m=1}^N \omega^m}f(z^n) \end{equation}$
在异策略方法中，行为策略

μ

$\mu$ (用来与环境交互的策略)所产生的轨迹概率分布相当于重要性采样中的

q [z]

$q[z]$ ,用来评估和改进的策略

π

$\pi$ 所对应的轨迹概率分布为

p (z)

$p(z)$ ,因此利用行为策略

μ

$\mu$ 产生的累计函数来评价策略

π

$\pi$ 时，需要在累积函数返回值前面乘以重要性权重。
在目标函数

π

$\pi$ 下，一次实验的概率为

\begin{matrix} (3237) & P r (A_{t}, S_{t + 1}, . . ., S_{T}) = \prod_{k = t}^{T - 1} π (A_{k} | S_{k}) p (S_{k + 1} | S_{k}, A_{k}) \end{matrix}

$\begin{equation} Pr(A_t,S_{t+1},...,S_T)= \prod\limits_{k=t}^{T-1}\pi(A_k|S_k)p(S_{k+1}|S_k,A_k) \end{equation}$
在行动策略

μ

$\mu$ 下，相应的实验的概率为：

\begin{matrix} (3238) & P r (A_{t}, S_{t + 1}, . . ., S_{T}) = \prod_{k = t}^{T - 1} μ (A_{k} | S_{k}) p (S_{k + 1} | S_{k}, A_{k}) \end{matrix}

$\begin{equation} Pr(A_t,S_{t+1},...,S_T)= \prod\limits_{k=t}^{T-1}\mu(A_k|S_k)p(S_{k+1}|S_k,A_k) \end{equation}$
因此重要性采样的权重为：

\begin{matrix} (3239) & ρ_{t}^{T} = \prod_{k = t}^{T - 1} \frac{π (A_{k} | S_{k})}{μ (A_{k} | S_{k})} \end{matrix}

$\begin{equation} \rho^T_t =\prod\limits_{k=t}^{T-1}\frac{\pi(A_k|S_k)}{\mu(A_k|S_k)} \end{equation}$
不采取加权的重要性采样为

\begin{matrix} (3240) & V (s) = \frac{\sum_{t \in τ (s)} ρ_{t}^{τ (t)} G_{t}}{| τ (s) |} \end{matrix}

$\begin{equation} V(s)=\frac{\sum\limits_{t\in\tau(s)}\rho_t^{\tau(t)}G_t}{|\tau(s)|} \end{equation}$
加权的重要性采样值函数估计为

\begin{matrix} (3241) & V (s) = \frac{\sum_{t \in τ (s)} ρ_{t}^{τ (t)} G_{t}}{\sum_{t \in τ (s)} ρ_{t}^{τ (t)}} \end{matrix}

$\begin{equation} V(s) = \frac{\sum\limits_{t\in\tau(s)}\rho_t^{\tau(t)}G_t}{\sum\limits_{t\in\tau(s)}\rho_t^{\tau(t)}} \end{equation}$