强化学习：策略梯度法

策略梯度法的思路

之前我们是用表格的形式来表达策略，现在我们同样可以用函数来表达策略。之前学的所有的方法都是被称为 value-based，接来下学的叫 policy-based 。接下来我们来看一下策略梯度法的思路。之前学的的策略全都是用表格来表示的，如下：
在这里插入图片描述
现在，我们把表格改成函数，那么 $π$ 的写法也会发生改变，如下：

其中， $θ$ 是一个向量可以用来表示 $π$ 这个函数里边的参数。

用表格与函数表示不同之处还在于获取一个 action 的概率。表格形式直接通过索引查表，而用函数会稍微麻烦一点，不能直接去索引了，需要计算对应的 $π(a|s,\theta)$

用表格与函数表示不同之处还在于更新策略的方式。表格中直接通过修改表格中的值就可以了。当用参数化函数表示时，策略 $π$ 只能通过修改参数 $\theta$ 去更新策略。

.
策略梯度法的思路：
用函数表示时，我们会建立某些标量的目标函数 $J(\theta)$ ，通过优化目标函数使得策略 $π$ 达到最优，如下：
在这里插入图片描述

标量的目标函数的选取

上面我们知道要建立一个标量的目标函数，那么这个标量的目标函数是什么呢？通常，我们常用两大类标量的目标函数。

第一个是状态值平均值，或者简单地称为平均值，其实就是 state value 的一个加权平均，如下：
在这里插入图片描述
$\bar v$ 是 state value 的加权平均
$d (s)$ 代表了状态 $s$ 被选中的概率

以上的形式我们还可以写成一种更简洁形式，就是两个向量的内积：
在这里插入图片描述
.

那么，我们怎么去选择 $d (s)$ 呢？我们分两种情况，一是 $d$ 和 $π$ 没有关系；而是 $d$ 和 $π$ 有关系。

当 $d$ 和 $π$ 没有关系时，我们分别用 $d_0$ 和 $\bar π_0$ 表示，同样的我们可以采取均匀分布 $d_0(s)=1/|S|=1/n$ ，如果某一状态比较重要，那么我们可以将其权重提高。

当 $d$ 和 $π$ 有关系时，常用的方法选择平稳分布，如下：
在这里插入图片描述
.
第二个是即时奖励平均值 ，就是即时奖励的一个加权平均，如下：

上面是 reward 的第一种形式，我们经常会看到 reward 的另外一种形式，如下：
在这里插入图片描述
其中，我们假设遵循给定的策略并生成一个轨迹，得到一系列的奖励 $R_{t+1},R_{t+2},……)$ ；在跑了无穷多步之后, $s_0$ 已经不重要了，所以最后把 $s_0$ 去掉了
.

上面我们介绍了两种标量的目标函数的选取方式，接下来我们对这两个标量做进行进一步的总结:
1、他们都是策略 $π$ 的函数
2、策略 $π$ 是一个函数的形式，它的参数是 $\theta$ ，不同的 $\theta$ 会得到不同的值
3、可以通过找到最优的 $\theta$ 去最大化标量的值
4、 $\bar r_π$ 与 $\bar v_π$ 是等价的，对其中一个做优化的时候另外也进行了优化。在折扣系数 $γ < 1$ 是，有 $\bar r_π=(1-γ)\bar v_π$

策略梯度求解

得到一个策略标量后，计算出其梯度。然后，应用基于梯度的方法进行优化，其中，梯度计算是最复杂部分之一。那是因为，首先，我们需要区分不同的 $\bar v_π$ ， $\bar r_π$ ， $\bar v_π^0$ ；其次，我们需要区分折扣和未折扣。梯度的计算，这里我们就做比较简要的介绍。

在这里插入图片描述
$J(\theta)$ 可以是 $\bar v_π$ ， $\bar r_π$ ， $\bar v_π^0$ ；
$η$ 是分布概率或权重
"=” 可以表示严格相等、近似或与成正比

$\bar v_π$ ， $\bar r_π$ ， $\bar v_π^0$ 相应的梯度公式如下：
在这里插入图片描述
.
梯度公式分析：
上面的式子我们可以写成如下形式：

$S 服从 η 分布$ ； $A服从π(A|S,\theta)分布$

为什么我们需要这样一个式子呢?这是因为真实的梯度含有期望 $E$ ，而期望 $E$ 是不知道的，所以我们可以通过采样来近似来做优化，如下：
在这里插入图片描述

补充说明：
因为要计算 $lnπ(a|s,\theta)$ ，所以要求 $π(a|s,\theta)>0$ ，怎么确保所有的 $π$ 对所有的 $a$ 全都是大于0呢？使用 softmax function 进行归一化，如下：
在这里插入图片描述

那么， $π$ 的表达形式如下：
在这里插入图片描述
$h(s,a,\theta)$ 是另一个函数，通常由神经网络得到。

梯度上升和REINFORCE

梯度上升算法的基本思路是，真实的梯度有期望 $E$ ，所以用随机的梯度来代替真实梯度，但还有一个 $q_π(s,a)$ 即策略 $π$ 所对应的真实的 action value 是不知道的，同样的我们用一个方法来近似或者对 $q_π$ 进行采样，方法是与MC结合——reinforce ，如下：

在这里插入图片描述
.
我们是用随机的梯度来代替真实梯度，那么我们怎么对随机变量 $(S, A)$ 采样呢？首先对 $S$ 采样，因为 $S 服从 η 分布$ 它要求大量的数据，在现实中等难以达到平稳的状态，所以在实际当中一般是不太考虑的。那怎么对 $A$ 采样呢？因为 $A服从π(A|S,\theta)分布$ ，因此，在 $s_t$ 应该根据策略 $π(\theta)$ 对 $a_t$ 进行取样。所有这里的策略梯度属于 on-policy 算法。
在这里插入图片描述

算法理解
在这里插入图片描述
要求 $\alpha\beta_t$ 较小，可以发现 $\beta_t$ 能够平衡算法发探索和数据利用。因为 $\beta_t$ 与 $q_t(s_t,a_t)$ 成正比，因此，当 $q_t(s_t,a_t)$ 较大时 $\beta_t$ 也会比较大，意味着 $π_t(s_t,a_t)$ 有较大的概率被选择。 $\beta_t$ 与 $π(a_t|s_t,\theta_t)$ 成反比，因此，当 $\beta_t$ 较大时 $π(a_t|s_t,\theta_t)$ 会比较小，意味着如果之前我选择 $π_t(s_t,a_t)$ 的概率是比较小的，下一时刻给它更大的概率去选择它。

当 $\beta_t>0$ 时，这是 $π(a_t|s_t,θ)$ 梯度上升算法，有：
在这里插入图片描述
当 $\beta_t<0$ 时，这是 $π(a_t|s_t,θ)$ 梯度下降算法，有：

.

reinforce 算法

用 $q_t(s_t,a_t)$ 去近似代替 $q_π(s_t,a_t)$ ， $q_t(s_t,a_t)$ 是用蒙特卡洛的方法求得，即就是从 $s_t,a_t)$ 出发得到一个 episode ,然后把这个episode 的 return 赋给 $q_t$ ，这种就是 reinforce 算法。
在这里插入图片描述
.
reinforce 算法，其伪代码如下：

在进行第 $k$ 次迭代时，先选定一个初始的 $s t a t e$ 根据当前的策略 $π(\theta _k)$ 和环境进行交互就得到一个 episode ，针对这个episode 当中的每一个元素我们要过一遍。然后对每一个元素进行操作，分为两步。第一步是做 value update，就是用蒙特卡洛的方法去估计 $q_t$ ，从 $s_t,a_t)$ 出发把后边所得到的所有的 reward 相加。接下来就是 policy update ，将得到的 $q_t$ 代到公式里去更新 $θ_t$ ，最后把最后所得到的 $θ_T$ 作为一个新的 $θ_k$ 进行迭代更新。