强化学习算法——TRPO

TRPO(Trust Region Policy Optimization), 置信域策略优化，是Policy Search Methods中的一类随机策略搜索算法，它正面解决了梯度更新步长选择的问题，给出了一种单调的策略改善方法。

回顾策略梯度的方法，在策略梯度中我们的更新满足如下关系：
$\theta_{new} = \theta_{old} + \alpha \triangledown_{\theta}J$

策略梯度的难点之一在于步长 $\alpha$ 的选择，当补偿选择不合适时更新的参数会变差，因此更容易导致越来越差，最后崩溃。
那么什么样的步长是合适的呢？
试想一下如果我们能找到一种步长，使每次更新时都能保证回报函数单调递增，这样的步长就是好步长，TRPO的核心就是解决这些问题。

我们用 $\tau$ 来表示一条轨迹（行为-状态序列），那么这种策略下的期望回报为：
$\eta(\widetilde{\pi}) = E_{\tau |\widetilde{\pi}}[\sum_{t=0}^{\infty}\gamma^{t}r(s_{t})]$

既然TRPO的目的是为了使每次更新的回报函数单调递增，那么一个很自然的想法就是将新策略对应的回报函数分解成原来策略的回报加上一个大于零的项，我们就得到了一个一直提升策略的方案。
所以我们得到如下等式：
$\eta (\widetilde{\pi}) = \eta(\pi) + E_{\tau \in \widetilde{\pi}}\sum_{t=0}^{\infty}[\gamma^{t}A_{\pi}(s_t, a_t)]$
其中
$A_{\pi}(s, a) = Q_{\pi}(s, a) - V_{\pi}(s) = E_{s' \sim P(s'|s, a)}[r(s) + \gamma V^{\pi}(s') - V^{\pi}(s)]$
证明：
$E_{\tau \in \widetilde{\pi}}[\sum_{t=0}^{\infty}\gamma^{t}A_{\pi}(s_t, a_t)]= E_{\tau \in \widetilde{\pi}}[\sum _{t=0}^{\infty}\gamma^{t}(r(s_t)+\gamma V_{\pi}(s_{t+1})-V_{\pi}(s_t))]$ $=E_{\tau \in \widetilde{\pi}}[\sum _{t=0}^{\infty}\gamma^{t}r(s_t)+\sum _{t=0}^{\infty}\gamma ^{t}(\gamma V_{\pi}(s_{t+1})-V_{\pi}(s_t))]$ $=E_{\tau \in \widetilde{\pi}}[\sum _{t=0}^{\infty}\gamma^{t}r(s_t)]+E_{s_{0}}[-V_{\pi}(s_{0})]$ 两种策略from the same initial state $=\eta(\widetilde{\pi}) - \eta(\pi)$

称 $A_{\pi}(s, a)$ 为advantage function, 状态值函数 $V_{\pi}(s)$ 是该状态下所有动作关于动作概率的期望，状态-动作值函数 $Q_{\pi}$ 是单个动作对应的值函数。因此advantage function指的是该动作比平均动作的优势。

我们将公式展开可以得到：
$\eta(\widetilde{\pi}) = \eta(\pi) + \sum_{t=0}^{\infty}\sum_{s}P(s_{t}=s|\widetilde{\pi})\sum_{a}\widetilde{\pi}(a|s)\gamma^{t}A^{\pi}(s, a)$
进一步变形得到：
$\eta(\widetilde{\pi}) = \eta(\pi) + \sum_{s}\rho_{\widetilde{\pi}}(s)\sum_{a}\widetilde{\pi}(a|s)\gamma^{t}A^{\pi}(s, a)$
式中 $\rho_{\widetilde{\pi}}(s) = P(s_{0}) + \gamma P(s_{1} = s) + \gamma^{2}P(s_{2} = s) + ...$

注意这里 $s$ 是由新分布产生的，对新分布有很强的依赖性。这个公式其实在应用中完全无法达到，因为我们是为了得到新的策略，所以这里的其他项完全无从得知，为此，TRPO采取了一些技巧来解决这个问题。

下面我们来介绍TRPO论文中的四个技巧：

在原式中计算 $\rho_{\widetilde{\pi}}(s)$ 时，我们需要新的策略，而新策略目前还未知，因此，我们可以利用旧策略来代替新策略，因为两者相差并不是很大。
利用重要性采用处理动作分布
$\sum_{a}$

Reference:
https://blog.csdn.net/weixin_41679411/article/details/82421121
https://blog.csdn.net/philthinker/article/details/79551892
https://blog.csdn.net/philthinker/article/details/76038513
https://zhuanlan.zhihu.com/p/26174099
https://www.cnblogs.com/vpegasus/p/plan_learn.html

强化学习算法——TRPO

猜你喜欢