论文题目 :Algorithmic framework for model-based deep reinforcement learning with theoretical guarantees
所解决的问题?
提出了一种具有理论性保证的基于模型的强化学习算法框架。设计了一个元算法,该算法在理论上保证了将单调性改进到期望报酬的局部最大值。将这个框架用于MBRL得到 Stochastic Lower Bounds Optimization (SLBO)算法。(同样是假定奖励函数已知)。
背景
model-free的强化学习算法取得了巨大成功,但是其采样成本昂贵。model-based方法通过在learned mode上规划学习,在采样效率上取得了巨大成功。
Our meta-algorithm (Algorithm 1) extends the optimism-in-face-of-uncertainty principle to non-linear dynamical models in a way that requires no explicit uncertainty quantification of the dynamical models.
所采用的方法?
model的学习过程采用的是 use a multi-step prediction loss for learning the models with
ℓ
2
\ell_{2}
ℓ 2 norm。其loss定义如下:
L
ϕ
(
H
)
(
(
s
t
:
t
+
h
,
a
t
:
t
+
h
)
;
ϕ
)
=
1
H
∑
i
=
1
H
∥
(
s
^
t
+
i
−
s
^
t
+
i
−
1
)
−
(
s
t
+
i
−
s
t
+
i
−
1
)
∥
2
\mathcal{L}_{\phi}^{(H)}\left(\left(s_{t: t+h}, a_{t: t+h}\right) ; \phi\right)=\frac{1}{H} \sum_{i=1}^{H}\left\|\left(\hat{s}_{t+i}-\hat{s}_{t+i-1}\right)-\left(s_{t+i}-s_{t+i-1}\right)\right\|_{2}
L ϕ ( H ) ( ( s t : t + h , a t : t + h ) ; ϕ ) = H 1 i = 1 ∑ H ∥ ( s ^ t + i − s ^ t + i − 1 ) − ( s t + i − s t + i − 1 ) ∥ 2
再引入策略
θ
\theta
θ ,整体的公式(6.2)loss定义如下:
max
ϕ
,
θ
V
π
θ
,
sg
(
M
^
ϕ
)
−
λ
E
⏟
(
s
t
:
t
+
h
,
a
t
:
t
+
h
)
∼
π
k
,
M
⋆
[
L
ϕ
(
H
)
(
(
s
t
:
t
+
h
,
a
t
:
t
+
h
)
;
ϕ
)
]
\max _{\phi, \theta} V^{\pi_{\theta}, \operatorname{sg}\left(\widehat{M}_{\phi}\right)}-\lambda \underbrace{\mathbb{E}}_{\left(s_{t: t+h}, a_{t: t+h}\right) \sim \pi_{k}, M^{\star}}\left[\mathcal{L}_{\phi}^{(H)}\left(\left(s_{t: t+h}, a_{t: t+h}\right) ; \phi\right)\right]
ϕ , θ max V π θ , s g ( M
ϕ ) − λ ( s t : t + h , a t : t + h ) ∼ π k , M ⋆
E [ L ϕ ( H ) ( ( s t : t + h , a t : t + h ) ; ϕ ) ]
原论文中还涉及大量理论推导,以后有研究需要再看吧,感兴趣的可以看看。
取得的效果?
所出版信息?作者信息?
ICLR 2019的一篇文章,作者来自普林斯顿大学计算机科学系三年级博士,导师Sanjeev Arora,之前就读于清华姚班。主要研究机器学习,尤其是强化学习算法。
参考链接
Sanjeev Arora主要从事机器学习理论性收敛分析。
扩展阅读
设
V
π
V^{\pi}
V π 为真实环境下的值函数,
V
^
π
\widehat{V}^{\pi}
V
π 为评估模型下的值函数。设计一个可证明的upper bound
D
π
,
M
^
D^{\pi,\widehat{M}}
D π , M
,用于衡量estimate 和real dynamical model之间的值函数估计误差,与真实的值函数相比
D
π
,
M
^
D^{\pi,\widehat{M}}
D π , M
leads to lower bound :
V
π
≥
V
^
π
−
D
π
,
M
^
V^{\pi} \geq \widehat{V}^{\pi}-D^{\pi, \widehat{M}}
V π ≥ V
π − D π , M
算法先通过与环境交互收集数据, builds the lower bound above, and then maximizes it over both the dynamical model
M
^
\widehat{M}
M
and the policy
π
\pi
π 。lower bounds的优化可以使用任何RL算法,因为它是用sample trajectory from a fixed reference policy 来优化的,而不是一个交互的策略迭代过程。
值函数的定义如下:
V
π
,
M
(
s
)
=
E
∀
t
≥
0
,
A
t
∼
π
(
⋅
∣
S
t
)
,
S
t
+
1
∼
M
(
⋅
∣
S
t
,
A
t
)
[
∑
t
=
0
∞
γ
t
R
(
S
t
,
A
t
)
∣
S
0
=
s
]
V^{\pi, M}(s)=\underset{\forall t \geq 0, A_{t} \sim \pi\left(\cdot | S_{t}\right) ,S_{t+1} \sim M(\cdot|S_{t},A_{t})}{\mathbb{E}}\left[\sum_{t=0}^{\infty} \gamma^{t} R\left(S_{t}, A_{t}\right) | S_{0}=s\right]
V π , M ( s ) = ∀ t ≥ 0 , A t ∼ π ( ⋅ ∣ S t ) , S t + 1 ∼ M ( ⋅ ∣ S t , A t ) E [ t = 0 ∑ ∞ γ t R ( S t , A t ) ∣ S 0 = s ]
待续。。。。