DeepReinforcementlearning:AnOverview paper总结

Deep Reinforcement Learning: An Overview
Introduction
高维的input-data in learning-control-policies in complex RL environment
2,3节 deep RL内容,介绍三种常用的Deep learning结构
4节 监督/无监督model in deep RL

Reinforcement Learning
finite MDP markov decision process
1.action-value:动作转移概率 + 折扣因子
2.state-value:
==》 这两者都有递归形式公式
state-action table表用来存储state-aciton pairs
3.如何处理连续问题呢?
estimator of action-value funciton参数θ 作为动作-值近似函数
4.SGD求解θ使得loss函数最小
5.action-value近似函数形式(关于θ的函数):
linear(可以保证收敛性) 或者 NN(常见CNN RNN)

Deep Learning
深度学习特性:自动提取高维输入数据,例如image或者object的深层次特征
介绍三种常见的DRL framework
1.Autoencoder
denoising 具体是干嘛的?不了解
deep autoencoders is unsupervised deep feature
2.CNN
CNN is categorised in Supervised DL Models. 监督学习的分类模型
基本原理看CS231N
3.RNN
Long short term memory,LSTM来解决RNN的gradient vanishing or gradient explosion

Deep Supervised and Unsupervised Learning Models for Reinforcement Learning
1.RL with Supervised learning
Neural Fitted Q是model free方法。
ALE环境提供了大量的Atari游戏。
DQN: experience replay打破了数据之间的强关联性 + agent存储(st,at,rt,rt+1)
Mont Carlo Tree Search 树搜索避免大量的episodes模拟
举例两篇论文
1.1.[20]基于视觉的visual based的RL,使用压缩RNN,同时使用进化算法将神经网络演化为action-value的近似函数
1.2.[32]整合CNN RNN RL解决条件-动作的框架

2.RL with unsupervised learning
DFQ 处理连续的grid-world tasks

3.partially onservable MDP environment
以单帧作为输入的DRQN效果优于DQN

Conclusions and Future Work in Deep Reinforcement Learning

猜你喜欢

转载自blog.csdn.net/u014297722/article/details/82844329