学习笔记:HER

学习内容:Hindsight experience replay

摘要:

        HER(Hindsight experience replay)算法是Open AI 提出的用来解决反馈奖励稀疏的存储样本的数据结构,采用了渐进式的学习方法,通过调整任务难度让模型渐进式的学习,不断增强策略的能力.论文中replay buffer 以序列为单位储存(就是伪代码里面的episode),论文采用future的采样模式.从repaly buffer中采样b个序列,从b个序列中选择某一时刻得到b个样本,每一个样本有一定概率将achieved_goal设置为当前时刻的任一时刻的状态.

关键词:

        稀疏奖励,数据结构,渐进式学习

伪代码:


伪代码解释:

        输入:

                确定的异策略强化学习算法,比如DQN,DDPG等

                采样方式,如future

                奖励函数:

        初始化算法和样本回放缓存区

        在M个回合中:

                采样一个目标和初始状态

                在T-1次内:

                        在初始化的强化学习算法的策略中得到行动

                        执行该行动

                循环结束

        在T-1次内:

                根据奖励和目标

                将更新后的奖励和目标放在replay buffer中

                随机采样目标存储在replay buffer中

        在N次采样中:

                从R中采样minibatch,其中每一个样本有一定概率修改目标

                使用minibatch对A进行优化

        循环结束

    循环结束

思考问题:

        怎样将HER算法用于无人驾驶的场景中

                

                


                              

猜你喜欢

转载自blog.csdn.net/qq_31239495/article/details/80315698