《强化学习》近似值函数方法

强化学习和监督学习

表格方法的局限

这里写图片描述

RL中的函数近似

这里写图片描述
这里写图片描述
这里写图片描述

监督学习-MC

这里写图片描述

MC—TD

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

基于值函数的RL损失函数

这里写图片描述

近似方法的一些困难

Deep Q-Network

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

经验回放

这里写图片描述
这里写图片描述

目标网络

这里写图片描述

奖励裁剪

这里写图片描述

DQN的一些问题和解决

Q值自相关问题

这里写图片描述
这里写图片描述

Q值过度估计

这里写图片描述
这里写图片描述
这里写图片描述

扫描二维码关注公众号,回复: 1692751 查看本文章

优先经验回放

这里写图片描述
这里写图片描述

Bootstrap DQN

这里写图片描述

部分可见性

这里写图片描述

猜你喜欢

转载自blog.csdn.net/u012151283/article/details/80573137