Double DQN的理解

为什么会有Double DQN

DQN 基于 Q-learning, Q-Learning 中有 Qmax, Qmax 会导致 Q现实 当中的过估计 (overestimate)。而 Double DQN就是用来解决过估计的。在实际问题中, 如果你输出你的DQN的Q值, 可能就会发现, Q 值都非常大。这就是出现了overestimate。

Double DQN算法

DQN的神经网络部分可以看成一个 最新的神经网络 + 老神经网络, 他们有相同的结构, 但内部的参数更新却有时差。 而它的Q现实部分是这样的:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/DylanYuan/article/details/86472784
今日推荐