RL强化学习算法90行代码快速实战 DQN代码分层讲解 - 代码天地

RL强化学习算法90行代码快速实战 DQN代码分层讲解

其他 2020-04-02 11:14:51 阅读次数: 0

强化学习DQN算法介绍：

DeepMind《Playing Atari with Deep Reinforcement Learning》提出了DQN ，DQN使用卷积神经网络作为价值函数来拟合Q-learning中的动作价值，这是第一个直接从原始像素中成功学习到控制策略的深度强化学习算法。DQN 模型的核心就是卷积神经网络，使用Q-learning 来训练，其输入为原始像素，输出为价值函数。在不改变模型的架构和参数的情况下，DQN在七个Atari2600游戏上，击败了之前所有的算法，并在其中三个游戏上，击败了人类最佳水平。

1、DQN算法思想
DQN与Qleanring类似都是基于值迭代的算法，但是在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对应的Q值，而当状态和动作空间是高维连续时，使用Q-Table表示动作空间和状态太大十分困难。
所以在此处可以把Q-table更新转化为函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。因此我们可以想到深度神经网络对复杂特征的提取有很好效果，所以可以将DeepLearning与Reinforcement Learning结合。这就成为了DQN
在这里插入图片描述
2、DQN算法原理与核心流程
DQN中存在两个结构完全相同但是参数却不同的网络，预测Q估计的网络MainNet使用的是最新的参数，Q(s,a;θi)表示当前网络MainNet的输出，用来评估当前状态动作对的值函数；而预测Q现实的神经网络TargetNet参数使用的却是很久之前的，Q(s,a;θ_i)表

猜你喜欢

转载自blog.csdn.net/weixin_37479258/article/details/105240073

RL强化学习算法90行代码快速实战 DQN代码分层讲解

【推荐】快速超好用的RL强化学习框架——天授1500行代码实现DQN /PG/A2C

【推荐】快速超好用的RL强化学习框架——天授1500行代码实现DQN /PG/A2C

基础的强化学习(RL)算法及代码详细demo

深度强化学习-Dueling DQN算法原理与代码

深度强化学习-DQN算法原理与代码

深度强化学习-Double DQN算法原理与代码

python实现强化学习算法代码实战

强化学习之DQN代码（pytorch实现）

强化学习 double DQN 代码注释解析

【rl-agents代码学习】02——DQN算法

强化学习 DQN算法

强化学习算法—DQN

强化学习算法DQN

[强化学习实战]深度Q学习-DQN算法原理

强化学习算法 DQN 解决 CartPole 问题，代码逐条详解

强化学习 RL -> DQN -> 智能体Agent

强化学习代码实战（1）--- 介绍

强化学习DQN算法实战之CartPole

强化学习PPO代码讲解

深度强化学习之DQN实战

【强化学习】《Easy RL》- Q-learning - CliffWalking（悬崖行走）代码解读

强化学习—DQN算法原理详解

深度强化学习-DQN算法

深度强化学习——DQN算法原理

强化学习DQN

人工智能算法原理与代码实战：强化学习与智能交互

DQN with Target代码实现

强化学习算法DQN：算法简介、创新点：回放机制&target-network、伪代码、算法理解、代码实现、tensorboard展示网络结构

【深度强化学习】(1) DQN 模型解析，附Pytorch完整代码

今日推荐

周排行

rac环境打PSU补丁ERROR:This patch is not applicable to GI home.

科学活动《离园倒计时》（时间）

Windows 沙箱开发踩坑

secureCRT 改变显示宽度

hdu多校第六场1008 （hdu6641）TDL 暴力

【low向】注册用户时密码强度的判定

__int64

context-params与init-params

JS三个编码函数和net编码System.Web.HttpUtility.UrlEncode比较

springboot通过重写addResourceHandlers拦截请求访问本地资源

每日归档

更多

2024-08-08(0)

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)