强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业 - 代码天地

强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业

其他 2021-03-24 10:52:15 阅读次数: 0

1. 离散动作 vs 连续动作

在这里插入图片描述
个人理解：

离散：可数（整数表示的）
连续：不可数（小数/浮点数表示的）

在这里插入图片描述

2. DDPG

在这里插入图片描述

在这里插入图片描述

这里一共有四个网络，Q网络以及它的target_Q网络，策略网络以及它的target_P网络，两个target是为了稳定计算，每隔一段时间复制一下参数，投入到评估网络使用。

target_Q是为了稳定计算Q_target中的 $Q_{\bar{w}}(s^{'},a^{'})$ ，而其中的 $a^{'}=\mu_{\theta}(s^{'})$ 则是由策略网络里的那个target_P网络来稳定计算的。
$Q_{\bar{w}}(s^{'},a^{'})$ 这里的w加了一个横线就是为了和前面的那个区分开。

在这里插入图片描述

在这里插入图片描述

策略网络对应的是model.py中的演员Actor类（ActorModel），有一个policy函数，
Q网络对应的是评论家类（CriticModel类），有一个value函数

在这里插入图片描述

DQN里是硬更新，每次直接把 $Q_w$ 网络的所有参数全部给 $Q_{\bar{w}}$ ， $\mu_{\theta}$ 同理。
而DDPG采取的是一种更为平滑的方式，软更新，每次只更新一点点。如公式所示，用了一个 $\tau$ ，来控制每次 $w$ 或者 $\theta$ 更新的幅度。

也是为了让Q网络这个参数的更新更加稳定（属于工程/代码上的一种小trick吧）

在这里插入图片描述

3. 大作业

在这里插入图片描述

https://github.com/PaddlePaddle/RLSchool也是百度做的一个环境，目前暂时只有电梯环境和四轴飞行器这两个环境。

在这里插入图片描述

4. 创意赛

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

相关的代码实现：
在PaddleRL课程页面的讨论区：终极复现项目提交区（讨论请移步灌水区~）
【参考环境】

1星环境：简单的弹跳和接球游戏：
https://github.com/shivaverma/Orbit
2星环境：GYM环境 Box2D (需要安装 box2d-py)：
https://gym.openai.com/envs/#box2d
PyGame游戏环境（含Flappy Bird）：
https://github.com/ntasfi/PyGame-Learning-Environment
3星环境：GYM环境 Robotics (需要安装 mujoco_py和试用许可证书)：https://gym.openai.com/envs/#robotics
股票预测环境：
https://github.com/kh-kim/stock_market_reinforcement_learning
RLSchool四轴飞行器的速度控制任务 “velocity_control”：https://github.com/PaddlePaddle/RLSchool/tree/master/rlschool/quadrotor
4星环境：RLBench任务环境（使用机械臂完成某一项任务）：https://github.com/stepjam/RLBench
5星环境：交通信号灯控制：
https://github.com/Ujwal2910/Smart-Traffic-Signals-in-India-using-Deep-Reinforcement-Learning-and-Advanced-Computer-Vision

猜你喜欢

转载自blog.csdn.net/Castlehe/article/details/112859307

强化学习PARL——5. 基于连续动作空间上方法求解RL及大作业

从零实践强化学习之连续动作空间上求解RL(PARL)

从零实践强化学习之基于神经网络方法求解RL(PARL)

从零实践强化学习之基于表格型方法求解RL(PARL)

强化学习PARL——4. 基于策略梯度方法求解RL

强化学习PARL——3. 基于神经网络方法求解RL

强化学习PARL——2. 基于表格型方法求解RL

从零实践强化学习之基于策略梯度求解RL(PARL)

【强化学习笔记】5.无模型的强化学习方法-时间差分算法

从零实践强化学习之RL初印象(GYM+PARL)

从代码到论文理解并复现MADDPG算法(基于飞桨的强化学习套件PARL)

Paddle强化学习从入门到实践（Day5）：连续动作空间的求解

强化学习入门（五）连续动作空间内，使用DDPG求解强化学习问题

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

RL强化学习入门

强化学习【RL】推荐

强化学习系列5：有模型的策略迭代方法

强化学习--基于值函数的强化学习算法

强化学习——基于策略梯度的强化学习算法

《强化学习》探索方法

【深度强化学习】5. Proximal Policy Optimization

强化学习PARL——1. 简单认识

强化学习之五：基于模型的强化学习（Model-based RL）

强化学习（RL）基本概念

强化学习介绍（Introduction to RL）

对RL（reinforcement learning）--强化学习的认识

【RL】我的强化学习代理

RL— 深度强化学习简介

通用场和强化学习RL

强化学习入门（一）强化学习的基础概念及Gym库，Parl库介绍

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)