强化学习算法 - 代码天地

强化学习算法

其他 2019-06-25 17:12:46 阅读次数: 0

DQN：离散化的低纬动作空间

DPPG：深度确定性策略梯度算法，可以用来解决连续的动作空间上的深度强化学习问题

Q-learing ：离散，低纬的动作空间

1、强化学习基本算法

马尔科夫决策过程
策略迭代
价值迭代
泛化迭代

2、基于值函数的强化学习方法

基于蒙特卡罗方法强化学习方法
基于时间差分的强化学习方法
基于值函数的强化学习方法（DQN,Q-learing,Double Q_Learing）

3、基于直接策略搜索的强化学习方法

基于策略梯度的强化学习方法(Actor-Ctritic,A3C,)
基于置信域策略的强化学习方法(TRPO)
基于确定性策略的强化学习方法
基于引导策略搜索的强化学习方法(ADMM)

4、强化学习研究及前言

逆向强化学习
组合策略梯度和值函数方法
值函数网络
基于模型的强化学习方法：PILCO及其扩展

猜你喜欢

转载自blog.csdn.net/lxlong89940101/article/details/90476096

强化学习算法

强化学习算法：

强化学习 DQN算法

强化学习算法—DQN

强化学习算法——TRPO

强化学习算法DQN

强化学习的算法分类

强化学习算法分类

强化学习——Sarsa算法

强化学习--DDPG算法

强化学习--基于值函数的强化学习算法

强化学习——基于策略梯度的强化学习算法

【强化学习】Policy Gradient算法详解

强化学习（一）——经典算法

强化学习-Q-Learning算法

基于policy gradient的强化学习算法

强化学习算法Policy Gradient

强化学习——Q-learning算法

强化学习中策略梯度算法

强化学习—DQN算法原理详解

PyTorch强化学习——策略梯度算法

深度强化学习-DQN算法

深度强化学习——DQN算法原理

强化学习系列--值迭代算法

强化学习（一）强化学习的基本概念、e贪心算法、Softmax算法

【强化学习】强化学习介绍

【强化学习】强化学习分类

[强化学习]强化学习基础

【强化学习笔记】4.1 无模型的强化学习方法-蒙特卡罗算法

（十二）从零开始学人工智能-强化学习:强化学习基础算法

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)