Policy Gradients

其他 2019-03-17 02:04:47 阅读次数: 0

这篇博客只是为了自己记录，思路比较跳跃。

Policy Gradients

不估计局面的价值，转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为，比如说某些资源有限的游戏，我们不可能一直在某一个地方一直获取资源。

更新函数是\(\theta_{t+1}=\theta_t + \alpha \cfrac{\partial J}{\partial \theta}\)，其中\(J(\theta)\)是对当前参数产生的策略的评价，越高越好。

\(J(\theta)\)中，\(\theta\)的影响来自于两方面，一是在特定状态下的行为选择，二是这个策略到每个状态的概率。行为选择的偏导比较好考虑，然而行为造成的“某些高价值的状态没有到达”这件事情的偏导就没有那么形象了。

我们把策略对可能到达状态的影响浓缩在了一个\(\mu (x)\)里，表示在该策略下到达\(x\)的概率。

最后关于这个梯度的计算，我自己有一些想法：

一是通过蒙特卡洛估计，即使状态量巨大或者无限，状态的密度分布依然会把我们带到密度大的状态，我们的\(q\)值也是策略下的\(q\)值，没有统计到的密度小的状态价值再高也会被密度冲淡，影响不大。
二是通过Q-learning or DQN来估计\(q\)值，两个算法相互迭代。

猜你喜欢

转载自www.cnblogs.com/LincHpins/p/10545122.html

Policy Gradients

Policy Gradients（Tensorflow）

强化学习-Policy Gradients

Q Learning vs Policy Gradients

深度强化学习（二）—— Policy Gradients

Deep RL Bootcamp Lecture 4B Policy Gradients Revisited

Deep RL Bootcamp Lecture 5: Natural Policy Gradients, TRPO, PPO

Deep RL Bootcamp Lecture 4A: Policy Gradients

COMA（二）：Counterfactual Multi-Agent Policy Gradients 论文讲解

强化学习算法学习汇总笔记 (一) — Q-learning、Sarsa、DQN、Policy Gradients

深度强化学习cs294 Lecture5: Policy Gradients Introduction

DQN/Policy Gradients/Actor_Critic/DDPG三种算法的关系

几句话总结一个算法之Policy Gradients

【深度强化学习】(3) Policy Gradients 模型解析，附Pytorch完整代码

CS294-112 深度强化学习秋季学期（伯克利）NO.4 Policy gradients introduction

演示gradients基本用法

clip gradients 算法介绍

DRL------------Poilcy Gradients

Histogram of Oriented Gradients

Gradients, Icons, Image 的使用

Referrer Policy

Privacy Policy

Policy Gradient

Site policy

Learning Policy

CSS3渐变Gradients

CSS3 Gradients渐变

tensorflow中gradients基本用法

tf.gradients ---错误FetchargumentNonehasinvalidtype

css3 渐变（gradients）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)