[强化学习-5] 值函数近似 - 代码天地

[强化学习-5] 值函数近似

其他 2018-09-01 18:11:19 阅读次数: 0

版权声明：本文为博主原创文章，如若转载，请注明出处！ https://blog.csdn.net/u013010889/article/details/82259477

值函数近似

前几篇博客讲了如何进行值函数估计，估计完之后这些结果怎么保持呢，状态动作空间很小的就存在表中，用的时候查表获取v(s)和Q(s, a)，但当状态空间是高维连续时，需要储存的东西就太多了，这个表就不行了，这时我们会采用函数近似(function approximation)的方式对值函数进行参数化近似：

这里写图片描述

一般的函数近似有
- Linear combinations of features(可微，参数是特征的权重)
- Neural network(可微，参数是每层的连接权重)
- Decision tree(参数是叶子节点的取值，和树节点分裂的阈值)
- Nearest neighbour
- Fourier / wavelet bases
一般要求：参数个数要小于状态（或状态-行为）的个数

表格型强化学习和函数逼近方法的强化学习值函数更新时的异同点：
1. 表格型强化学习进行值函数更新时，只有当前状态 $S_t$ 处的值函数在改变，其他地方的值函数不发生改变。
2. 值函数逼近方法进行值函数更新时，因此更新的是参数 $\theta$ ，而估计的值函数为 $\hat{\upsilon}\left(s,\theta\right)$ ，所以当参数 $\theta$ 发生改变时，任意状态处的值函数都会发生改变。

参数化近似方法的参数学习

我们用特征向量来表示一个状态s，让它作为输入。 “查表”方法是一个特殊的线性价值函数近似方法：每一个状态看成一个特征，个体具体处在某一个状态时，该状态特征取1，其余取0。类似于one-hot向量一样。所以我们可以用线性组合来近似价值函数。
这里写图片描述

事实上，上面的公式都是无法直接在强化学习中使用的。因为在这里我们都是假设已经知道了真实值vπ(S)。然而在强化学习中，我们是不知道真实值的。也就是强化学习没有监督数据。
因此，我们的做法其实是用估计值代替真实值vπ(S)：注意MC是无偏的趋近于局部最优，而TD是有偏的趋近于全局最优
这里写图片描述
收敛性

DQN

这里写图片描述

-强化学习(六)：价值函数的逼近(近似)
- 深度增强学习David Silver（六）——Value Function Approximation
- 强化学习入门第五讲值函数逼近

猜你喜欢

转载自blog.csdn.net/u013010889/article/details/82259477

[强化学习-5] 值函数近似

强化学习：值函数近似

《强化学习》近似值函数方法

强化学习中的值函数近似算法

5、强化学习--价值函数的近似表示

强化学习值函数

[强化学习实战]函数近似方法-线性近似与函数近似的收敛性

强化学习--基于值函数的强化学习算法

强化学习(六)：价值函数的逼近(近似)

[强化学习实战]函数近似方法与原理

（十三）从零开始学人工智能-强化学习:值函数近似和策略梯度

强化学习——值函数与Bellman方程

5. 值函数近似——Deep Q-learning

Reinforcement Learning强化学习系列之五：值近似方法Value Approximation

增强学习（强化学习）基础之价值函数的近似表示

强化学习（八）价值函数的近似表示与Deep Q-Learning

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 1

基于线性函数近似的安全强化学习 Safe RL with Linear Function Approximation 翻译 2

强化学习入门第五讲值函数逼近

基于值函数逼近的强化学习方法

强化学习系列--值迭代算法

《强化学习与最优控制》学习笔记（三）：强化学习中值空间近似和策略空间近似概述

强化学习：随机近似与随机梯度下降

第6章函数-5 使用函数求余弦函数的近似值 (20分)

《强化学习与最优控制》学习笔记（五)：值空间近似的一般问题与方法

强化学习：函数逼近思想

强化学习价值函数方法笔记

【强化学习笔记】6.7 基于值函数逼近的强化学习方法-深度强化学习网络(DQN)

#习题5-7 使用函数求余弦函数的近似值

习题5-7 使用函数求余弦函数的近似值（15 分）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)