【深度强化学习】《强化学习》第二章代码分析与实现

其他 2021-11-27 19:43:27 阅读次数: 0

0 问题叙述

你需要重复地在 K 个选项或动作中进行选择，每次做出选择之后，你都会得到一定数值的收益，收益由你选择的动作决定的平稳概率分布产生。

这里 使用 2000 个随机生成的 k-臂XX机问题，训练 1000 步。

案例来源：《强化学习》第三版

1 导包

其中 tqdm 是用来形成进度条的包，在循环较大的时候可以看任务执行的进度。

2 初始化 K-臂XX机

这里跟书上一样选取 K = 10。

输出结果如下：

在每一个 k-臂XX机问题中，动作的 真实价值 $q_{*}(a)$ 从一个均值为0，方差为1的标准正态分布中选择。

对应于该问题的学习方法 在 t 时刻，选择行为 $A_{t}$ 时，实际收益 $R_{t}$ 由一个均值为 $q_{*}(A_{t})$ ，方差为1的标准正态分布决定。

该部分代码只是将一个10-臂XX机平台可视化，而在接下来的实验中，将通过reset函数完成XX机的建立（初始化行为真实价值等），将建立2000个XX机问题。

3 创建 Bandit 类

Bandit 类也就是 Agent 类，具有以下多个属性以及方法，分析如下：

根据根据 ε-贪心算法、UCB算法和梯度算法完成以上三个函数。

reset()

要初始化 k-臂XX机的 k 行为的真实价值，并且进行初始估计。

act()

根据不同算法的行为选择的特点，进行以下汇总：

进行代码编写：

step()

根据更新行为价值估计的方式不同，分为以下三类：

编写代码如下：

4 simulate函数

封装了训练过程。

5 贪心与 ε-贪心方法

使用 for 技巧建立三个 Bandit，ε=0 即是贪心算法。

输出图像如下：

6 乐观初始值

分别使用 乐观初始化，贪心算法 以及 一般初始化，ε-贪心算法，都使用 恒定步长0.1。

输出结果如下：

7 基于置信度上界的动作选择

输出结果：

8 梯度XX机算法

输出结果：

9 XX机算法的参数研究图

输出结果：

具体代码请私信博主。

猜你喜欢

转载自blog.csdn.net/weixin_41960890/article/details/119651052

【深度强化学习】《强化学习》第二章代码分析与实现

第二章强化学习与深度强化学习

深度强化学习系列（二）：强化学习基础

深度强化学习

第四章蒙特卡洛方法-强化学习理论学习与代码实现（强化学习导论第二版）

第六章函数逼近-强化学习理论学习与代码实现（强化学习导论第二版）

第十二章演员评论家（Actor-Critic）-强化学习理论学习与代码实现（强化学习导论第二版）

【深度强化学习】《强化学习》Monte-Carlo 算法代码实现

第十四章深度确定性策略梯度（Deep Deterministic Policy Gradient Algorithms，DDPG）-强化学习理论学习与代码实现（强化学习导论第二版）

强化学习（RLAI）读书笔记第二章多臂老虎机

强化学习导论第二章多臂赌博机问题

[归纳]强化学习导论 - 第二章：多臂赌博机

Reinforcement learning——an introduction强化学习翻译第二章

强化学习（二）

强化学习二

深度强化学习（二）—— Policy Gradients

深度学习-强化学习

【学习】深度强化学习

深度强化学习- 最全深度强化学习资料

深度强化学习DQN

深度强化学习汇总

对深度强化学习的理解

深度强化学习剖析

深度强化学习—DQN

深度强化学习概述

深度强化学习笔记

深度强化学习的未来

深度强化学习DLR

什么是深度强化学习？

深度强化学习整理

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)