【王树森】深度强化学习(DRL)课程笔记：P1 基本概念（含gym安装）

其他 2023-08-11 17:31:08 阅读次数: 0

课程信息

课程主讲：王树森（史蒂文斯理工学院计算机科学系的终身制助理教授）
课程内容：基本概念、价值学习、策略学习、Actor-Critic方法、AlphaGo、Monte Carlo (蒙特卡洛)
课程资料：https://github.com/wangshusen/DRL

下载链接：https://pan.baidu.com/s/1XpTgny_Vr0LobBsuYF4KkA 密码:x0wb

B站搬运地址：https://www.bilibili.com/video/BV12o4y197US

数学基础

概率

概率密度函数（Probability Density Function,PDF）
在这里插入图片描述

期望（Expectation）
在这里插入图片描述

基本概念

属性

agent：操作主体，智能体

state：几个状态

action:执行动作

police:执行策略
在这里插入图片描述

反馈

Reward
在这里插入图片描述
Value Function评估函数

玩游戏

AI的目的就是学习 $\pi$ 函数或者 $Q$ 函数
在这里插入图片描述

gym的安装

gym官方网站：https://github.com/openai/gym
1.使用命令安装gym环境，安装所有环境

pip install gym[all] -i https://pypi.tuna.tsinghua.edu.cn/simple

2.使用如下代码进行测试

import gym
env = gym.make("LunarLander-v2", render_mode="human")
env.action_space.seed(42)

observation, info = env.reset(seed=42)

for _ in range(1000):
    observation, reward, terminated, truncated, info = env.step(env.action_space.sample())

    if terminated or truncated:
        observation, info = env.reset()

env.close()

总结

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qin_liang/article/details/132167960

【王树森】深度强化学习(DRL)课程笔记：P1 基本概念（含gym安装）

【王树森】深度强化学习(DRL)课程笔记：P2 价值学习

（1）深度强化学习基础【基本概念】

【深度强化学习】强化学习的基本概念

深度强化学习的基本概念及基本算法

树的基本概念(含图论中的严格定义)

kafka学习笔记——基本概念与安装

Hive学习(一)【基本概念、安装】

强化学习（RL）基本概念

强化学习（基本概念）

强化学习基本概念

（一）强化学习基本概念

强化学习：基本概念

树的基本概念

树基本概念

ElasticSearch 使用笔记1 安装与基本概念

[机器学习笔记] （一）机器学习基本概念篇（含思维导图）

Redis学习笔记(01-基本概念及安装)

【深度学习】基本概念

深度学习基本概念

java（1）基本概念整理+eclipse安装配置

1.kafka基本概念和安装

Docker1/3---基本概念与安装

基本概念:人工智能,机器学习,深度学习,强化学习的区别和简介

深度强化学习（王树森版）学习笔记（一）——机器学习基础

《强化学习》基本概念和交叉熵方法

强化学习基础：基本概念和动态规划

树学习笔记（基本概念）

B树基本概念

设备树基本概念

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)