增强学习

其他 2018-08-12 20:36:46 阅读次数: 0

1. pip install gym

可以看到，增强学习和监督学习的区别主要有以下两点：

1. 增强学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。

2. 延迟回报，增强学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。

上篇我们提到增强学习学到的是一个从环境状态到动作的映射（即行为策略），记为策略π: S→A。而增强学习往往又具有延迟回报的特点: 如果在第n步输掉了棋，那么只有状态s_n和动作a_n获得了立即回报r(s_n,a_n)=-1，前面的所有状态立即回报均为0。所以对于之前的任意状态s和动作a，立即回报函数r(s,a)无法说明策略的好坏。因而需要定义值函数(value function，又叫效用函数)来表明当前状态下策略π的长期影响。

价值函数:第二行有错误多写了一个γ.

当一个策略取定,就是说Si,ai 这个数组取定.那么拟合下面这个等比函数.

其中r_i表示未来第i步回报，

PageRank算法简介

http://blog.jobbole.com/71431/

1.基本方法是矩阵不停的乘法,一直到收敛

2.利用加个概率来更改迭代公式即可解决终止点问题和陷阱问题.

重新学机器学习:

https://blog.csdn.net/supercally/article/details/54754787

https://blog.csdn.net/Young_Gy/article/details/73485518

猜你喜欢

转载自www.cnblogs.com/zhangbo2008/p/9464256.html

增强型for和Iterator学习

易语言5.9精简学习增强版

springBoot增强版

增强型接口

增强型for

增强型循环

增强版A*算法

增强型for循环

机械学习

规则学习

MyBatis的系列学习

Drools 规则学习

maven理论学习

oracle 系列学习

netty系列学习

Misc系列学习

CAP理论学习

专题学习——LCT

GridControl系列学习

ElasticSearch -- 理论学习

AOP系列学习

概念学习

不断学习

努力学习

spring系列学习

线程的概念学习

docker 系列学习

关于不断学习

数组理论学习

大神系列学习

今日推荐

技术解析 GPT-4o：即时语音交互的突破与 GenAI 发展策略

开源大模型与闭源大模型

微信小程序授权登录获取用户的openid

亿级流量系统架构设计与实战

人工智能时代的程序设计教学与课程设计

纽交所技术问题致伯克希尔 (BRK.A) 显示跌近 100%

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

周排行

面试爱奇艺，竟然挂在第5轮……

scala方法和函数的区别

NYIST--2018大一新生第一次周赛题解

java如何通过client客戶端http实现get/ post请求传递json参数到restful 服务接口

RabbitMQ 队列类型

2018-2019-1 20165311 20165329 20165334 实验一开发环境的熟悉

iOS打包工具配置相应的文件路径一键打包到指定位置

【每日一题】替换空格

【转载】FPGA配置方式

旅行青蛙

每日归档

更多

2024-06-03(52)

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)