增强学习（一）-基本概念的理解 - 代码天地

增强学习（一）-基本概念的理解

其他 2018-06-21 22:16:11 阅读次数: 3

Reinforcement learning
1.定义：
Reinforcement learning is learning what to do —-how to map situations to actions —- so as to maximize a numerical reward signal.
增强学习关注的是：智能体agent如何在环境中采取一系列行为，从而获得最大的累积回报。

机器学习的算法可以分为三类：
监督学习
非监督学习
增强学习

2.增强学习和非监督学习的区别：
增强学习是试错学习（Trail-and-error）,由于没有直接的指导思想，智能体要以不断地域环境交互，通过试错的方式来获取最佳策略。
延迟回报，增强学习的知道信息很少，而且往往在事后（最后一个状态）才给出的，这就导致了一个问题，就是在获得正回报或者负回报以后，如何将信息分配给前面的状态。

3.强化学习有几个元素：
输入：
States：状态环境，例如迷宫中的每一个小格子就是一个state
Actions：行为，在每个状态下，有什么行为是允许的
Rewards：回馈，进入每个状态时，能带来的正面的或者负面的价值
输出：
Policy：在每个状态下，会选择哪个行为

4.算法
这里写图片描述

参考文献：
http://www.cnblogs.com/jinxulin/p/3511298.html

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-A-RL/

猜你喜欢

转载自blog.csdn.net/u012679583/article/details/79499472

增强学习（一）-基本概念的理解

增强学习（一） ----- 基本概念

GAN学习总结一 GAN基本概念理解

PID学习（一）：基本概念+例子理解

语音增强基本概念

TensorFlow学习1——基本概念理解

反向增强学习入门1——基本概念

增强学习理解（一）：概念介绍

webService学习一基本概念

Zookeeper学习（一）——基本概念

JMS学习笔记　（一）基本概念.

机器学习一基本概念

PHP学习系列一------基本概念

JavaScript学习（一）：基本概念

【keras】学习笔记（一）基本概念

python学习笔记(一)：基本概念

协程学习：基本概念（一）

机器学习（一）——基本概念

Unity学习笔记一 (基本概念)

Spring的学习（一）——基本概念

UART学习之路（一）基本概念

docker学习一--基本概念

Kafka学习笔记一：基本概念

JavaWeb学习总结（一）：基本概念

SimpleITK学习（一）基本概念

Docker学习记录(一)-基本概念

tensorflow 学习笔记（一） —— 基本概念

shell的学习（一）shell的基本概念

NIO学习（一）：基本概念

机器学习（一）基本概念

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)