增强学习(一)-基本概念的理解

Reinforcement learning
1.定义:
Reinforcement learning is learning what to do —-how to map situations to actions —- so as to maximize a numerical reward signal.
增强学习关注的是:智能体agent如何在环境中采取一系列行为,从而获得最大的累积回报。

机器学习的算法可以分为三类:
监督学习
非监督学习
增强学习

2.增强学习和非监督学习的区别:
增强学习是试错学习(Trail-and-error),由于没有直接的指导思想,智能体要以不断地域环境交互,通过试错的方式来获取最佳策略。
延迟回报,增强学习的知道信息很少,而且往往在事后(最后一个状态)才给出的,这就导致了一个问题,就是在获得正回报或者负回报以后,如何将信息分配给前面的状态。

3.强化学习有几个元素:
输入:
States:状态环境,例如迷宫中的每一个小格子就是一个state
Actions:行为,在每个状态下,有什么行为是允许的
Rewards:回馈,进入每个状态时,能带来的正面的或者负面的价值
输出:
Policy:在每个状态下,会选择哪个行为

4.算法
这里写图片描述

参考文献:
http://www.cnblogs.com/jinxulin/p/3511298.html

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/1-1-A-RL/

猜你喜欢

转载自blog.csdn.net/u012679583/article/details/79499472
今日推荐