强化学习极简概述

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ybdesire/article/details/81159189

1. 摘要

通过对比有监督学习,来理解强化学习的基本思想。

2. 强化学习与有监督学习的区别

在有监督学习中,我们通过建立“特征->标签”对,来训练模型,从而让模型学会解决分类、回归问题。

但在强化学习中,我们没有标签,我们的Y值只是一个分数(reward)。通过这个分数,可以衡量模型所做决策(决策位于X中)的好坏。

在gym环境中,the goal is always to increase your total reward。

3. 强化学习中最重要的“特征”

参考gym库的定义,下面给出实际使用强化学习时,需要获取的数据:

  • observation:相当于有监督学习中的特征,比如图像的二维原始像素矩阵。
  • reward:上一次action进行后,取得的奖励值。在gym环境中,the goal is always to increase your total reward。
  • done:是否达到目标,比如gym游戏中,将平衡杆子直立到规定的角度之内

结合下图

这里写图片描述

其中的agent,就是我们需要训练的AI模型。agent根据observation预测出action,通过实际env中执行action,取得该action的reward,通过这个reward,来反馈控制模型做出更好的判断。

4. 常见的强化学习模型

这里写代码片

5. 参考

猜你喜欢

转载自blog.csdn.net/ybdesire/article/details/81159189