强化学习-智能体与环境交互过程2

强化学习的过程是agent与环境不断交互的过程,从环境得到反馈,然后来改变自己的行动。
在这里插入图片描述
智能体首先接受环境的状态S0
在这里插入图片描述
智能体在S0的环境下采取行动A0
在这里插入图片描述
环境收到智能体的行动后从S0 变化到S1
在这里插入图片描述
环境对智能体的行为做出回报reward(可正可负,表示奖励或惩罚),R1
在这里插入图片描述
智能体收到奖励后对环境采取行动A1
在这里插入图片描述
环境状态接收到动作A1后由状态S1变化到S2,并且给予奖励R2

智能体与环境交互的过程为
S0 A0
R1 S1 A1
R2 S2 A2
R3 S3 A3
R4…持续下去

目标为最大化期望累计奖励reward也就是将所有到达目标的reward的期望加起来的最大值。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/89292444