强化学习&蒙特卡洛1 | 动作集合 episode

将状态,动作,奖励直到状态结束的sequence命名为Episode, 智能体的任务就是去寻找能使累积期望奖励最大的策略

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/114377789
今日推荐