【动手学强化学习】第一章 初探强化学习知识点总结

第一章 初探强化学习知识点总结

第一章主要的知识点:强化学习的定义、要素、环境、目标、预测与决策的区别、有监督学习与强化学习的区别

1.强化学习简介

在这里插入图片描述

  • 实现序贯决策的机器学习方法—强化学习(reinforcement learning)
  • 强化学习定义:Reinforcement Learning 机器通过与环境进行交互,不断尝试,从错误中学习,做出正确决策从而实现目标的方法。
  • 强化学习是与有监督学习方法和无监督学习方法并列的一类机器学习方法
  • 强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器,交互是迭代进行
  • 在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作后,产生相应的即时奖励(注意是即时奖励)信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,依次类推。

2.强化学习的要素

动作(action):智能体作出的决策行为
智能体(agent):学习器与决策者,作出动作的主体
状态(state):智能体从环境中获得到的信息
奖励(reward):环境根据状态与智能体做出的动作产生的反馈信号,用R或r表示
回报(return):未来的累积奖励,用Ut表示从t时刻到结束时的累积奖励
策略(policy):一般用π表示,由观测到的状态根据策略决定作出动作

3.强化学习的环境

  • 智能体决策的动作作用到环境中,使得环境发生相应的状态改变,而智能体接下来则需要在新的状态下进一步给出决策
  • 与面向决策任务的智能体进行交互的环境是一个动态的随机过程,其未来状态的分布由当前状态和智能体决策的动作来共同决定,并且每一轮状态转移都伴随着两方面的随机性:一是智能体决策的动作的随机性,二是环境基于当前状态和智能体动作来采样下一刻状态的随机性

4.强化学习的目标

  • 在上述动态环境下,智能体和环境每次进行交互时,环境会产生相应的奖励信号,其往往由实数标量来表示。这个奖励信号一般是诠释当前状态或动作的好坏的及时反馈信号(奖励是及时反馈信号),好比在玩游戏的过程中某一个操作获得的分数值。整个交互过程的每一轮获得的奖励信号可以进行累加,形成智能体的整体回报(return),好比一盘游戏最后的分数值。
  • 强化学习的目标:最大化在多轮交互过程中获得的累积奖励的期望
  • 最大化累积奖励期望是智能体提升策略的目标,也是衡量智能体策略好坏的关键指标
  • 回报的期望,将其定义为价值(value)

为什么要关注回报的期望而不是回报本身?
根据环境的动态性可以知道,即使环境和智能体策略不变,智能体的初始状态也不变,智能体和环境交互产生的结果也很可能是不同的,对应获得的回报也会不同。在强化学习中,我们关注回报的期望,并将其定义为价值(value),这就是强化学习中智能体学习的优化目标。

5.预测与决策的区别

  • 预测仅仅产生一个针对输入数据的信号,并期望它和未来可观测到的信号一致,这不会使未来情况发生任何改变;决策往往会带来“后果”,因此决策者需要为未来负责,在未来的时间点做出进一步的决策
  • 决策任务往往涉及多轮交互,即序贯决策;而预测任务总是单轮的独立任务。如果决策也是单轮的,那么它可以转化为“判别最优动作”的预测任务
  • 因为决策任务是多轮的,智能体就需要在每轮做决策时考虑未来环境相应的改变,所以当前轮带来最大奖励反馈的动作,在长期来看并不一定是最优的

6.有监督学习与强化学习的区别

  • 有监督学习找最优模型,强化学习找最优策略
  • 有监督学习的任务建立在从给定的数据分布中采样得到的训练数据集上,通过优化在训练数据集中设定的目标函数(如最小化预测误差)来找到模型的最优参数。这里,训练数据集背后的数据分布是完全不变的
  • 在强化学习中,数据是在智能体与环境交互的过程中得到的。如果智能体不采取某个决策动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据来自之前智能体的决策结果。因此,智能体的策略不同,与环境交互所产生的数据分布就不同
  • 强化学习的策略在训练中会不断更新,其对应的数据分布(即占用度量)也会相应地改变。因此,强化学习的一大难点就在于,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
  • 有监督学习的目标:找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数。在训练数据独立同分布的假设下,这个优化目标表示最小化模型在整个数据分布上的泛化误差(generalization error)
  • 强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。根据占用度量的概念,策略的价值可以等价转换成奖励函数在策略的占用度量上的期望
  • 有监督学习和强化学习的优化目标相似,即都是在优化某个数据分布下的一个分数值的期望
  • 二者优化的途径是不同的,有监督学习直接通过优化模型对于数据特征的输出来优化目标,即修改目标函数而数据分布不变;强化学习则通过改变策略来调整智能体和环境交互数据的分布,进而优化目标,即修改数据分布而目标函数不变
  • 一般的有监督学习关注寻找一个模型,使其在给定数据分布下得到的损失函数的期望最小;
  • 强化学习关注寻找一个智能体策略,使其在与动态环境交互的过程中产生最优的数据分布,即最大化该分布下一个给定奖励函数的期望。
    在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Ever_____/article/details/137248932