强化学习 1.导论

1. 基本介绍

1.1 基本思想

智能体为了实现目标而不断与环境产生交互的过程中,抓住智能体所面对的真实问题的主要方面。具备学习能力的智能体必须在某种程度上感知环境的状态,然后采取动作并影响环境状态,智能体必须同时拥有和环境状态有关的一个或多个明确的目标。

1.2 关键特征

试探与开发的这种权衡
明确考虑了目标导向的智能体与不确定环境交互这整个问题

1.3 特点

我们无法完全预测动作的影响,因此智能体必须频繁监视其环境并作出适当的反应
涉及明确的目标,智能体可以根据这个目标来判断进展
智能体可以利用其经验来改进性能

2. 强化学习要素

2.1 策略

策略定义了学习智能体在特定时间的行为方式,是环境状态到动作的映射,一般来说,可能是环境所在状态的基础上,选择动作的随机分布

2.2 收益信号

收益信号定义了强化学习问题中目标,每一步,环境向智能体发送一个称为收益的标量数值,智能体唯一目标是最大化长期总收益。因此收益信号是改变策略的主要基础。一般来说,收益信号可能是关于环境状态和在此基础上所采取动作的随机函数,即func(状态,动作)。

2.3 价值函数

收益信号表明了短时间什么是好,而价值函数表明从长远角度看什么是好。总的来说,一个状态的价值是一个智能体从这个状态开始,对将来积累收益的总期望,,其作为对收益的预测。在制定和评估策略时,我们最关心的是价值。

2.4 对环境建立的模型【可选】

对环境的反应模式的模拟,其允许对外部环境的行为进行判断。例如,给定一个状态和做动作,模型可以预测环境的下一个状态和下一个收益

猜你喜欢

转载自www.cnblogs.com/ximelon/p/11747976.html