reward、loss、cost

1、损失函数、代价函数、目标函数

损失函数(Loss Function):单个样本的误差/ 所有样本的平均误差。(存在混用)

代价函数、成本函数(Cost  Function):训练集所有样本的平均误差,损失函数均值。可以加入正则化项。

目标函数(Object Function):问题需要优化的函数,比较广泛。我们研究问题一般是先确定一个“目标函数”,然后去优化它。

       比如强化学习的目的是回报最大化、值函数最大化,值函数就是目标函数。比如CART的目的是最大化信息熵增益,信息熵增益就是值函数。

       目标函数有最大化有最小化,代价函数总是最小化。

参考1:https://blog.csdn.net/lyl771857509/article/details/79428475 损失函数, 成本函数, 目标函数的区别

参考2:http://nooverfit.com/wp/损失函数-成本函数-目标函数-的区别

2、 reward、value function 与 value based 

采用什么方法完全取决于取得的效果。现在的研究发现policy gradient的方法效果比Q-learning这种单纯基于value的方法好,所以选择policy gradient,事实上是把两者结合起来的actor-critic效果是最好的!只是说actor-critic的关键在于policy gradient。
从方法上讲,Policy Gradient显然比基于Value的方法更直接,输入感知,输出控制。按道理来说是更符合人类行为的方法。特别在控制上,但是在一些离散的决策上,人类也是评估各方好坏value来做选择的,所以这一块Q-Learning应该会做的更好。未来机器人控制很可能会是深度学习要占领的一块地盘,在连续控制上,基于value的方法本身就不好做,连续DQN比如那个NAF方法使用了很多小技巧。而基于Policy的方法则很直接。

作者:博士伦2014
链接:https://www.jianshu.com/p/385ec272a7d6

值函数:V_{\pi }\left ( s \right )=E_{\pi }\left [ R_{t+1}+\gamma R_{t+2} +\gamma ^{2}R_{t+3}+...|S_{t}=s\right ]
 

Reward 定义了强化学习问题中的目标。在每个时间步,环境向agent发送一个称为reward的单个数字。Agent的唯一目标是最大化其长期收到的total reward。因此,reward定义了对于agent什么是好的什么是坏的。Reward 是改变policy的主要依据;如果policy选择的action之后得到的是低奖励,则可以更改policy以在将来选择该情况下的某些其他action。Reward 通常是环境状态(states)和所采取的动作(action)的随机函数。

如果说reward表明的是在短时间内什么是好的,那么value function则指出从长远来看什么是好的。粗略地说,一个状态的value是一个agent从该状态开始,可以期望在未来积累的奖励总额。例如,一个状态可能总是会产生较低的即时奖励,但仍然具有较高的value,因为其他状态经常会产生高reward。为了进行类比,奖励有点像快乐(如果高)和痛苦(如果低),而value则对应于我们对环境处于特定状态的高兴或不满的更精确和有远见的判断。

Reward在某种意义上是主要的,而作为reward预测的value是次要的。没有reward就没有value,估计value的唯一目的就是获得更多reward。
然而,在制定和评估policy时,我们最关心的是value。Action的选择基于value的判断。我们寻求的action会带来最高value而非最高reward的状态,因为从长远来看,这些action会为我们带来最大的reward。

不幸的是,确定value要比确定reward要困难得多。reward基本上由环境直接给出,但value必须根据agent在其整个生命周期中所做的观察序列来估计和重新估计。实际上,我们考虑的几乎所有强化学习算法中最重要的部分是有效估计value的方法。

value估计的核心作用可以说是过去六十年中强化学习领域最重要的事情。

作者:博士伦2014
链接:https://www.jianshu.com/p/d15090f5a6ea
3、一些基础公式推导

https://blog.csdn.net/hellocsz/article/details/80835542 介绍强化学习(reinforcement learning)----一些基本概念

发布了31 篇原创文章 · 获赞 2 · 访问量 696

猜你喜欢

转载自blog.csdn.net/qq446293528/article/details/103366881
今日推荐