强化学习概要

一.什么是强化学习

强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。(这是百度百科上面的解释)

虽然百度上已经有了明确的解释，但是相信很多像我一样刚刚学习的学友们也是一脸懵逼的。我就想尽自己的一点理解再稍微说的通透点。我感觉强化学习就像是一对父子一样。父亲呢就尽自己的职责，走遍了世界上所有的路受尽了千番的苦难，知道了哪里可以顺利通过，哪里是悬崖峭壁，都做上了标记，并且找到了一条或者多条最优的通往天堂的路，并且给儿子留下了路线图。而儿子则天生就是一个富二代，无论儿子在哪里都可以拿着爸爸早就画好的路线图很快就到达了天堂。（这只不过是一个简单的例子具体的内容咱们还需要具体的理解）

二.强化学习的基本概念

1.智能体：

对于一个迷宫游戏来说吧，走迷宫的人就是一个智能体。换句话说就是你要操控哪个东西，或者是要让哪个东西去学习的本质。

2.状态：

对应于一个智能体来说，首先要看的是周围的一个环境或者是当前所处的一种状态。比如对于阿尔法狗来说，棋盘里面有一部分是黑子还有白子。那么当前这些白子或者黑子落在什么地方他们的分布还有规则，这个就是当前一种状态。

3.行为：

就是说当前智能体看清楚自己所处在的一个状态这后，就要进行一个活动或者是进行下一步的操作。比如说是阿尔法狗当前的一个位置已经确定了,然后下一步就要进行一个落子的操作了。这个落子的操作就是一个一个行为了。

4.奖励：

扫描二维码关注公众号，回复： 4643510 查看本文章

当你进行每一个行为的时候都会有一个评判值，就拿阿尔法狗来说，那一步可以让自己获胜就会获得一个较高的分值，导致自己输就会有一个负的分值。

5.策略：

在当前环境下你已经看清楚了你所处的一个状态，就会产生一个目标。阿尔法狗就是想赢旗，之前肯定就会产生一些策略，按照当前的状态我要按照什么一系列动作的组合，先怎么样再怎么样最后再怎么样最终来完成我想要的目标。这就是所谓的策略。

三.强化学习的流程

先观察，再行动，再观测

每一个动作都能影响代理将来的状态，通过一个奖励信号来衡量成功。

目标：选择一系列行动来最大化的奖励。

如图所示，一个智能体（Agent），执行了一个操作后（Action），达到一个新的环境，在新的环境中我们可以看到奖励是怎么样的然后再继续走，不断的重复的一个过程，这样就完成了一个不断迭代优化的计算的过程。

猜你喜欢