一、强化学习的特点
-
强化学习(RL)和规划(Planning)的不同
总结一下,强化学习和规划哪里不同?
-
强化学习看到的世界一个黑箱子,而对于规划而言,这个世界却是很清楚的。比如我们的最短路径,所有的节点、便点、权重点都是已知的;而对于强化学习,状态如何转移、边的权制是多少、甚至有哪些状态都需要自己探索、发现。
-
规划的问题可能就是一个解、一个路径;而强化学习的解是一个模型。和监督学习一样,只要输入任意一个状态,强化学习都会告诉你应该做什么决策。因此,除了给出最优路径上的每一个状态、每一个节点应该往哪边走以外,实际上任何一个节点都能告诉我从这个节点到目标去应该怎么走。
-
强化学习(RL)和监督学习(SL)的不同
刚才说到强化学习和监督学习有很多相似的地方,比如说模型实际上是一样的。那它们之间有何差异呢?
-
监督学习总的来说是一个开环的学习。
-
通常,监督学习任务会从环境中收集一批数据;
-
接着我们用监督学习算法从数据中产生模型;
-
最后就可以用这个模型来做预测了。
-
但是对于强化学习来说,它面对的是一个闭环的学习。
-
首先,也是从环境中产生数据;
-
用强化学习的算法从数据中产生模型;
-
还要把模型放回到环境中运行,接着又会产生新的数据出来,再重复以上步骤。
因此从大体上看,两者的主要区别,一个是开环学习,一个是闭环学习。这点不一样就带来了很多具体区别:
首先,在监督学习里,数据是分成观测的特征值和一个标记。这个标记的含义是,看到这样一个观测的值、特征以后,应该做出什么样的预测。
但是在强化学习里面,这个数据首先是一个序列,做了一个动作以后下面又到了什么状态,有一个反馈值,并且有了新的状态。这个序列里面虽然有反馈奖赏,但这个奖赏并不能告诉我们应该做什么样的动作,而只是对现在的策略有一个评估值,我们把所有奖赏加起来作为当前策略的一个评估(Evaluation),可以得知策略做的有多好,但并不知道应该做什么样的动作是最好的(即难以求得最优解),这个也是数据上的两个差别。
另外,强化学习的算法和监督学习的算法也是不一样的。两者的模型可能是一样的。监督学习里面可以是一个决策树,也可以是一个神经网络,也可以是一个模型,在强化学习里也是一样。
总结起来,两者最核心的区别,在于强化学习需考虑自身对环境的影响。