2019年伯克利大学 CS294-112《深度强化学习》第4讲:强化学习简介(笔记)

在这里插入图片描述
今天的课算是关于如何优化奖励函数的强化学习算法的第一课。在接下来的几周中会讲到更多关于某个算法的细节,而今天就做一些数学推导。目的是对强化学习中一些一般的定义和不同种类的算法,有一个基本的认识。对典型的强化学习算法的原理有一个高层次的认识,所以今天的东西可能会有一点点高阶。如果看起来有点吃力,不用担心后面几周会讲到更多细节,而且会讲到这些方法的推导过程和实现过程中的难点。
在这里插入图片描述
今天会先讲一下马尔科夫决策过程的定义,这是很多强化学习算法中最核心、最基础的数学概念。还会讲到强化学习问题的定义,强化学习问题本质上来说是一个优化问题,但是需要定义你的优化目标是什么?自变量是什么?然后会介绍典型的强化学习算法的内部结构,实际上后面我们讲到的所有强化学习算法,他们都能分解成三个部分。会将一下那三个部分分别是什么,然后会给一些例子说明对于不同的方法这些部分如何变化。然后会大概介绍一下这门课要讲到的不同种类的算法。所以今天课程的目的就是理解定义和符号,从而理解强化学习算法的根本目标,也就是强化学习算法到底在优化什么。对于今天讲到的这些算法有一个总结性的认识。当然在后面的课程中会讲到更多关于这些算法的细节,那么我们从定义开始。

猜你喜欢

转载自blog.csdn.net/weixin_44356285/article/details/89464114