指导Agent在XX的环境中做出最优决策的模型框架

任务：自动驾驶具备人的行为智能（指导Agent在XX的环境中做出最优决策的模型框架）的目的。
这里写图片描述
针对自动驾驶问题，提出不需要专家知识辅助的
简单说明：增强学习中神经网络需要完成的任务：针对图像，通过（神经网络）抽象出任务所处环境的特征信息，将特征信息与动作行为之间建立联系（相比于传统图像识别任务：特征信息与识别目标位置、类别之间建立联系）。Agent需要与环境层（真实环境，模拟环境，游戏环境）相互试探交互，数据交互层通过传感器、评判器、执行器来负责环境与Agent交互过程中数据的传输、存储、回放等任务，通过传感器和游戏引擎可以完整或者部分观测到环境的状态信息，将状态信息定义为状态空间S={s1，s2，……}，通过处理层（依据策略）对状态S分析计算得到最优动作（定义动作空间为A={a1，a2，……}），将最优动作通过执行器执行并得到下一状态，这一部分仅涉及网络的前向预测。对于策略的训练和优化，需要借鉴评判器对每次动作执行完成后的状态进行评判获得奖励值，评判器的评判规则将会直接约束学习到的策略（如左图，以自动驾驶为例：任务为驾驶车辆从起点到终点在规定跑道内行驶，压黑色边线或者撞到障碍物视为任务失败，其余在规定路线内行驶每次+3分，不在规定路线内行驶每次+1分，快压边线或者距离障碍物近+0分，定义奖励空间为R={r1，r2，……}）
这里写图片描述
训练Agent具备不压边线、不撞障碍物，尽可能在规定路线内行驶的驾驶策略，类似于在游戏上的增强学习，游戏规则是学习到的策略的约束条件。因此的任务的目标可以转化为对于策略的性能函数的评估可以描述为：
注：由于并未引入专家知识辅助训练（易造成训练的过拟合），只是通过try-and-error学习策略，在exploit－explore问题上采用朴素Epsilon-Greedy算法实现。
这里写图片描述
我们训练的最小单位是：Trajectories(轨迹)，Trajectories定义为：从任务的起点到任务失败所有记录数据集合的描述，如Tr={s0，a0，r1，s1，a1，r2，……}。如左图，采用2步长时间差回退方法，可以引申到多步长，回退步长越大，误差迭代的收敛速度就越慢。状态价值的长期期望函数：V。动作价值的长期期望函数： Q。

整个自学习的训练策略可以形象的描述为两个过程：
第一阶段（前向预测）：策略网络通过exploit－explore的方式，从起点开始到任务失败，神经网络（策略参数表征为u向量参数和v向量参数）只做前向预测以及预测之后的相关计算。任务结束，等待第二阶段的策略参数的更新。
第二阶段（策略参数优化）：这一部分，完成Actor模块和Critic模块的相关计算和对策略参数的优化。
这里将策略网络的实现分为两部分：Critic模块和Actor模块。
Critic模块负责通过v向量参数去逼近目标动作价值的长期期望函数，即：可以得到对动作的好坏评价。
Actor模块负责通过u向量参数去更新
这里写图片描述
（1）Critic模块的valued-based网络参数的优化类似于DQN方法，
通过优化函数中的回归模型参数去拟合，模型输出为Q值，因此要构建目标Q值就可以通过1-step TD error的均方误差MSE得到loss函数。
目标Q值：
MSE :
SGD：
涉及有如下计算：
状态价值的长期奖励期望：
动作价值的长期奖励期望：
优化通过最小化MSE：
（2）Actor模块的policy-based网络参数优化方法
Actor模块是建立在Critic模块的基础之上
loss函数：
提高：
模型中加入其它辅助计算网络作为辅助任务，将一些具体的环境特征信息融合：
（1）对隐层的激活控制和像素控制的辅助任务
（2）对奖励值预测的辅助任务，结合历史连续多个状态预测下一时刻奖励值作为训练的目标。增加对上下文信息的理解来解决长期依赖的问题。

方法概述

Agent决策在其他传感器信息的辅助决策基础上，结合不完整观测量的图像信息神经网络计算作为主决策方案实现。对应不同的阶段使用部分独立的训练和预测模型，其中导航模型用于Agent探索行进任务，行为模型增加上下文递归信息融入对环境特征的分析用于其他复杂操作任务。
三层结构，如下图所示：
环境层：网络用于模拟仿真环境完成训练和测试，并结合真实环境进行调试、改进和优化。
感知层：针对不同环境层，由相机和其他感知器获取图像及其他传感器信息作为系统输入。
计算层：主决策结合辅助决策完成对Agent的控制。

这里写图片描述

可行性分析：

决策采用卷积神经网络作为计算和预测模型，神经元参数对某一状态稀疏激活得到Agent所处环境的特征信息，降维计算出解结构的关键部分以建立特征信息与动作行为决策之间的联系。
本方案结合Actor-Critic方法，Actor在策略梯度上通过TRPO算法改进，对动作的输出概率的对数似然值乘上动作的价值评价作为损失去更新策略。在Critic中利用广义优势估计（GAE）方法来平衡样本估计中价值评估的偏差和方差的问题，网络模型如下图所示。
这里写图片描述

基于广义优势Actor-Critic算法

训练的最小单位是：Trajectories(轨迹)，Trajectories定义为：从任务的起点到任务失败所有记录数据集合的描述，如Tr={s0，a0，r1，s1，a1，r2，……}。如下图，采用步长时间差回退方法来对网络进行训练，在通过梯度上微小量的更新来平衡和完成所有状态误差的BP过程，最终矫正得到适用于当前环境的非线性拟合函数模型，如下图所示。
这里写图片描述

dlphay

发布了81 篇原创文章 · 获赞 118 · 访问量 24万+

私信关注