数据聚合方法:DAGGER

罗斯等人[2011]提出了一种名为DAGGER的元算法,该算法试图在学习策略诱导的状态分布下收集专家演示。模仿学习的策略方法[萨顿和巴托,1998]:专家提供正确的行动,但例子的输入分布来自学习者自己的行为。

图显示了DAGGER模仿学习方法的概述。 最简单的DAGGER形式如下。 在第一次迭代时,策略通过专家演示的行为克隆初始化,导致策略 π 1 L π_1^L π1L。 随后,该策略被用来收集轨迹数据集,这些新获得的轨迹和演示的轨迹被聚合成数据集 D D D,用于训练策略 π 2 L π_2^L π2L。 在迭代 n n n,使用策略 π n L π_n^L πnL来收集更多的轨迹,这些轨迹被添加到数据 D D D中。

在这里插入图片描述
在每次迭代中,DAGGER使用具有专家提供的修正(标签)的当前策略生成新示例,将新演示添加到演示数据集,并计算一个新策略以优化该数据集的总体性能。这个图显示了DAGGER的一次迭代。DAGGER的基本版本从一组专家演示中初始化演示数据集,然后交错策略优化和数据生成以增长数据集。更一般地说,聚合数据没有什么特别之处——任何方法,如梯度下降或加权大多数在策略生成中足够稳定并且在迭代中平均表现良好(或者更广泛地说,在每个迭代数据集上运行的所有无遗憾算法)都将实现相同的保证,由于计算原因可能非常首选。下一个策略 π n + 1 L π_{n+1}^L πn+1L训练使 π n + 1 L π_{n+1}^L πn+1L模拟专家在整个数据集 D D D
在这里插入图片描述
通过收集学习者遇到的状态下的专家演示,DAGGER缓解了由学习者政策引起的状态分布与初始演示数据中的状态分布不同的问题。 这种方法大大减少了获得满意性能所需的训练数据集的大小[Ross等人,2011年],并且通常甚至渐近地获得更好的性能。 DAGGER可以解释为将模仿学习减少到具有交互作用的Bagnell[2015]的监督学习。

至关重要的是,匕首的方法并不局限于对以前所有数据的单纯聚合:事实上,任何算法(如梯度下降、牛顿方法的一些变体、指数梯度方法等)具有no-regret性质的,可以用来对每个新收集的数据集进行迭代学习,并实现相关的形式保证。

数据作为演示者:Venkatraman等人。 [2015]扩展了DAGGER,并提出了一个称为数据演示器(DAD)的框架,其中多步预测问题被表示为模仿学习。 在多步预测中,预测误差将随着时间的推移而级联,就像学习策略一样,并且这种预测误差也可以通过数据聚合方法来改进。 最近的工作表明了DAD在控制问题中的有效性[Venkatraman等人,2016年]。

猜你喜欢

转载自blog.csdn.net/wangyifan123456zz/article/details/115050588