元学习文章汇总||文章分类总结||阅读线索

元学习论文总结||小样本学习论文总结

2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019

Meta Learning/ Learning to Learn/ One Shot Learning/ Lifelong Learning

最早的元学习法可以追溯到 20 世纪 80 年代末和 90 年代初,包括 Jürgen Schmidhuber 的理论和 Yoshua、Samy Bengio 的研究工作。最近,元学习再次成为热门话题,相关论文大量涌现,多数论文使用超参数选择(hyperparameter)和神经网络优化(neural network optimization)技术,进而发现优秀的网络架构、实现小样本图像识别和快速强化学习。


meta-learning:a survey 论文的元学习模型分类

(去论文参考文献检索查找)

2 基于模型评估的办法

在第2节中,我们讨论如何纯粹的从模型评估中学习。这些技术可以用于提供通用的算法配置和配置查找区间,以及从经验相似的任务迁移知识。

[1] 关于元数据的介绍, P_{new} ​通常是预先收集的,或者是从元数据资料库中提取的。Vanschoren et al., 2014, 2012

[2] 得到一系列与新任务无关的模型,用新任务评估最合适的那个。一组可选配置 \theta_i ,然后在很多任务 t_j 上评估。然后我们可以为每一个任务构建一个排序,排序算法、权衡模型精度的算法:Brazdil et al., 2003a; Demsar, 2006; Leite et al., 2012;Brazdil et al., 2003a; van Rijn et al., 2015。

[3] 计算所有任务上的平均次序 (Lin, 2010; Abdulrahman et al., 2018)。如果数据不够、不足以构建全局次序,我们可以为每一个先验任务采用基于最了解的配置给出的配置集 (Todorovski and Dzeroski, 1999; Kalousis, 2002),或者返回准线性次序(quasi-linear rankings)(Cook et al., 1996)。

[4] 为找到用于未见任务 t_{new} ​的最佳配置 \theta^* ​:选择前K个配置(Brazdil et al., 2003a),沿排序表依次评估每一个配置。在达到预设的 K 值、时间超限或找到足够精确的模型之后,暂停这个评估过程。在时间有限的情况下,已经表明多对象的排序(包括了训练时间)可以更快的收敛到近似最优模型(Abdulrahman et al., 2018; van Rijn et al., 2015),并且提供了用于算法比较的强大baseline(Abdulrahman et al., 2018; Leite et al., 2012)。

[5] 先拟合一个可微函数 f_j(\theta_i)=P_{i,j} ,它表示所有配置对于任务 t_j 的评估,然后使用梯度下降找到对于每一个任务的最优配置 \theta_j^* (Wistuba et al., 2015a)

[6] 先验评估可以用于学习一个较好的参数配置空间  。可以加速对于优化模型的查找。(De Sa et al., 2017)

[7] 评价超参数重要性的办法:ANOVA方法 (Hutter et al., 2014a)。另一种方法是首先学习一个默认的最佳超参数配置,然后将超参数的重要性定义为可以通过调整超参数(而非保留默认值)来获得的性能增益:Probst et al. (2018)第一步,针对大量任务训练一个算法的代理模型,对算法的所有超参数同时学习出默认值。第二步,对许多配置进行采样,通过最小化所有任务的平均误差来找到一个建议的默认配置。最后,调整每个超参数、看能够获得多少改进,以此来估计每个超参数的重要性(或可调性)。Weerts et al. (2018)独立地学习每一个超参数的默认值

[8] 评估哪些任务彼此相似,利用这一知识训练一个用于对 t_{new} 预测配置 \theta_{new}^* 的元学习器。度量相似性的方法:Relative Landmarks相对(成对)性能差异(Furnkranz and Petrak, 2001)如果任务的所有配置的相对界标相近,则认为任务相似,这种方法的局限在于它只能使用在许多先验任务上评估的配置 \theta_i 。

[9] 构建代理模型来评估相似:用于 t_j 的代理模型可以对 t_{new} 生成精确的预测,那么这两个任务本质上就是相似的。这通常与贝叶斯优化(Rasmussen, 2004)结合,用于确定下一次迭代的 \theta_i​ 。Wistuba et al. (2018)基于高斯过程(Gaussian Processes, GPs)为每个先验任务训练代理模型。使用Epanechnikov二次核(Nadaraya, 1964)度量 t_j 和 t_{new} 的相对界标之间的相似性。Feurer et al. (2018a)提出将独立的高斯过程的预测分布组合起来,这使得组合模型再一次称为高斯过程。权重是通过Lacoste et al. (2014)的不可知贝叶斯集合计算。除了代理模型元数据也可以用于采集函数(acquisition function) (Wistuba et al., 2018)。代理模型仅仅在 P_{i,new} 上训练,但是有待评估的下一个 \theta_i 是由采集函数提供的,该函数是 P_{i,new} 上的期望性能改善 (Jones et al., 1998)以及所有先验 P_{i,j}上的预测性能改善的加权平均。

[10] 热启动多任务学习来评估相似:另一种确定先验任务 t_j 之间相关性的方法是使用 P 学习一个联合任务表示(joint task representation)。Perrone et al. (2017)对于特定任务使用贝叶斯线性回归(Bishop, 2006)代理模型 s_j(\theta_i),并将它们合并入一个前馈神经网络 NN(\theta_i) ,该网络学习一个可以精确预测 P_{i,new} 的联合任务表示。更早的关于多任务学习的工作(Swersky et al., 2013)假定我们已经有了一系列“类似”的原始任务 t_jSpringenberg et al. (2016)同样假设任务之间相关且类似,但是使用贝叶斯神经网络在优化过程中学习它们之间的关系。Golovin et al. (2017)假定了一个跨任务的序列(如时间)。他们的方法构建了一堆高斯过程回归器,为每个任务分配一个。

[11] 其他评估技术:多臂匪徒(multi-armed bandits) (Robbins, 1985)提出了一种用于找到与 t_{new} 最相关的原始任务 t_j 的方法。奖励是根据基于高斯过程的贝叶斯优化器的预测误差定义的。不足之处在于高斯过程的三次缩放降低了这种方法的可扩展性。另一种方法是采用现有的评估 P_{i,j} ,使用汤普森采样(Thompson Sampling) (Thompson, 1933)来获取最优分布 \rho_{max}^j ,然后估计 \rho_{,ax}^j 和 \rho_{max}^{new} 之间的KL散度(KL-divergence) (Kullback and Leibler, 1951)。这些分布合并到一个基于相似度的混合分布中,用于构建一个获取函数,该获取函数预测下一个用于评估的最可信的配置。寻找性能较差的 \Theta 区域。将这些区域排除在候选之外,可以更快找到性能更好的区域。Wistuba et al. (2015b) 使用基于Kendall tau秩相关系数(Kendall, 1938)的任务相似性度量来执行此操作。

[12] 学习曲线:将训练分为若干步骤 s_t ,并在每一步增加一定量的训练数据,就可以度量配置 \theta_i 在任务 t_j 上经过 s_t 步后的性能 P(\theta_i,t_j,s_t)=P_{i,j,t} ,即时间步骤 t_j 期间的学习曲线(learning curve)。学习曲线可以广泛用于在给定任务上加速超参数的优化(Kohavi and John, 1995; Provost et al., 1999; Swersky et al., 2014; Chandrashekaran and Lane, 2017)。然而在元学习中,学习曲线蕴含的信息在不同任务之间迁徙。在评估新任务 t_{new} 的配置时,我们可以在迭代一定次数 r<t 之后停止训练,使用获得的部分学习曲线、基于在其他任务上的先前经验来预测配置在整个数据集上的性能,以约定是否继续训练。这可以极大的加速对良好配置的查找过程。可以假定相似任务的学习曲线也相似,将“最近邻”的完整曲线推广至新的局部曲线(Leite and Brazdil, 2005, 2007)用于预测(任务相似性)。这种方法在与激活测试(active testing)的结合中很成功(Leite and Brazdil, 2010)。使用包含了训练时间的多角度评价指标度量可以加速这种方法(van Rijn et al., 2015)。几种方法只在预测在神经网络搜索过程中的学习曲线 (Elsken et al., 2018),但是该工作并没有利用先前在其他任务中观察到的学习曲线。

3 从任务属性中学习

[1] 最佳的元特征数据集取决于具体应用 (Bilalli et al., 2017)。需要系统的提取、汇总这些特征(Pinto et al., 2016)。将所有元特征标准化 (Bardenet et al., 2013)、执行特征选择 (Todorovski et al., 2000)或采用降维技术(如PCA)(Bilalli et al., 2017)。在学习元模型时,人们也可以使用关系元学习器(relational meta-learners)(Todorovski和Dzeroski,1999)或基于案例的推理方法(case-based reasoning methods)(Lindner和Studer,1999; Hilario和Kalousis,2001; Kalousis和Hilario,2003)。

[2] 除了这些通用的元特征,人们也指定了很多更具象的元特征。对于流形数据,人们可以使用流形标记(van Rijn et al., 2018, 2014);对于时间序列数据,可以计算自相关系数或者回归模型的斜率(Arinze, 1994; Prudˆencio and Ludermir, 2004; dos Santos et al., 2004);对于无监督问题,可以采用不同方式对数据进行聚类,并提取这些聚类的属性 (Soares et al., 2009)。在许多应用场景中,可以利用领域相关的特定信息(Smith-Miles, 2009; Olier et al., 2018)。

[3] Sun and Pfahringer (2013)实现了二元的元特征.也可以完全基于现有的元数据 P 学习联合表示之前在2.3节讨论过如何使用前馈神经网络实现之(Perrone et al., 2017)。如果任务之间共享输入空间,比如输入是相同分辨率的图像,那么可以使用Siamese网络学习元特征表示 (Kim et al., 2017)。由于在Siamese网络中两个网络的模型参数绑定,两个相似的任务就会映射到潜在元特征空间中的同一个区域。这可以用于对贝叶斯超参数优化(Bayesian hyperparameter optimization) (Kim et al., 2017)和神经结构搜索(neural architecture search) (Afif, 2018)的暖启动。

[4] 从类似的任务开始热身优化:Gomes et al. (Gomes et al., 2012)基于向量 m(t_j) 和 m(t_{new}) 之间的 L_1 距离找到前 k 个最为相似的先前任务 t_j ,以此获取初始化配置.Reif et al. (2012)采用了一种非常简单的方式,使用 15 个简单的、统计学的标记元特征。他们使用前向选择技术找到最有用的元特征,然后使用修改的高斯变异操作(modified Gaussian mutation operation)对标准遗传算法(GAlib)进行暖启动。其他的方法包括使用元特征的主动测试变体(2.3节)(Miranda and Prudencio, 2013; Leite et al., 2012),但是性能没有参考方法好。

SCoT (Bardenet et al., 2013)训练一个单模型的代理排序模型 f:M\times \Theta \rightarrow R ,它预测 \theta_i 在任务 t_j 上的秩。Schilling et al. (2015)使用修改的多层感知机作为代理模型,该多层感知机在第一层使用基于因子分解机(factorization machines)(Rendle, 2010)的修改版激活函数,旨在为每一个任务学习潜在的表示、用于对任务相似性建模。由于该模型不能表示不确定性,训练100个多层感知机以获取预测均值和模拟方差。

在所有先前元数据上训练单个代理模型通常具有更差的可扩展性。Yogatama and Mann (2014)构建了单个贝叶斯代理模型,但是仅仅包含与 t_{new} 相似的任务。Feurer et al. (2014)提出了一种更简单、可扩展性更强的方法,通过对所有先前任务进行排序来对贝叶斯优化进行暖启动。这种方法与Gomes et al. (2012)的方法类似,但是包含了46个简单、统计、标记的元特征。这种缓启动方法用起来非常有效,并且与集成相结合 (Feurer et al., 2015)最后,可以使用协同过滤(collaborative filtering)获取可信配置(Stern et al., 2010)。

Yang et al. (2018)使用D-优化实验设计来对评估 P_{i,new} 的初始化集合进行采样。他们同时预测性能和运行时间,获取又精确又快速的暖启动配置集合。Misir and Sebag (2013)和Mısır and Sebag (2017)利用元特征解决冷启动问题。Fusi et al. (2017) 也使用元特征,他们遵循和 Feurer et al. (2015)同样的步骤,使用概率矩阵因子分解方法(采用贝叶斯优化)来进一步优化配置 \theta_i 。这种方法也可以输出对于任务和配置的可能有用的嵌入。

[5]  通过构建元模型 L ,我们可以学习到任务的元特征与应用场景下的特定配置之间的复杂关系,该元模型对给定新任务 t_{new} 的元特征 M 输出最优配置 \Theta_{new}^* 。在构建用于算法选择(Bensusan and Giraud-Carrier, 2000; Pfahringer et al., 2000; Kalousis, 2002; Bischl et al., 2016)和超参数配置 (Kuba et al., 2002; Soares et al., 2004; Ali and Smith-Miles, 2006b; Nisioti et al., 2018)的元模型方面,已经有大量的先前工作 (Brazdil et al., 2009; Lemke et al., 2015; Giraud-Carrier, 2008; Luo, 2016)。实验表明,提升和集成树通常输出最佳预测,然而这需要使用准确的元特征 (Kalousis and Hilario, 2001; Kopf and Iglezakis, 2002)。

[6] 优先级排序:元模型可以用于生成前 k 个最可信的配置排序。一种方法是构建k近邻元模型用于预测相似的任务,然后对这些相似任务的最佳配置进行排序 (Brazdil et al., 2003b; dos Santos et al., 2004)。这与3.3节中讨论的方法类似,但与后续的优化方法无关。专用于排序的元模型表现出良好的效果,如预测聚类树(predictive clustering trees)(Todorovski et al., 2002)和标签排序树(label ranking trees)(Cheng et al., 2009)。近似排序树森林(Approximate Ranking Trees Forest, ART Forest)(Sun and Pfahringer, 2013)是快速排序树的集成,这种方法特别有效。AutoBagging (Pinto et al., 2017)对包含有4个不同Bagging超参的Bagging工作流进行排序,它使用基于XGBoost的排序器,在140个OpenML数据集、146个元特征上训练。Lorena et al. (2018) 基于数据的复杂程度,使用KNN元模型和一种新的元特征来获取用于回归问题的SVM的推荐配置。

[7] 性能估计:给定任务和元特征,元模型可以直接预测配置的性能,如准确率或训练时间.早期的工作使用线性回归或基于规则的回归预测离散配置集合的性能,并对它们进行排序(Bensusan and Kalousis, 2001; Kopf et al., 2000)。 Guerra et al. (Guerra et al., 2008)为每个分类算法训练一个SVM元回归器,用于预测其在默认配置下、对于新任务 t_{new} 在给定元特征的情况下的准确率。Reif et al. (Reif et al., 2014)在更多的元数据上训练类似的元回归器,预测其优化性能。Davis et al. (Davis and Giraud-Carrier, 2018) 使用基于多层感知机的元学习器,预测特定算法配置的性能

除了预测可预测的性能,元回归器也可以用于预测算法的训练/预测时间,如使用SVM回归器在元数据上训练(Reif et al., 2011),通过通用算法调整自身(Priya et al., 2012)。Yang et al. (2018)仅仅基于实例和特征的数量,使用多项式回归器预测配置的运行时间。Hutter et al. (2014b)给出了预测算法在不同领域上的运行时间的通用论述。

在3..3节中论述的部分工作可以认为是采用基于距离的元模型对贝叶斯优化(Feurer et al., 2014; Fusi et al., 2017)或发展算法(Gomes et al., 2012; Reif et al., 2012)进行暖启动。原则上,这里也可以使用其他元模型。

构建用于预测配置在给定任务上的性能的代理模型。 ( Eggensperger et al., 2018)。可以将对每个任务的预测结合起来,用于对新任务 t_{new} 的暖启动或引导其他优化技术(Feurer et al., 2018a; Perrone et al., 2017; Springenberg et al., 2016; Wistuba et al., 2018),就像在2.3节中讨论的那样。虽然可以基于任务相似性、使用元特征对每个任务的预测进行结合,但是收集新的观测结果 P_{i,new} 最终更为有效,这是因为它们允许采用每一个新的观测结果来提炼任务相似性(Feurer et al., 2018b; Wistuba et al., 2018; Leite et al., 2012)。

[8] Pipeline Synthesis合成:设计机器学习方法的时候, (Serban et al., 2013)可用配置的数量飞速增长,因此充分利用先前经验至关重要。一种方法是在控制搜索域的时候对方法施加一个混合结构,该结构完全由超参数集描述。然后就可以使用在相似任务上最可信的方法来对贝叶斯优化进行暖启动 (Feurer et al., 2015; Fusi et al., 2017)。

其他的方法指出机器学习流程(pipeline)的具体步骤(Post et al., 2016; Strang et al., 2018),可以用在构建更大的流程上,如planningg (Nguyen et al., 2014; Kietz et al., 2012; Gil et al., 2018; Wever et al., 2018) 或者进化技术(evolutionary techniques) (Olson et al., 2016; Sun et al., 2013)。 Nguyen et al. (2014)使用以元学习器推荐的组件为基础的波束搜索(beam search)来构建流程,就先前成功的流程样例进行了自训练。Bilalli et al. (2018)预测针对给定的分类算法的预处理技术。它们为每一个目标分类算法构建一个元模型,其中给定了元特征 t_{new},要求预测哪些预处理技术应该包含在机器学习流程中。类似的,Schoenfeld et al. (2018)构建元模型,用于对预处理算法在何种情况下将改善特定分类器的准确率或运行时间进行预测。

AlphaD3M (Drori et al., 2018)使用了自发强化学习的方法,其中当前状态由当前流程表示,动作包括了对流程组件的添加、删除和替换。一个蒙特卡洛搜索(Monte Carlo Tree Search)被用于生成流程,对其进行的评估被用于训练递归神经网络(LSTM),该网络预测流程的性能,从而在下一轮中产生MCTS进行某种动作的概率。状态描述还包括当前任务的元特征,这样就允许神经网络跨任务学习

[9] 为了减少待优化的参数数量,并且在时间有限的情况下节省宝贵的优化时间,=在给定手头任务的元特征的情况下,人们提出元模型来预测给定的算法是否值得调整 (Ridd and Giraud-Carrier, 2014),以及和增加额外时间投资相比对特定算法的调整可以带来多大收益 (Sanders and Giraud-Carrier, 2017)。人们对特定学习算法进行了更有针对性的研究,提出元模型用于预测何时需要调整SVM (Mantovani et al., 2015a)、对于给定任务的优良SVM默认超参数(包括可解释的元模型) (Mantovani et al., 2015b)以及如何调整决策树 (Mantovani et al., 2016)。

4 Learning from Prior Models从模型中学习

[1] 在迁移学习(transfer learning) (Thrun and Pratt, 1998)中,我们采用在一个或多个源任务 t_j 上训练的模型,并将它们用作在类似目标任务 t_{new} 上创建模型的起点。迁移学习方法已经被提出于核方法(Evgeniou et al., 2005; Evgeniou and Pontil, 2004)、参数贝叶斯模型(Rosenstein et al., 2005; Raina et al., 2006; Bakker and Heskes, 2003)、贝叶斯网络(Niculescu-Mizil and Caruana, 2005)、聚类 (Thrun, 1998) 和强化学习 (Hengst, 2002; Dietterich et al., 2002)。

产生预训练的模型,然后可以使用在 t_{new} 上可用的训练数据进行进一步的微调(Thrun and Mitchell, 1995; Baxter, 1996; Bengio, 2012; Caruana, 1995)。在某些情况下,源网络可能需要在迁移之前做修正(Sharkey and Sharkey, 1993)。

特别大的图像数据集如ImageNet (Krizhevsky et al., 2012)已被证明可以产生可良好迁移至其他任务的预训练模型(Donahue et al., 2014; Sharif Razavian et al., 2014)。然而,当目标任务不那么相似时,这种方法不能很好的起作用(Yosinski et al., 2014)。我们可以有目的地为元学习器提供归纳偏见(inductive bias),使它们能够更快地学习新任务,而不是希望预训练模型能够更好地迁移到新问题中.

[2] 可以使用梯度下降来联合优化网络和训练算法但是很难训练。 后来的工作使用了跨任务的强化学习来将搜索策略(Schmidhuber et al., 1997) 或用于梯度下降的学习率 (Daniel et al., 2016)适应到手头的任务。受到反向传播不太可能是我们自己大脑的学习机制这一感觉的启发,Bengio et al. (1995) 用简单的受生物学启发的参数规则(或演化规则 (Chalmers, 1991))取代反向传播,来更新突触权重。在一组输入任务中使用例如梯度下降或演化的方法来优化参数。Runarsson and Jonsson (2000)使用单层神经网络取代这些参数规则。Santoro et al. (2016b) 改为使用记忆增强神经网络,用于学习如何存储和检索先前分类任务的“记忆”。Hochreiter et al. (2001) 使用LSTM(Hochreiter and Schmidhuber, 1997) 作为元学习器,来训练多层感知机。

[3] 元学习优化器:Andrychowicz et al. (2016)将优化器(如随机梯度下降)替换为在多个先前任务上训练的LSTM。元学习器(优化器)的损失被定义为基础学习器(优化器)的损失之和,使用梯度下降进行优化。在每一步中,元学习器基于前一步的学习模型权重 \{w_k\} 以及当前性能梯度,选择估计的权重更新,以最大程度地减少优化器的损失。后来的工作使用梯度下降在合成函数上训练优化器来通用化这种方法(Chen et al., 2016) 。这允许元学习器对优化器进行优化,即便它们无法访问到梯度。同时,Li and Malik (2016)从强化学习的角度提出了学习优化算法的框架。它将任意特定优化算法表示为策略,然后通过引导策略搜索学习此策略。后续工作(Li and Malik, 2017)展示了如何利用这种方法来学习到(浅层)神经网络的优化算法

【小样本学习】

希望构建能够做到这一点的机器学习模型(Lake et al., 2017)。这方面的一个特定例子是“K样本N路”(K-shot N-way)分类,其中我们给出某些类(如对象)的许多样例(如图像),希望学习到一个分类器 l_{new} ,该分类器可以仅仅使用每个新类的 K 个样本对 N 个新类进行分类

[1] 早期的关于单样本学习的工作主要基于手动设计的特征 (Fei-Fei et al., 2006; Fei-Fei, 2006; Fink, 2005; Bart and Ullman, 2005)。然而,通过元学习,我们希望以端到端(不用人的参与)的方式学习所有任务的共同特征表示。

Vinyals et al. (2016)指出,如果要从非常少的数据中学习,应该寻找非参数模型(如K近邻),它们使用记忆组件(memory component),而不是学习很多模型参数。

[2] Snell et al. (2017)提出原型网络(Prototypical Networks),它将样例映射到 p 维向量空间,是的给定输出类别的样例彼此接近。然后它为每一个类别计算原型(平均向量)。新样例会被映射到相同的向量空间,使用距离度量在所有可能的类别间创建softmax。Ren et al. (2018)将这种方法扩展到半监督学习。

[3] Ravi and Larochelle (2017)使用基于LSTM的元学习器来学习用于训练神经网络学习器的更新规则。对于每一个新样例,学习器将当前梯度和损失返回给LSTM元学习器,然后LSTM元学习器会更新学习器的模型参数 \{w_k\} 。元学习器在所有先前任务上进行训练。

【MAML】

[4] 模型不可知元学习(Model-Agnostic Meta-Learning, MAML) (Finn et al., 2017) 并不试图更新学习规则,而是学习模型的初始化参数 W_{init} ,它能更好的概括类似的任务。开始的权重的随机初始化 \{w_k\} ,它迭代的选择一批先前任务,对每一个任务在 K 个样例上训练学习器,计算梯度和(在测试集上)损失。然后,对元梯度进行反向传播,在更容易更新的方向上更新权重 \{w_k\} 。换句话说,在每次迭代之后,权重 \{w_k\} 会变成更易于对任意任务进行微调的 W_{init} 。Finn and Levine (2017)表明,当使用足够深的ReLU网络和正确的损失时,MAML可以近似任意学习算法。他们同时还得出结论,MAML初始化方法对于小样本上的过拟合更具有弹性(更容易从过拟合中恢复),相比于基于LSTM的元学习方法的通用性更好。Grant et al. (2018) 呈现了MAML的新颖推导和扩展,说明该算法可以理解为分层贝叶斯模型中对先验分布的参数模型的推断。

[5] PERPTILE (Nichol et al., 2018) 是对MAML的近似,这种方法对给定任务的 K 次迭代执行算计梯度下降,然后在获得的权重方向逐渐移动初始化权重。这种方法基于这样一种直觉,即每个任务可能有一组以上的最佳权重 \{w_i^*\} ,目标是为每个任务找到接近至少其中一个 \{w_i^*\} 的 W_{init} 。

[6] 最后,我们可以从黑盒神经网络中导出元学习器。Santoro et al. (2016a) 提出记忆增强神经网络(Memory-Augmented Neural Network, MANNs),这种方法训练神经图灵机(Neural Turing Machine, NTM) (Graves et al., 2014) 作为元学习器,这是一种具有增强记忆能力的神经网络。这个元学习器可以记住有关先前任务的信息并利用这些信息学习到学习器 l_{new} 。SNAIL (Mishra et al., 2018)是一种通用的元学习器架构,由交织的时间卷积和因果关注层组成。卷积网络学习到训练样例(图像)的通用特征向量,以将来自过去经验的信息进行聚合因果关注层从所收集的经验中挑选出用于推广到新任务的信息。

【监督学习之外】

[7] 元学习当然不仅限于(半)监督学习,它也已经成功应用于解决一系列任务,如强化学习,主动学习,密度估计和项目推荐。在监督元学习器时,基础学习器可能是无监督的,但是其他组合也是有可能的。

[8] Duan et al. (2016) 提出了一种端到端的强化学习(Reinforcement Learning, RL)方法,这种方法由针对特定任务的快速RL算法组成这些算法由通用慢速RL算法所引导。这些任务是相互关联的马尔科夫决策过程(Markov Decision Process, MDPs)。元RL算法被建模为RNN,以接受其观测结果、动作、奖励和终止标志。RNN的激活状态存储了快速RL学习器的状态,通过观测夸人物的快速学习器的性能来学习RNN的权重。

Wang et al. (2016) 提出使用深度RL算法训练RNN,获取先前间隔的动作和奖励,用于学习用于特定任务的基准RL算法。这种方法不是使用诸如MDP之类的相对非结构化的任务,而是关注结构化任务分布(如依赖性匪徒),其中元RL算法可以利用固有任务结构。

[9] Pang et al. (2018) 提供了一种用于主动学习(Active Learning, AL)的元学习方法。基准学习器可以是任意的二分类器,元学习器是一个深度RL网络由深度神经网络和策略网络组成,其中深度神经网络学习跨任务的AL问题表示,策略网络学习最优策略,在网络中被参数化为权重。元学习器获取当前状态(无标签点集和基础分类器状态)和奖励(基础分类器的性能),输出质询概率,即在未标记的集合中指向下一次质询的概率。

[10] Reed et al. (2017) 提示了一种用于密度估计(Density Estimation, DE)的小样本学习方法。目标是学习少量具有特定概念的图像的概率分布以用于生成具有这种概念的图像,或者计算图像具有这种概念的概率。这种方法使用自动回归图像模型,将联合分布分解为单像素因子,通常以(许多)目标概念的样例作为条件。使用了基于MAML的小样本学习器,在事多其他(类似的)概念的样例上进行训练。

[11] Vartak et al. (2017) 解决了矩阵分解中的冷启动问题。他们提出一种深度神经网络结构,用于学习一个(基础)神经网络,其偏差根据任务信息进行适应。虽然神经网络推荐器的结构和权重保持固定,但是元学习器可以学习到如何根据每个用户的项目历史来适应偏差。

所有这些最近的新的发展表明,通过元学习角度(meta-learning lens)观察问题,并找到新的数据驱动的方法,来取代基于手工的基础学习器,是富有成效的。


0 综述

[1] Meta-Learning: A Survey

[2] a perspective view and survey of meta-learning

1 Legacy Papers

[1] Nicolas Schweighofer and Kenji Doya. Meta-learning in reinforcement learning. Neural Networks, 16(1):5–9, 2003.已读[2] Sepp Hochreiter, A Steven Younger, and Peter R Conwell. Learning to learn using gradient descent. In International Conference on Artificial Neural Networks, pages 87–94. Springer, 2001.已读

[3] Kunikazu Kobayashi, Hiroyuki Mizoue, Takashi Kuremoto, and Masanao Obayashi. A meta-learning method based on temporal difference error. In International Conference on Neural Information Processing, pages 530–537. Springer, 2009.

[4] Sebastian Thrun and Lorien Pratt. Learning to learn: Introduction and overview. In Learning to learn, pages 3–17. Springer, 1998.没有免费版

[5] A Steven Younger, Sepp Hochreiter, and Peter R Conwell. Meta-learning with backpropagation. In Neural Networks, 2001. Proceedings. IJCNN’01. International Joint Conference on, volume 3. IEEE, 2001.已读

[6] Ricardo Vilalta and Youssef Drissi. A perspective view and survey of meta-learning. Artificial Intelligence Review, 18(2):77–95, 2002.

[7] Hugo Larochelle, Dumitru Erhan, and Yoshua Bengio. Zero-data learning of new tasks. In AAAI, volume 1, pp. 3, 2008.

[8] Brenden M Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua B Tenenbaum.One shot learning of simple visual concepts. In Proceedings of the 33rd Annual Conference of the Cognitive Science Society, volume 172, pp. 2, 2011.

[9] Li Fei-Fei, Rob Fergus, and Pietro Perona. One-shot learning of object categories. IEEE transactions on pattern analysis and machine intelligence, 28(4):594–611, 2006.

[10] Ju ̈rgen Schmidhuber. A neural network that embeds its own meta-levels. In Neural Networks, 1993., IEEE International Conference on, pp. 407–412. IEEE, 1993.

[11] Sebastian Thrun. Lifelong learning algorithms. In Learning to learn, pp. 181–209. Springer, 1998.

[12] Yoshua Bengio, Samy Bengio, and Jocelyn Cloutier. Learning a synaptic learning rule. Universite ́ de Montre ́al, De ́partement d’informatique et de recherche ope ́rationnelle, 1990.

[13] Samy Bengio, Yoshua Bengio, and Jocelyn Cloutier. On the search for new learning rules for ANNs. Neural Processing Letters, 2(4):26–30, 1995.

[14] Rich Caruana. Learning many related tasks at the same time with backpropagation. Advances in neural information processing systems, pp. 657–664, 1995.

[15] Giraud-Carrier, Christophe, Vilalta, Ricardo, and Brazdil, Pavel. Introduction to the special issue on meta-learning. Machine learning, 54(3):187–193, 2004.

[16] Jankowski, Norbert, Duch, Włodzisław, and Grabczewski, Krzysztof. Meta-learning in computational intelligence, volume 358. Springer Science & Business Media, 2011.

[17] N. E. Cotter and P. R. Conwell. Fixed-weight networks can learn. In International Joint Conference on Neural Networks, pages 553–559, 1990.

[18] J. Schmidhuber. Evolutionary principles in self-referential learning; On learning how to learn: The meta-meta-... hook. PhD thesis, Institut f. Informatik, Tech. Univ. Munich, 1987.

[19] J. Schmidhuber. Learning to control fast-weight memories: An alternative to dynamic recurrent networks. Neural Computation, 4(1):131–139, 1992.

[20] Jurgen Schmidhuber, Jieyu Zhao, and Marco Wiering. Simple principles of metalearning. Technical report, SEE, 1996.

[21] Thrun, Sebastian and Pratt, Lorien. Learning to learn. Springer Science & Business Media, 1998.

2 Recent Papers

[1] Andrychowicz, Marcin, Denil, Misha, Gomez, Sergio, Hoffman, Matthew W, Pfau, David, Schaul, Tom, and de Freitas, Nando. Learning to learn by gradient descent by gradient descent. In Advances in Neural Information Processing Systems, pp. 3981–3989, 2016

参考介绍:https://blog.csdn.net/weixin_41803874/article/details/89846358

[2] Ba, Jimmy, Hinton, Geoffrey E, Mnih, Volodymyr, Leibo, Joel Z, and Ionescu, Catalin. Using fast weights to attend to the recent past. In Advances In Neural Information Processing Systems, pp. 4331–4339, 2016

[3] David Ha, Andrew Dai and Le, Quoc V. Hypernetworks. In ICLR 2017, 2017.

[4] Koch, Gregory. Siamese neural networks for one-shot image recognition. PhD thesis, University of Toronto, 2015.

[5] Lake, Brenden M, Salakhutdinov, Ruslan R, and Tenenbaum, Josh. One-shot learning by inverting a compositional causal process. In Advances in neural information processing systems, pp. 2526–2534, 2013.

[6] Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap, Timothy. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.

[7] Vinyals, Oriol, Blundell, Charles, Lillicrap, Tim, Wierstra, Daan, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.

[8] Kaiser, Lukasz, Nachum, Ofir, Roy, Aurko, and Bengio, Samy. Learning to remember rare events. In ICLR 2017, 2017.

[9] P. Mirowski, R. Pascanu, F. Viola, H. Soyer, A. Ballard, A. Banino, M. Denil, R. Goroshin, L. Sifre, K. Kavukcuoglu, D. Kumaran, and R. Hadsell. Learning to navigate in complex environments. Techni- cal report, DeepMind, 2016.

[10] B. Zoph and Q. V. Le. Neural architecture search with reinforcement learning. Technical report, submitted to ICLR 2017, 2016.

[11] Y. Duan, J. Schulman, X. Chen, P. Bartlett, I. Sutskever, and P. Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. Technical report, UC Berkeley and OpenAI, 2016.

[12] Li, Ke and Malik, Jitendra. Learning to optimize. International Conference on Learning Representations (ICLR), 2017.

[13] Edwards, Harrison and Storkey, Amos. Towards a neural statistician. International Conference on Learning Representations (ICLR), 2017.

[14] Parisotto, Emilio, Ba, Jimmy Lei, and Salakhutdinov, Ruslan. Actor-mimic: Deep multitask and transfer reinforcement learning. International Conference on Learning Representations (ICLR), 2016.

[15] Ravi, Sachin and Larochelle, Hugo. Optimization as a model for few-shot learning. In International Conference on Learning Representations (ICLR), 2017.

参考介绍:https://blog.csdn.net/weixin_41803874/article/details/89314900

[16] Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. arXiv preprint arXiv:1703.03400.

[17] Chen, Y., Hoffman, M. W., Colmenarejo, S. G., Denil, M., Lillicrap, T. P., & de Freitas, N. (2016). Learning to Learn for Global Optimization of Black Box Functions. arXiv preprint arXiv:1611.03824.

[18] Munkhdalai T, Yu H. Meta Networks. arXiv preprint arXiv:1703.00837, 2017.

[19] Duan Y, Andrychowicz M, Stadie B, et al. One-Shot Imitation Learning. arXiv preprint arXiv:1703.07326, 2017.

[20] Woodward M, Finn C. Active One-shot Learning. arXiv preprint arXiv:1702.06559, 2017.

[21] Wichrowska O, Maheswaranathan N, Hoffman M W, et al. Learned Optimizers that Scale and Generalize. arXiv preprint arXiv:1703.04813, 2017.

[22] Hariharan, Bharath, and Ross Girshick. Low-shot visual object recognition arXiv preprint arXiv:1606.02819 (2016).

[23] Wang J X, Kurth-Nelson Z, Tirumala D, et al. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.

[24] Flood Sung, Zhang L, Xiang T, Hospedales T, et al. Learning to Learn: Meta-Critic Networks for Sample Efficient Learning. arXiv preprint arXiv:1706.09529, 2017.

[25] Li Z, Zhou F, Chen F, et al. Meta-SGD: Learning to Learn Quickly for Few Shot Learning. arXiv preprint arXiv:1707.09835, 2017.

[26] Mishra N, Rohaninejad M, Chen X, et al. Meta-Learning with Temporal Convolutions. arXiv preprint arXiv:1707.03141, 2017.

[27] Frans K, Ho J, Chen X, et al. Meta Learning Shared Hierarchies. arXiv preprint arXiv:1710.09767, 2017.

[28] Finn C, Yu T, Zhang T, et al. One-shot visual imitation learning via meta-learning. arXiv preprint arXiv:1709.04905, 2017.

[29] Flood Sung, Yongxin Yang, Zhang Li, Xiang T,Philip Torr, Hospedales T, et al Learning to Compare: Relation Network for Few Shot Learning. arXiv preprint arXiv:1711.06025, 2017.

[30] Brenden M Lake, Ruslan Salakhutdinov, Joshua B Tenenbaum Human-level concept learning through probabilistic program induction. In Science, volume 350, pp. 1332-1338, 2015.

[32] Xu D, Nair S, Zhu Y, et al. Neural task programming: Learning to generalize across hierarchical tasks. arXiv preprint arXiv:1710.01813, 2017.

[33] Bertinetto, L., Henriques, J. F., Valmadre, J., Torr, P., & Vedaldi, A. (2016). Learning feed-forward one-shot learners. In Advances in Neural Information Processing Systems (pp. 523-531).

[34] Wang, Yu-Xiong, and Martial Hebert. Learning to learn: Model regression networks for easy small sample learning.European Conference on Computer Vision. Springer International Publishing, 2016.

[35] Triantafillou, Eleni, Hugo Larochelle, Jake Snell, Josh Tenenbaum, Kevin Jordan Swersky, Mengye Ren, Richard Zemel, and Sachin Ravi. Meta-Learning for Semi-Supervised Few-Shot Classification. ICLR 2018.

[36] Rabinowitz, Neil C., Frank Perbet, H. Francis Song, Chiyuan Zhang, S. M. Eslami, and Matthew Botvinick. Machine Theory of Mind. arXiv preprint arXiv:1802.07740 (2018).

[37] Reed, Scott, Yutian Chen, Thomas Paine, Aäron van den Oord, S. M. Eslami, Danilo Rezende, Oriol Vinyals, and Nando de Freitas. Few-shot Autoregressive Density Estimation: Towards Learning to Learn Distributions. arXiv preprint arXiv:1710.10304 (2017).

[38] Xu, Zhongwen, Hado van Hasselt, and David Silver. Meta-Gradient Reinforcement Learning arXiv preprint arXiv:1805.09801 (2018).

[39] Xu, Kelvin, Ellis Ratner, Anca Dragan, Sergey Levine, and Chelsea Finn. Learning a Prior over Intent via Meta-Inverse Reinforcement Learning arXiv preprint arXiv:1805.12573 (2018).

[40] Finn, Chelsea, Kelvin Xu, and Sergey Levine. Probabilistic Model-Agnostic Meta-Learning arXiv preprint arXiv:1806.02817 (2018).

[41] Gupta, Abhishek, Benjamin Eysenbach, Chelsea Finn, and Sergey Levine. Unsupervised Meta-Learning for Reinforcement Learning arXiv preprint arXiv:1806.04640(2018).

[42] Yoon, Sung Whan, Jun Seo, and Jaekyun Moon. Meta Learner with Linear Nulling arXiv preprint arXiv:1806.01010 (2018).

[43] Kim, Taesup, Jaesik Yoon, Ousmane Dia, Sungwoong Kim, Yoshua Bengio, and Sungjin Ahn. Bayesian Model-Agnostic Meta-Learning arXiv preprint arXiv:1806.03836 (2018).

[44] Gupta, Abhishek, Russell Mendonca, YuXuan Liu, Pieter Abbeel, and Sergey Levine. Meta-Reinforcement Learning of Structured Exploration Strategies arXiv preprint arXiv:1802.07245 (2018).

[45] Clavera, Ignasi, Anusha Nagabandi, Ronald S. Fearing, Pieter Abbeel, Sergey Levine, and Chelsea Finn. Learning to Adapt: Meta-Learning for Model-Based Control arXiv preprint arXiv:1803.11347 (2018).

[46] Houthooft, Rein, Richard Y. Chen, Phillip Isola, Bradly C. Stadie, Filip Wolski, Jonathan Ho, and Pieter Abbeel. Evolved policy gradients arXiv preprint arXiv:1802.04821 (2018).

[47] Xu, Tianbing, Qiang Liu, Liang Zhao, Wei Xu, and Jian Peng. Learning to Explore with Meta-Policy Gradient arXiv preprint arXiv:1803.05044 (2018).

[48] Stadie, Bradly C., Ge Yang, Rein Houthooft, Xi Chen, Yan Duan, Yuhuai Wu, Pieter Abbeel, and Ilya Sutskever. Some considerations on learning to explore via meta-reinforcement learning arXiv preprint arXiv:1803.01118 (2018).

[49] Luca Bertinetto, Joao F. Henriques, Philip Torr and Andrea Vedaldi. Meta-learning with differentiable closed-form solvers arXiv preprint arXiv:1805.08136 (2018).

[50] Yoonho Lee, Seungjin Choi. Gradient-Based Meta-Learning with Learned Layerwise Metric and Subspace. ICML 2018.


最前沿:百家争鸣的Meta Learning/Learning to learn

1 前言

Meta Learning 元学习或者叫做 Learning to Learn 学会学习 已经成为继Reinforcement Learning 增强学习之后又一个重要的研究分支(以后仅称为Meta Learning)。对于人工智能的理论研究,呈现出了

Artificial Intelligence --> Machine Learning --> Deep Learning --> Deep Reinforcement Learning --> Deep Meta Learning

这样的趋势。

之所以会这样发展完全取决于当前人工智能的发展。在Machine Learning时代,复杂一点的分类问题效果就不好了,Deep Learning深度学习的出现基本上解决了一对一映射的问题,比如说图像分类,一个输入对一个输出,因此出现了AlexNet这样的里程碑式的成果。但如果输出对下一个输入还有影响呢?也就是sequential decision making的问题,单一的深度学习就解决不了了,这个时候Reinforcement Learning增强学习就出来了,Deep Learning + Reinforcement Learning = Deep Reinforcement Learning深度增强学习。有了深度增强学习,序列决策初步取得成效,因此,出现了AlphaGo这样的里程碑式的成果。但是,新的问题又出来了,深度增强学习太依赖于巨量的训练,并且需要精确的Reward,对于现实世界的很多问题,比如机器人学习,没有好的reward,也没办法无限量训练,怎么办?这就需要能够快速学习。而人类之所以能够快速学习的关键是人类具备学会学习的能力,能够充分的利用以往的知识经验来指导新任务的学习,因此Meta Learning成为新的攻克的方向。

以此同时,星际2 DeepMind使用现有深度增强学习算法失效说明了目前的深度增强学习算法很难应对过于复杂的动作空间的情况,特别是需要真正意义的战略战术思考的问题。这引到了通用人工智能中极其核心的一个问题就是要让人工智能自己学会思考,学会推理。AlphaGo在我看来在棋盘特征输入到神经网络的过程中完成了思考,但是围棋的动作空间毕竟非常有限,也就是几百个选择,这和星际2几乎无穷的选择对比就差太多了(按屏幕分辨率*鼠标加键盘的按键 = 1920*1080*10 约等于20,000,000种选择)。然而在如此巨量选择的情况下,人类依然没问题,关键是人类通过确定的战略战术大幅度降低了选择范围(比如当前目标就是造人,挖矿)因此如何使人工智能能够学会思考,构造战术非常关键。这个问题甚至比快速学习还要困难,但是Meta Learning因为具备学会学习的能力,或许也可以学会思考。因此,Meta Learning依然是学会思考这种高难度问题的潜在解决方法之一。

经过以上的分析,不过是为了得出下面的结论:

Meta Learning是实现通用人工智能的关键!

在本文之前,专栏已经发布了两篇和Meta Learning相关的文章:

  1. 学会学习Learning to Learn:让AI拥有核心价值观从而实现快速学习
  2. 机器人革命与学会学习Learning to Learn

之前采用Learning to Learn这个名称是希望让更多的知友明白这个概念,从本篇开始,我们会直接使用Meta Learning这个名称(其实只是因为这个名称看起来更专业更酷?)

关于Meta Learning的概念本文就不介绍了,在上面列出的两篇Blog已有讲解。本文将和大家分享一下Meta Learning的一些最前沿的研究进展,可以说是百家争鸣的阶段。

2 Meta Learning百花齐放的研究思路

为什么说Meta Learning的研究是百家争鸣呢?因为每一家的研究思路都完全不同,真的是各种方法各种试,呈现出一种智慧大爆发的阶段。

关于Meta Learning的papers,我收集了一下:

songrotek/Meta-Learning-Papers

这里主要分析一下最近一两年来的发展情况,先作个分类,然后做一下简要的分析。

2.1 基于记忆Memory的方法

基本思路:既然要通过以往的经验来学习,那么是不是可以通过在神经网络上添加Memory来实现呢?

代表文章:

[1] Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap, Timothy. Meta-learning with memory-augmented neural networks. In Proceedings of The 33rd International Conference on Machine Learning, pp. 1842–1850, 2016.

[2] Munkhdalai T, Yu H. Meta Networks. arXiv preprint arXiv:1703.00837, 2017.

以Meta-Learning with memory-augmented neural networks这篇文章为例,我们看一下他的网络结构:

我们可以看到,网络的输入把上一次的y label也作为输入,并且添加了external memory存储上一次的x输入,这使得下一次输入后进行反向传播时,可以让y label和x建立联系,使得之后的x能够通过外部记忆获取相关图像进行比对来实现更好的预测。

2.2 基于预测梯度的方法

基本思路:既然Meta Learning的目的是实现快速学习,而快速学习的关键一点是神经网络的梯度下降要准,要快,那么是不是可以让神经网络利用以往的任务学习如何预测梯度,这样面对新的任务,只要梯度预测得准,那么学习得就会更快了?

代表文章:

[1] Andrychowicz, Marcin, Denil, Misha, Gomez, Sergio, Hoffman, Matthew W, Pfau, David, Schaul, Tom, and de Freitas, Nando. Learning to learn by gradient descent by gradient descent. In Advances in Neural Information Processing Systems, pp. 3981–3989, 2016

这篇文章的思路很清奇,训练一个通用的神经网络来预测梯度,用一次二次方程的回归问题来训练,然后这种方法得到的神经网络优化器比Adam,RMSProp还要好,这样显然就加快了训练。

2.3 利用Attention注意力机制的方法

基本思路:人的注意力是可以利用以往的经验来实现提升的,比如我们看一个性感图片,我们会很自然的把注意力集中在关键位置。那么,能不能利用以往的任务来训练一个Attention模型,从而面对新的任务,能够直接关注最重要的部分。

代表文章:

[1] Vinyals, Oriol, Blundell, Charles, Lillicrap, Tim, Wierstra, Daan, et al. Matching networks for one shot learning. In Advances in Neural Information Processing Systems, pp. 3630–3638, 2016.

这篇文章构造一个attention机制,也就是最后的label判断是通过attention的叠加得到的:

\bar{y} = \sum_{i=1}^{k}{a(\bar{x},x_i)}y_i

attention a则通过g和f得到。基本目的就是利用已有任务训练出一个好的attention model。

2.4 借鉴LSTM的方法

基本思路:LSTM内部的更新非常类似于梯度下降的更新???,那么,能否利用LSTM的结构训练出一个神经网络的更新机制,输入当前网络参数,直接输出新的更新参数?这个想法非常巧妙。

代表文章:

[1] Ravi, Sachin and Larochelle, Hugo. Optimization as a model for few-shot learning. In International Conference on Learning Representations (ICLR), 2017.

这篇文章的核心思想是下面这一段:

怎么把LSTM的更新和梯度下降联系起来才是更值得思考的问题吧。

2.5 面向RL的Meta Learning方法

基本思路:既然Meta Learning可以用在监督学习,那么增强学习上又可以怎么做呢?能否通过增加一些外部信息的输入比如reward奖励,之前的action来实现?

代表文章:

[1] Wang J X, Kurth-Nelson Z, Tirumala D, et al. Learning to reinforcement learn. arXiv preprint arXiv:1611.05763, 2016.

[2] Y. Duan, J. Schulman, X. Chen, P. Bartlett, I. Sutskever, and P. Abbeel. Rl2: Fast reinforcement learning via slow reinforcement learning. Technical report, UC Berkeley and OpenAI, 2016.

两篇文章思路一致,就是额外增加reward和之前action的输入,从而强制让神经网络学习一些任务级别的信息:

2.6 通过训练一个好的base model的方法,并且同时应用到监督学习和增强学习

基本思路:之前的方法都只能局限在或者监督学习或者增强学习上,能不能搞个更通用的呢?是不是相比finetune学习一个更好的base model就能work?

代表文章:

[1] Finn, C., Abbeel, P., & Levine, S. (2017). Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks. arXiv preprint arXiv:1703.03400.

这篇文章的基本思路是同时启动多个任务,然后获取不同任务学习的合成梯度方向来更新,从而学习一个共同的最佳base。

2.7 利用WaveNet的方法

基本思路:WaveNet的网络每次都利用了之前的数据,那么是否可以照搬WaveNet的方式来实现Meta Learning呢?就是充分利用以往的数据呀?

代表文章:

[1] Mishra N, Rohaninejad M, Chen X, et al. Meta-Learning with Temporal Convolutions. arXiv preprint arXiv:1707.03141, 2017.

直接利用之前的历史数据,思路极其简单,效果极其之好,是目前omniglot,mini imagenet图像识别的state-of-the-art。

2.8 预测Loss的方法

基本思路:要让学习的速度更快,除了更好的梯度,如果有更好的loss,那么学习的速度也会更快,因此,是不是可以构造一个模型利用以往的任务来学习如何预测Loss呢?

代表文章:

[1] Flood Sung, Zhang L, Xiang T, Hospedales T, et al. Learning to Learn: Meta-Critic Networks for Sample Efficient Learning. arXiv preprint arXiv:1706.09529, 2017.

本文构造了一个Meta-Critic Network(包含Meta Value Network和Task-Actor Encoder)来学习预测Actor Network的Loss。对于Reinforcement Learning而言,这个Loss就是Q Value。

本文详细分析详见:学会学习Learning to Learn:让AI拥有核心价值观从而实现快速学习

本文 纽约大学的Kyunghyun Cho 做了评价:

也算是一种全新的思路

我的补充

1.结合在线学习的方法

Online Meta-Learning-2019。讲MAML模型与在线学习的FTL算法相结合,提出FTML模型。使得MAML模型能够处理序列输入,而不是需要准备一堆任务数据来训练模型。参考:Online Meta-Learning2019||论文阅读

3 小结

从上面的分析可以看出,Meta Learning方兴未艾,各种神奇的idea层出不穷,但是真正的杀手级算法还未出现,非常期待未来的发展!也希望更多的朋友们可以投入到Meta Learning这个研究方向上来。

发布了221 篇原创文章 · 获赞 123 · 访问量 19万+

猜你喜欢

转载自blog.csdn.net/weixin_41803874/article/details/89847811