[paper]incremental learning algorithms and applications

翻译

摘要:增量学习指的是从流数据中学习,这些数据随着时间的推移而到达,内存资源有限,理想情况下,不牺牲模型的准确性这种设置适合不同的应用场景,例如在变化的环境中学习、建模个性化或终生学习,它为大数据处理提供了一个优雅的方案,通过它的顺序处理。在这个贡献中,我们将增量学习的概念形式化,我们讨论了在这个环境中出现的特殊挑战,我们概述了流行的方法,它的理论基础,以及在过去几年出现的应用。

1、什么是增量学习?

机器学习方法提供了特别强大的技术,可以从给定的数字数据中推断出结构信息;尽管如此,目前大多数应用程序都局限于经典的批处理设置:数据是在培训之前给出的,因此元参数优化和模型选择可以基于完整的数据集,而培训可以依赖于数据及其底层结构是静态的假设。相反,增量学习指的是基于不断到达的数据流38、149的连续模型适应的情况。当系统自动运行时,这种设置就会出现,比如自动机器人或驾驶5,65,112,156。此外,在线学习在交互式场景中变得必要,在这些场景中,根据人类的反馈来提供训练示例。最后,许多数字数据集虽然是静态的,但可以变得如此之大,以至于它们实际上被当作数据流处理,即在完整的数据集116上进行一次增量传递。增量学习调查如何在这样的流媒体环境中学习。它以各种形式出现在文献中,而这个术语的使用并不总是一致的。因此,首先,我们对相关术语的在线学习、增量学习和概念漂移赋予了意义,特别注意了受监督的学习范式。

1.1在线学习方法

在监督学习中,数据D=((x1,y1),(x2,y2),(x3,y3),。。(xm,名))可用输入信号xi和输出yi。我们的任务是推断一个模型来自这些数据的M p(y x)。机器学习算法通常是在批处理模式下进行的。它们同时使用所有的例子(xi、yi),而不考虑它们的(时态)顺序,例如,一个模型优化步骤。

挑战1:在线模型参数适应。在许多应用程序的例子中,数据D是不可用的,但是示例是随着时间的推移而出现的,任务是根据示例(xt,yt)和以前的模型Mt 1来推断一个可靠的模型Mt。这是通过在线学习方法实现的,这些方法使用一个一个的训练样本,不知道他们的数字,以优化他们的内部成本功能。这里有一个连续的可能性,从完全在线的方法,在单个样本的处理上立即调整他们的内部模型,通过所谓的小批量技术,积累少量的样本,到批量学习方法,这些方法将所有的样本存储在内部。

在线学习很容易通过在线反向传播等随机优化技术实现,但也有支持向量机(SVM)164的扩展。基于原型的模型,如矢量量化、径向基函数网络(RBF)、受监督的学习矢量量化(LVQ)和自组织地图(SOM)都自然地实现了在线学习计划,因为它们依赖于(近似的)随机梯度技术15、83,115、140。二级数值优化方法和高级优化方案也可以扩展,如变分贝叶斯、凸优化、基于原始或双空间的高阶统计量的二阶感知器学习,以及准牛顿布罗伊登-戈德法-尚诺技术的在线实现,49、62,114、117、125。对于不可分解的成本函数,也可以开发随机优化方案,80。此外,懒惰的学习者,如k-近邻(k-NN)方法,通过他们的设计140,将自己应用到在线场景中。有趣的是,在线学习已经很早就被精确的数学调查所伴随。

1.2 Incremental learning methods

增量学习指的是使用有限的内存资源的在线学习策略。这就排除了在批处理模式下工作的方法,通过将所有的例子存储到内存中的时间步骤t中;相反,增量学习必须依赖于已经观察到的信号的紧凑表示,例如数据的有效统计、可选的紧凑内存模型,或者是模型参数本身的隐式数据表示。与此同时,它必须为所有相关的设置提供准确的结果,尽管它的内存资源有限

挑战2:概念漂移增量学习在在线学习中有相当多的挑战,因为内存限制增加了一些额外的功能。一个突出的问题在于这样一个事实:当数据样本的时间结构考虑,一个可以观察到的变化数据统计出现的随着时间的推移,即样本(~ xi,易建联)不是同分布。数据分布随时间的变化是通常被称为概念漂移(88、88、126)。不同类型的概念漂移可以被区分:输入分布p(x)仅指虚拟概念漂移或共变量移位,或底层功能本身p(y x)的变化,称为真正的概念漂移。此外,概念漂移可以是渐进的或突然的。在前一种情况下,人们经常使用术语概念转换。“局部概念漂移”这个术语只在数据空间的特定区域中描述数据统计数据的变化。一个突出的例子是,将一个新的、视觉上不同的对象类添加到一个分类问题中。真正的概念漂移是有问题的,因为它会导致分类中的冲突,例如,当一个新的但类似于可视化的类出现在数据中时:这将在任何事件中对分类性能产生影响,直到模型能够被相应地重新调整。[随时间变化,后来样本不是和原样本同分布的 样本的变化变得不可预测]

挑战3:稳定性-可塑性困境。特别是对于嘈杂的环境或概念漂移,第二个挑战是关于何时以及如何调整当前模型的问题。快速更新可以根据新信息快速适应,但旧信息很快就会被遗忘。另一方面,适应可以缓慢地执行,在这种情况下,旧信息保留的时间更长,但是系统的反应性降低了。这种取舍背后的困境通常是指稳定-可塑性的困境,这是一个众所周知的对人工和生物学习系统的限制。增量学习技术,只在概念漂移实际发生的数据空间的那些区域中,使学习模型适应概念漂移,为这个问题提供部分解决方案。许多在线学习方法,尽管处理的资源有限,却无法解决这一困境,因为它们表现出了所谓的灾难性遗忘行为——44、45,108、103,132——即使新的数据统计数据并不能使旧的数据失效。

一种处理稳定-可塑性困境的方法是通过明确的元策略、何时以及如何学习来增强学习规则这是流行的增量模型的核心,如艺术网络56、77或元策略,以处理概念漂移,如即时分类器JIT 3,或混合在线/离线方法43、120。这种策略的一个主要组成部分是对实际模型预测的信心估计,例如统计测试、有效的代理,或一些自我评估的概念,8、43、78。这些技术可以被增强为交互式学习或学习脚手架的复杂增量计划,84,130。

挑战4:自适应模型的复杂性和元参数对于增量学习,模型复杂性必须是可变的,因为如果数据未知,就不可能预先估计模型的复杂性。根据概念漂移事件的发生,可能需要增加模型的复杂性。另一方面,总体模型的复杂性通常是由可用资源的限制来限制的。这就要求在达到这个极限时,对资源进行智能重新分配。相当多的方法提出智能适应方法模型复杂性等增量架构[166],自我调节的基本单位在极端的学习机器的数量(177)或基于原型模型(77、98、144),增量基函数选择一个足够强大的数据表示[23],或自动调整集群数量无监督学习[79]。这样的策略可以被放到更一般的自进化系统的环境中,例如,92年的概述。增量模型的复杂性不是只有当概念漂移被观察到时才强制执行,因此可能会发生变化的模型复杂性,但是它也可以在批处理场景中极大地加快学习速度,因为它使得冗长的模型选择变得多余。

在批量学习中,不仅是模型的复杂性,而且在训练之前确定了学习速率和正则化强度等基本的元数据。通常,在批处理学习中使用耗时的交叉验证,第一个有希望的结果是如何自动化这个过程。然而,这些并不适合于增量学习场景:概念漂移将关键的元参数,例如学习速率转换为模型参数,因为它们的选择必须根据(变化的)数据特征进行调整。由于这一事实,增量技术通常依赖于很少且健壮的元参数(例如集合体)的模型,或者它们使用元启发式方法在训练期间如何调整这些数量。

挑战5:有效的内存模型由于资源有限,增量学习模型必须以紧凑的形式存储所观察到的数据所提供的信息。这可以通过适当的系统不变量(例如显式漂移检测模型33的分类误差),通过隐式形式的模型参数(例如基于距离的模型63),或者通过显式的内存模型96、98来实现。一些机器学习模型提供了模型参数和内存模型的无缝传输,例如原型或范例模型,这些模型以典型示例63的形式存储信息。显式的内存模型可以依赖于一个有限的特征训练示例窗口,或者以参数模型的形式表示内存。对于这两种情况,对记忆适应的仔细设计是至关重要的,因为它直接反映了96、98的稳定性-可塑性困境。

挑战6:模式基准测试评估增量学习算法的性能有两种完全不同的可能性:
1)增量-vs-非增量:特别是在没有概念漂移的情况下,学习的目的在于对以p(x)为特征的典型数据的固定分布p(y x)的推断。这种设置发生了,例如,每当对大数据集使用增量算法时,它们就会与通常并行的批处理算法竞争。在这样的设置中,选择的方法评估了在测试集中的最终模型Mt的分类精度,或者在交叉验证中。虽然增量学习应该在与批处理变体相同的范围内获得结果,但必须考虑到它们由于流数据访问而处理受限制的知识。例如,在资源2的限制下,增量聚类算法不能达到与批处理版本相同的精度,这是一个例子。

2)增量-vs-增量当面对概念漂移时,不同的成本函数可能会引起兴趣虚拟概念漂移的目的是为了推断一个固定的模型p(y x)和输入的概率p(x)。在这样的设置中,在测试数据中对可能出现倾斜的分布进行评估时,模型的健壮性是很有趣的。这样的设置可以很容易地生成,例如通过对测试和培训数据进行不平衡的标签分布。当真正的信心漂移出现时,分类错误的在线行为(xt+1)下一个数据点通常是选择的方法;因此,这些错误的一个简单平均值可以伴随一个对在线错误的整体形状的跟踪检查,因为它提供了对收敛速度的洞察,例如突然的概念漂移。

(3)正式担保行为概括:因为很多经典算法如简单感知器或大型边缘方法已经被提议作为在线算法,存在一个广泛的作品调查他们的学习行为,收敛速度,和概括能力,传统依靠先验知识的假设数据。[162]。一些结果削弱了i.i.d.的假设,例如只要求互换性146。最近,流行的设置,如学习(普遍)线性回归可以为任意分布p伴随着收敛担保(~ x)通过游戏理论的观点:在这样的设置,分类器太~ xt和训练例子+ 1可以采取在一个adversial方式,仍然允许快速收敛率有关情况(87、131、151、87)。该方法为实际的上下文漂移提供了第一个理论结果,即不仅是输入分布,而且条件分布p(y x)可以遵循温和的变化。

2 Incremental learning models

在文献中,增量学习有多种形式,而术语的使用并不总是一致的;对于某些设置,例如,不能保证内存限制,或者仅为固定的发行版设计模型。在此背景下,我们将概述流行的模型。因此,我们将主要关注受监督的方法,因为它的受欢迎程度。还开发了在线或增量学习技术,用于替代任务,如集群91、109、维数减少6、12、24、25、93,123、特征选择和数据表示42、27、59、72,173、179、强化学习11、60、采矿和推理54、129。

概念漂移的显式处理在执行时处理概念漂移是一项具有挑战性的任务33、88,126、157。根据不同的类型,有不同的技术来处理概念漂移。单纯的概念转换通常是通过所谓的被动方法来解决的,即学习技术,这些技术可以很好地适应模型参数,使当前的分布能够被模型可靠地表示出来。然而,快速的概念变更通常需要主动的方法,它可以检测概念漂移并做出相应的反应。虚拟概念漂移,只关注输入的分布,很容易发生,例如由于时间的高度不平衡。一种流行的艺术技术是通过所谓的“重要性加权”来解释这一事实的,即明确或含蓄地重重观察到的样本的策略,这样就能达到10、73、81的更强的鲁棒性。或者,概念转换在数据甚至新类中都有其新颖的原因。这些设置可以自然地融入到本地模型中,只要它们提供了一种适应性模型的复杂性43、56,100、133,144

通过对模型特征特征的影响,可以检测出真实的概念漂移,如分类精度。这样的定量特征可以伴随着统计测试,这些测试可以判断它们的机会的重要性,从而产生概念漂移。测试可以依赖于众所周知的统计数据,比如Hoeffding 48,或者在合适的距离上,比如Hellinger距离它可以测量这些特征特征值分布的特征。当集成到健壮的分类器中,例如整体技术时,可以同时处理不同类型的漂移的模型可以得到16

支持向量机和一般线性模型一些增量的SVM模型存在164。有些依赖于启发式,比如对一个模型进行再培训,所有支持向量加上一个新的增量数据,35,152,但是没有理论保证。其他的合并了SVM成本函数的修改,以促进递增性141,也可能控制复杂性58,57。尽管如此,他们的资源并没有受到严格限制。作为一种替代方法,已经提出了一种adiabsvm训练,即:在所有以前见过的例子中,同时给出一个例子,同时保持相关的最优性条件。然而,这需要存储所有以前见过的样本,尽管这种方法可以大大简化SVM培训。基于SVM 127、164的整体学习算法,通过为新批数据训练新的分类器,并将所有现有的分类器组合在决策制定中,从而实现增量学习。另一种混合方案将SVM分类器与基于原型的数据表示结合在一起,后者可以被设计成一个在线模型,基于此模型可以生成SVM的培训示例。或者,SVMs可以直接在原始空间中接受训练,在那里在线学习是直接的22。还提出了其他通用线性模型的在线版本,如高斯过程回归53、110,这些模型都不能很容易地处理概念漂移。

联结主义模型。由于对多层感知器(MLP)108、132的灾难性遗忘问题首次出现,因此在连接主义系统中存在着如何避免它的重要工作也就不足为奇了。最初的共识将灾难性的遗忘追溯到他们的分布式信息表示46。实际上,像RBF网络这样的地方主义连接主义模型可以在增量设置中可靠地工作,在增量设置中,必须确保它们的泛化性能为147。这两个功能都在半分布式表示中进行组合。摘要提出了MLP模型的一些算法修正,如sparsi化45、内节点权重47、119、在训练85的过程中减少了表征重叠,或者说是特定的正则化55。这些都是成功的,但不能消除灾难性的遗忘147。最近,人们对极限学习机器(ELM)越来越感兴趣,它将随机映射与训练的线性读数结合起来。由于它们简单的训练,可以很容易地形成增量的变体,从而使它们的储层自然地代表了丰富的潜在概念,31、61,159、178。此外,有一些尝试修改MLPs 86、150的系统设计,这些设计更多的是在生成学习的过程中;它们结合*了新颖的检测方法,并为新样本使用不同的表征资源。复杂的联结主义模型为长期和短期学习7、139提供了不同的内存子系统,并对以前的样本进行了显式的重放和重新学习,以减轻遗忘135。这些方法减少了灾难性遗忘的问题,代价是更复杂的模型。与其他现代方法相反,灵感主要来自于生物学,因此,它坚实的数学理解还缺乏

明确的分区方法许多现代的增量学习者依赖于输入空间的局部分区,每个分区18、21,121、148,160都有一个单独的分类/回归模型执行这个分区的方式非常多样,从kd-tree 21到遗传算法18和自适应高斯接收域160。同样,在线性模型160、高斯混合回归21或高斯过程121中,选择本地模型是不同的。对于像在感知中出现的高维问题,输入空间的划分构成了内存消耗的瓶颈。例如,在160中使用的协方差矩阵是输入维数的二次项,因此对于高维数据来说是禁止的。决策树在一定程度上缓解了这个问题,因为它们只对每个分支进行了一个维度的切割,忽略了特征相关性。已经提出了相当多的增量树构建器,用于分类41、52,142,特别关注何时进行分割,如何避免过度的树,同时增加增长,以及如何可靠地处理不平衡的类26 66,102。有趣的是,确实存在树分类器,其结果是对培训数据的排序完全不变性,但以无限资源的价格为90。

集合方法集合方法通过适当的加权策略组合了不同模型的集合。因此,它们非常适合隐式地表示甚至部分矛盾的概念,并根据手头的数据统计来协调当前的输出。在处理概念漂移时,综合方法已经被证明是特别有用的,有一些流行的模型,从增量随机的森林105,由两部分图分类器组成的集合,到适合不同类型概念漂移的高级加权方案,以及重复的概念32、39、95,111、172。

基于原型的方法基于原型的机器学习在认知心理学中有一个对应的例子,它假设人类头脑中的语义类别是由这些类别的具体例子来表示的在机器学习方法中,一个类由许多代表表示,并且根据来自这些原型的数据的距离来定义班级成员。对于高维数据,自适应低等级的度量学习方案可以显著提高分类的准确性和效率,17,145。基于原型的方法是早期连接主义模型中基于位置或半分布式表示的工作的自然延续,因此共享许多属性。它们具有易于适应的模型复杂性的优点。一个缺点是,当存在复杂的类边界时,原型的数量会变得很大。基于原型的模型与非参数的k-NN分类器紧密相连(所有的训练点都是原型)和RBF模型140。一个受欢迎的方法是由LVQ和最近的变体提供的,这些变量可以通过成本函数15来证明。摘要提出了一种能够处理概念漂移的增量变型和方法,如动态原型反演/删除方案98、144或具有固定模型复杂度的技术,但智能源再分配策略50。类似的无监督增量模型存在19、63,176。

对生物增量学习的洞察随着生物渐进式学习达到了高度的完善,生物范例可以为如何建立人工增量系统提供灵感。有证据表明,新大脑皮层的感觉表征是基于原型的,神经元在拓扑结构上由相似的40、94,138、153。学习以特定于任务的方式对这些表示进行操作,因为神经元的密度与感觉区域相关,而感觉区域需要更精细的识别,也就是。出现更多错误的地方。在这里,通过乙酰胆碱的释放,在任务失败70,163的情况下,学习是可以增强的。学习尊重拓扑布局,只在每一个学习活动中只改变一小部分的神经选择性,对应于最佳匹配单元40的区域。在单神经元层面之外,有大量的文献研究了大脑海马区和大脑皮层区域在建筑层面的学习作用。一般来说,海马体在分离的表现中使用了快速的学习速度,而新大脑皮层学习缓慢,建立了学习任务122的重叠表示。海马体和新大脑皮层相互作用的良好模型表明,最近的记忆首先被储存在海马系统中,并在时间107的时候回放到大脑皮层。这可以适应最近未完成的新任务的执行,以及通过缓慢的突触变化将新任务表示从海马体(短期记忆)转移到新皮层区域(长期记忆),也就是说,它提供了一种能够面对稳定-可塑性困境的体系结

3 Applications

我们希望通过对典型的应用程序场景的概述来结束这一概述,在这种情况下,增量学习起着重要的作用。数据分析和大数据处理。人们对单通道有限内存模型的兴趣越来越大,这种模型能够在流态64中处理大数据。这样做的目的是为了达到离线技术的能力,因此条件就不那么严格了,比如概念漂移的存在。例如,最近的方法扩展了,例如,以这种方式进行的极限学习机器。采用这种方法的领域包括图像处理34、97、数据可视化106和网络数据29的处理。

机器人技术自主机器人和人机交互本质上是渐进的,因为它们是开放式的,而数据则是一串可能有很强漂移的信号流。增量学习模式已在自主控制领域内设计,服务机器人5,计算机视觉175,自我定位82,或互动动觉教学51,143。此外,自动驾驶领域正在以惊人的速度增长,即118,156,在美国已经有8个州(2015年12月)颁布了自动驾驶汽车立法。另一个新兴领域,是由智能手机中无处不在的传感器引起的,它涉及到活动识别和建模1、68、69、74、89、99。

图像处理图像和视频数据通常以流媒体的方式收集,并将其用于增量学习。在这种情况下典型的问题从对象识别9、36、98、图像分割36、71和图像表示30、165,到视频监视、人员识别和可视化跟踪,28、37,101、104,134、154,167、174。自动注释。一个重要的过程包括对数字数据的自动注释或标记。随着时间的推移,这需要渐进的学习方法;示例系统在14、20、75的视频和语音标记中显示。

异常值检测配备传感器的技术系统的自动监测是不同领域的一项重要任务,从过程监测67、技术系统故障诊断76、170,171,到网络安全124。通常情况下,在这种情况下会出现强烈的漂移,因此对高级增量学习技术的需求很大。

猜你喜欢

转载自blog.csdn.net/qq_40614981/article/details/80885249