跨模态学习

今天,我们生活在一个由大量不同模态内容(文本、图像、视频、音频、传感器数据、3D 等)构建而成的多媒体世界中,这些不同模态的内容在具体事件和应用中具有高度相关性。跨模态任务也越来越多,涉及多个模态的数据的交互,例如图像和视频的检索,字幕,视频摘要,文本到图像和视频的预测与合成,语言驱动的时空动作定位,以及视觉常识推理等等。

因此,跨模态学习日益引起了学术界和工业界的 关注。 跨模态学习进行联合特征学习和跨模态关系建模,旨在有效地利用不同模态内容的相关性进行系统性能优化。对多模态内容的深入理解主要依赖于特征学习、实体识别、知识图谱、逻辑推理、语言表达等方面的多种技术。

多模态学习在多媒体领域并不新鲜。早在20世纪90年代中期,多媒体领域开始“起飞”之时,人们就开始研究多模态学习的问题。那么,为什么它最近再次成为研究热点呢?

通常,技术的崛起很大程度上取决于底层技术的发展和突破。多模态学习对于实际系统的性能优化至关重要,同时也是一个难题。它通常需要将不同模态数据嵌入到一个公共表示空间中,以便进行对齐、比较和融合。在早期,人们使用手工方法,根据先验知识和常识寻找一个良好的嵌入空间,但如何找到最佳嵌入空间是一个极其困难的问题。而现在,借助深度学习技术已经能够轻松寻找良好的嵌入空间,但是目前大多数深度学习方法依赖于大量有标注的数据,要想获得更好的性能,就必须拥有更多的有标注数据,这成为了一个主要瓶颈。在实践中,对大量数据进行标注并使训练收敛到最佳位置,其困难程度丝毫不亚于手工制作一个良好的嵌入空间。对于多模态学习更是如此,因为它需要同步标注对齐的多模态数据,例如图像和语音对齐。

2018 年,用于自然语言表示建模的 BERT 技术(即由变型器组成的双向编码器表示技术) [1] 的出现,为深度学习摆脱对有标注数据的依赖提供了一种新选择。理论上,基于 BERT 技术可以利用无限量的未标注数据作预训练,然后再利用针对特定任务的少量有标注数据进行微调,进而实现对不同任务(如问题解答和语言推理)的优化。此后,类似 BERT 的无监督预训练技术在许多自然语言处理任务中取得了突破性进展。

事实上,预训练技术在计算机视觉任务的有监督学习中早已得到广泛应用。例如,把为 ImageNet 分类任务预先训练的网络作为初始状态来训练其他视觉任务(如目标检测和语义分割)是非常流行的做法,并可以显著提高性能。当预训练技术在 BERT 中应用时发挥出了极高的应用效能,因为它可以借助无限量的无标注数据,以无监督的方式预训练好各种功能。这从根本上解决了大数据问题。

提供大量有标记多模态数据一直是解决多模态学习问题(如理解、转换和生成)的一个重大挑战,类似 BERT 的无监督预训练技术很好的解决了这一难题,并且可以显著提高系统整体性能。

发布了416 篇原创文章 · 获赞 672 · 访问量 136万+

猜你喜欢

转载自blog.csdn.net/weixin_42137700/article/details/104082799