Incomplete Multimodal Learning(不完整多模态学习)

博主已经更新过很多多模态系列的文章了,专栏传送门:多媒体与多模态专栏

可以发现多模态虽然效果很好,但需要保证“多个”模态都一定要存在。但是在现实世界中,部分模态的缺失是很常见的,因此不完整/缺失多模态学习(Incomplete Multimodal Learning)任务也十分值得探索。本篇博文将整理这一研究方向中一些不错的文章。


在这里插入图片描述
Unified subspace learning for incomplete and unlabeled multi-view data
比较早期的文章,任务是跨模态检索或多模态聚类,主要存在两个问题:

  • 不完整。模态数据往往是不完整的,即一些样本的特征集不完整。
  • 无标记。由于人工标注的成本很高,大多数数据都没有标记。

因此,作者针对不完整和未标记的挑战提出了一种新颖的子空间学习框架。该模型直接优化了类指标矩阵(class indicator matrix),为不完整的特征集建立了桥梁。具体来说,该模型综合考虑了特征选择、模态间和模态内的相似性保持,用以增强子空间学习。

模型图如上所示,对于不完整的文本和图像模态,会先使用投影矩阵将原始特征投影到类指示符矩阵(class indicator matrix)中,该类指示符矩阵显式地捕获了聚类结构,并充当了潜在空间。 l ( ( X ′ ( g ) , U ( g ) ) , Y ′ ( g ) ) = ∣ ∣ [ X C ( g ) , X ′ ( g ) ] T U ( g ) − [ Y C ; Y ′ ( g ) ] ∣ ∣ F 2 l((X'^{(g)},U_{(g)}),Y'^{(g)})=||[X^{(g)}_C,X'^{(g)}]^TU_{(g)}-[Y^C;Y'^{(g)}]||^2_F l((X(g),U(g)),Y(g))=[XC(g),X(g)]TU(g)[YC;Y(g)]F2此外,对投影矩阵施加组稀疏性进行特征选择,并保留模态间和模态内数据相似性来增强模型。


在这里插入图片描述
Incomplete Cross-modal Retrieval with Dual-Aligned Variational Autoencoders
来自MM2020,用VAE做不完整模态的跨模态检索。这里的Incomplete意思是作者认为现有的跨模态检索方法都假设每个模态中的样本都是足够和完整的,即在某种模态中有一个样本的情况下,在另一个模态中有一个具有相同标签的相应样本(如容易得到长颈鹿视频,但很难录到声音等,在文本的语义描述上也是如此)。

具体的解决方案如上图,提出双对齐变分自编码器,Dual-Aligned Variational Autoencoders (DAVAE)。主要是利用多个VAE,每个模态一个,以学习不同模式之间的潜在因素。然后这些潜在的表征在分布水平(最大熵)和语义水平(语义对齐)上进一步进行了双对齐,以减轻了模态差距,提高了表征的可辨别性。而对于缺失的实例,利用生成模型则可以合成它们的潜在表示。

  • Semantic Alignment。当编码器将样本从原始特征空间到潜在空间进行编码时,不同模态但属于同一类别的样本应该更近,而相同模态但属于不同类别的样本应该更远。 L S A = α E [ ∣ ∣ f a ( Z a − Y ) ∣ ∣ F 2 + ∣ ∣ f b ( Z b − Y ) ∣ ∣ F 2 ] L_{SA}=\alpha E[||f^a(Z^a-Y)||^2_F+||f^b(Z^b-Y)||^2_F] LSA=αE[fa(ZaY)F2+fb(ZbY)F2]
  • Distribution Alignment。由于模态差距较大,潜在表征的不同模态之间的相似性很低,因此采用熵最大化的方法来调整不同模态的分布。 L E n t r = − E z   p ( z a , z b ) [ H ( S ( z ) ) ] L_{Entr}=-E_{z~p(z^a,z^b)}[H(S(z))] LEntr=Ez p(za,zb)[H(S(z))]

在这里插入图片描述
Missing Modality Imagination Network for Emotion Recognition with Uncertain Missing Modalities
ACL2021。motivation仍然是虽然多模态混合(文字,声音,图像视频)的方式被证明可以提升情感识别的性能,但在现实世界中通常会出现某些模态的信息丢失的现象,比如相机坏掉或者因为光线问题无法拍到人脸,比如语音转文字过程中出现的错误导致文字信息无法使用等等。同时,很多情况下并不知道具体哪种模态的信息会丢失,因此在完整模态上训练的模型的情感识别能力会遇到很大的影响。

因此作者们提出了一个,用于缺失模态的情况下的情感识别任务的,缺失模态想象网络(Missing Modality Imagination Network ,MMIN),这是一个可以应用于各种不同的缺失模态场景的统一模型。模型结构图如下:
在这里插入图片描述
主要有三个模块:1)用于提取特定于模态的嵌入的模态编码器网络; 2)基于级联残差自动编码器(CRA)和循环一致性学习的想象模块,用于在给定相应可用模态的表示的情况下想象缺失模态的表示。收集 CRA 中自动编码器的潜在向量以形成联合多模态表示; 3)基于联合多模态表示预测情绪类别的情绪分类器。

  • (a) 是训练阶段的 MMIN(以视觉模态缺失情况为例)。MMIN 接受了所有六种可能的缺失模态条件的训练。
  • (b) 模态编码器网络(Modality Encoder Network)。该网络在多模态情感识别任务中对全模态数据进行预训练,然后在 MMIN 训练期间进行更新。
  • (c ) 推理阶段的MMIN(以视觉模态缺失条件为例)。 MMIN 可以在不同的缺失模态条件下进行推理。

在这里插入图片描述

Deep Partial Multi-View Learning
TPAMI2020的文章。由于视图之间的复杂关联、数据缺失等问题,算法的有效性和稳定性仍然面临巨大挑战。因此作者提出了深度多视图完备表示,在统一框架下有效解决复杂缺失情况下的分类、补全问题。

  • (1) 有监督分类任务。同时考虑了统一表示的信息完整性和结构性。提出的跨缺失视图网络模型(CPM-Nets)如上图,通过构建隐空间表示还原完整视图,并根据结构化约束获得强泛化能力分类模型。其中,完备隐空间表示(具有将各个视图信息编码到统一、紧致表示的能力)的构建目标为: l r ( S n , h n ) = ∑ v = 1 V s n v ∣ ∣ f v ( h n ; Θ r v ) − x n v ∣ ∣ 2 l_r(S_n,h_n)=\sum^V_{v=1} s_{nv} ||f_v(h_n;\Theta^{v}_r)-x^{v}_n||^2 lr(Sn,hn)=v=1Vsnvfv(hn;Θrv)xnv2
    在这里插入图片描述
  • (2)无监督聚类及补全任务。针对缺失信息补全效果难以在线评价的难题,提出通过引入对抗策略增强补全信息的合理性,以分布相似性作为在线评价,以促进隐空间表示学习效果。该模型的图如上,具体的做法是,将生成器所生成的样本作为反例,完整的不缺失视图作为正例,输入到鉴别器中。通过生成器和鉴别器的对抗学习,使得补全(生成)的信息符合可见信息的数据分布。

paper:http://arxiv.org/abs/2011.06170


在这里插入图片描述
SMIL: Multimodal Learning with Severely Missing Modality
AAAI2021,目标是解决严重缺失模态的多模态学习,这里的“严重”是指90%的训练数据中都存在着模态缺失的情况,如上图的(d)。文章提出了一种名为SMIL的新方法,该方法利用贝叶斯元学习统一实现了两个目标,具体模型如下图。

在这里插入图片描述
在抽取完特征后,主要是通过重建网络 φ c φ_c φc 输出后验分布,然后从中采样权重 ω ω ω 以使用模态先验重建缺失的模态。

而正则化网络 φ r φ_r φr 还输出一个后验分布,然后从中采样正则化器 r r r 以扰动潜在特征以实现平滑嵌入。 两者的协作( φ c φ_c φc φ r φ_r φr)保证了灵活高效的学习。

paper:https://arxiv.org/pdf/2103.05677.pdf
code:https://github.com/mengmenm/SMIL


在这里插入图片描述
GCNet: Graph Completion Network for Incomplete Multimodal Learning in Conversation
任务是用于对话(Conversation)中不完全模态。如上图左上角,语音可能由于背景噪声或传感器故障而丢失;由于自动语音识别错误或未知单词,文本可能不可用;由于照明、运动或遮挡,这些面孔可能无法被检测到。因此不完全模式的问题增加了准确理解对话的困难。

为了解决这个问题,作者提出了一种新的对话中不完全多模态学习框架,称为“图完全网络(Graph Completion Network,GCNet)”。其包含两个GNN模块,“Speaker GNN”(A和B的关系)和“Temporal GNN”(句子出现的先后顺序),用于捕获会话中的时态和说话人信息,其中每个node的多模态信息都会被丢弃一部分以模拟现实。

paper:https://arxiv.org/pdf/2203.02177v1.pdf


在这里插入图片描述
Geometric Multimodal Contrastive Representation Learning
一个好的多模态表示需要满足:

  • i)从执行给定下游任务所需的单个模态中捕获语义。
  • ii)对执行期间缺失的模态信息具有鲁棒性。

因此需要对每个模态的独特特征进行相应的处理和有效的组合,去解决多模态表示学习中的异质差距。作者们提出了一种新的几何多模态对比(Geometric Multimodal Contrastive,GMC)表征学习方法,模型框架如上图所示,该方法由两个主要部分组成:

  • i)一个两级架构,由特定于模态的基本编码器组成,允许将任意数量的模态处理为固定维度的中间表征,以及一个共享投影头,将中间表示映射到中间表示空间;
  • ii)多模态对比损失函数,该函数鼓励学习表征的几何对齐。

paper:https://arxiv.org/pdf/2202.03390v2.pdf


更多多模态系列的文章,欢迎订阅专栏,传送门:多媒体与多模态专栏

博主完整的博文集合,传送门:博文目录索引

猜你喜欢

转载自blog.csdn.net/qq_39388410/article/details/124575569