跨模态检索2023年最新顶会论文汇总

本文主要汇总了几篇跨模态检索2023年最新顶会论文。

Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training

https://arxiv.org/abs/2306.08789
利用一致的多模态对比训练进行高效的标记引导的图像-文本检索
Code is publicly available: https://github.com/LCFractal/TGDT

图像-文本检索是理解视觉和语言之间语义关系的一个核心问题，也是各种视觉和语言任务的基础。以前的大多数工作要么只是简单地学习整体图像和文本的粗粒度表征，要么就是精心建立图像区域或像素与文本词汇之间的对应关系。然而，每种模态的粗粒度表征和细粒度表征之间的密切关系对图像-文本检索非常重要，但几乎被忽视了。因此，以前的这些工作不可避免地存在检索精度低或计算成本高的问题。在这项工作中，我们通过将粗粒度和细粒度的表征学习结合到一个统一的框架中，从一个新的角度来解决图像-文本检索的问题。这个框架与人类的认知是一致的，因为人类同时关注整个样本和区域元素以了解语义内容。为此，我们提出了一个由两个同质分支组成的、分别用于图像和文本模态的Token-Guided Dual Transformer（TGDT）架构，用于图像-文本检索。TGDT将粗粒度和细粒度的检索纳入一个统一的框架，并有益地利用了两种检索方法的优势。相应地提出了一个新的训练目标，即一致的多模态对比性（CMC）损失，以确保图像和文本在共同嵌入空间中的模态内和模态间的语义一致性。在全局和局部跨模态混合相似性的基础上，所提出的方法实现了最先进的检索性能，与最近的代表性方法相比，推理时间极短。

Retrieval-Enhanced Contrastive Vision-Text Models

https://arxiv.org/abs/2306.07196
检索增强的对比视觉-文本模型

对比性的图像-文本模型，如CLIP，构成了许多最先进的系统的组成部分。虽然他们擅长识别常见的通用概念，但他们仍然在细粒度的实体上挣扎，这些实体很罕见，甚至在预训练的数据集中没有。因此，它们成功的一个关键因素是使用大规模策划的预训练数据，旨在扩大它们在预训练阶段可以记忆的概念集。在这项工作中，我们探索了一种将细粒度知识直接编码到模型参数中的替代方法：我们转而训练模型从外部存储器中检索这些知识。具体来说，我们建议让现有的视觉-文本模型有能力在推理时用从存储器中检索的跨模态信息来完善它们的嵌入，这大大改善了它们的zero-shot预测。值得注意的是，我们表明，这可以通过一个轻量级的、单层的、冻结的CLIP之上的融合变压器来完成。我们的实验验证了我们的检索增强对比性（RECO）训练在几个具有挑战性的细粒度任务上大幅提高了CLIP的性能：例如，在斯坦福Cars上+10.9，在CUB-2011上+10.2，在最近的OVEN基准上+7.3。

Self-Enhancement Improves Text-Image Retrieval in Foundation Visual-Language Models

https://arxiv.org/abs/2306.06691
自我强化可改善基础视觉语言模型中的文本-图像检索效果
Accepted by CVPR 2023

跨模态基础模型的出现引入了许多以文本-图像检索为基础的方法。然而，在一些特定领域的检索任务中，这些模型未能集中于所需的关键属性。为了解决这个问题，我们提出了一个基于CLIP-ViT/G-14的自我增强框架A³R，这是最大的跨模态模型之一。首先，在模型学习之前，我们执行一个属性增强策略，以丰富文本描述的细粒度表示。然后，我们提出了一种适应性重排方法，以统一文本查询和候选图像的表示空间，并在模型学习后依靠适应性查询对候选图像进行重排。经过验证，我们提出的框架在第一届基础模型挑战赛的跨模态图像检索赛道上，在不引入任何额外样本的情况下，取得了比基线和其他团队的解决方案更突出的改进。代码在 https://github.com/CapricornGuang/A3R。

ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval

https://arxiv.org/abs/2305.17652
ConaCLIP：探索轻量级文本-图像检索的全连接知识交互图的提炼方法
ACL 2023 Industry Track

具有双重编码器架构（例如CLIP）的大规模预训练的文本图像模型通常用于各种视觉语言应用，包括文本图像检索。但是，由于大量的索引和推理时间以及计算资源的大量消耗，这些模型在边缘设备或实时情况下仍然不太实用。尽管知识蒸馏技术已被广泛用于单模式模型压缩，但是如何将它们扩展到数量和教师/学生的数量加倍的情况下，很少研究。在本文中，我们对该主题进行了全面的实验，并提出了用于跨模式预训练蒸馏的完全连接的知识相互作用图（CONA）技术。根据我们的发现，所得的Conaclip在轻巧的设置下在广泛使用的FlickR30K和MSCOCO基准上实现了SOTA效果。我们方法在电子商务平台上的行业应用进一步证明了Conaclip的重要效果。

Learnable Pillar-based Re-ranking for Image-Text Retrieval

https://arxiv.org/abs/2304.12570
基于可学习柱的图像-文本检索重排序
accepted by SIGIR2023

图像-文本检索的目的是弥合模式之间的差距，根据语义的相似性来检索跨模态的内容。之前的工作通常集中在成对关系上（即一个数据样本是否与另一个相匹配），但忽略了高阶邻近关系（即多个数据样本之间的匹配结构）。重新排序是一种流行的后处理做法，它揭示了在单模态检索任务中捕获邻近关系的优越性。然而，直接将现有的重排算法扩展到图像-文本检索是无效的。在本文中，我们从四个方面分析了原因，即泛化性、灵活性、稀疏性和不对称性，并提出了一种新型的基于可学习的支柱式重排范式。具体来说，我们首先选择排名靠前的模内和模间邻居作为支柱，然后用它们与支柱之间的邻居关系来重建数据样本。通过这种方式，每个样本都可以只用相似性来映射到多模态的支柱空间中，从而保证了泛化。之后，我们设计了一个邻域感知图推理模块，灵活地利用这些关系，挖掘出邻域内稀疏的正项。我们还提出了一个结构对齐约束，以促进跨模态协作，并对齐不对称的模态。在各种基础骨架之上，我们在两个基准数据集，即Flickr30K和MS-COCO上进行了广泛的实验，证明了我们提出的重新排名范式的有效性、优越性、通用性和可迁移性。

Rethinking Benchmarks for Cross-modal Image-text Retrieval

https://arxiv.org/abs/2304.10824
重新思考跨模式图像-文本检索的基准
accepted by SIGIR2023

图像-文本检索作为信息检索的一个基本和重要的分支，已经引起了广泛的研究关注。这一任务的主要挑战是跨模态的语义理解和匹配。最近的一些研究工作更多地关注细粒度的跨模态语义匹配。随着大规模多模态预训练模型的盛行，一些最先进的模型（如X-VLM）在广泛使用的图像-文本检索基准，即MSCOCO-Test-5K和Flickr30K-Test-1K上取得了接近完美的表现。在本文中，我们回顾了这两个常见的基准，并观察到它们不足以评估模型在细粒度的跨模式语义匹配上的真正能力。原因是基准中大量的图像和文本是粗粒度的。基于这一观察，我们对旧的基准中的粗粒度的图像和文本进行了改造，并建立了改进的基准，称为MSCOCO-FG和Flickr30K-FG。具体来说，在图像方面，我们通过采用更多的类似图像来扩大原始图像库。在文本方面，我们提出了一种新颖的半自动翻新方法，以很少的人力将粗粒度的句子细化为更细的句子。此外，我们在新的基准上评估了代表性的图像-文本检索模型，以证明我们方法的有效性。我们还通过广泛的实验分析了模型在细粒度语义理解方面的能力。结果表明，即使是最先进的模型在细粒度的语义理解方面也有很大的改进空间，特别是在区分图像中接近物体的属性方面。我们的代码和改进后的基准数据集可在以下网站公开获取：https://github.com/cwj1412/MSCOCO-Flikcr30K_FG，我们希望这将激发对跨模式检索的进一步深入研究。

Image-text Retrieval via Preserving Main Semantics of Vision

https://arxiv.org/abs/2304.10254
通过保留视觉的主要语义进行图像-文本检索
accepted by ICME2023

图像-文本检索是跨模态检索的主要任务之一。该任务的一些方法将图像和文本映射到一个共同的空间，在两种模式之间建立对应关系。然而，由于图像内容（语义）的丰富性，图像中冗余的次级信息可能会导致错误的匹配。为了解决这个问题，本文提出了一种语义优化方法，作为视觉语义损失（VSL）来实现，以帮助模型专注于图像的主要内容。这种方法的灵感来自于人们通常通过描述图像的主要内容来对其进行注释。因此，我们利用与图像相对应的注释文本来协助模型捕捉图像的主要内容，减少次要内容的负面影响。在两个基准数据集（MSCOCO和Flickr30K）上的广泛实验证明了我们方法的卓越性能。代码见：https://github.com/ZhangXu0963/VSL。

Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening

https://arxiv.org/abs/2303.07740
通过关键词引导的预筛选进行高效的图像-文本检索

在性能蓬勃发展的情况下，目前的图像文本检索方法存在着与N有关的时间复杂性，这阻碍了它们在实践中的应用。**本文以提高效率为目标，提出了一个简单有效的关键词引导的图像-文本检索的预筛选框架。**具体来说，我们将图像和文本数据转换为关键词，并进行跨模态的关键词匹配，以在检索网络之前排除大量不相关的图库样本。对于关键词预测，我们将其转变成一个多标签分类问题，并提出了一个多任务学习方案，将多标签分类器附加到图像-文本检索网络中，以实现轻量级和高性能的关键词预测。在关键词匹配方面，我们在搜索引擎中引入了倒置索引，在预筛选的时间和空间复杂度上创造了双赢的局面。在两个广泛使用的数据集，即Flickr30K和MS-COCO上进行的广泛实验，验证了所提框架的有效性。所提出的框架只配备了两个嵌入层，在应用于普通图像-文本检索方法之前，实现了O(1)的查询时间复杂度，同时提高了检索效率并保持了其性能。我们的代码将被发布。

Semantic-Preserving Augmentation for Robust Image-Text Retrieval

https://arxiv.org/abs/2303.05692
基于语义保持的鲁棒图文检索增强算法
Accepted to ICASSP 2023

图像文本检索是一项搜索视觉世界的适当文本描述的任务，反之亦然。这项任务的一个挑战是容易受到输入图像和文本损坏的影响。这种损坏在训练过程中往往没有被注意到，并大大降低了检索模型的决策质量。在本文中，我们提出了一种新的图像文本检索技术，被称为鲁棒的视觉语义嵌入（RVSE），它由新的基于图像和文本的增强技术组成，称为图像语义保护增强（SPAugI）和文本增强（SPAugT）。由于SPAugI和SPAugT以保留语义信息的方式改变原始数据，我们强制要求特征提取器生成语义感知的嵌入向量，而不考虑损坏情况，从而大大改善了模型的稳健性。通过使用基准数据集进行广泛的实验，我们表明RVSE在图像-文本检索性能方面优于传统的检索方案。

The style transformer with common knowledge optimization for image-text retrieval

https://arxiv.org/abs/2303.00448
用于图像-文本检索的带有常识优化的风格transformer

将不同模态联系起来的图像-文本检索由于其出色的研究价值和广泛的现实应用而引起了广泛的关注。然而，大多数现有的方法没有充分考虑到高层次的语义关系（“风格嵌入”）和多模态的共同知识。为此，我们介绍了一种新型的带有常识优化的风格transformer 网络（CKSTN），用于图像-文本检索。其主要模块是常识适应器（CKA），包括风格嵌入提取器（SEE）和常识优化（CKO）两个模块。具体来说，SEE使用顺序更新策略，有效地连接SEE中不同阶段的特征。CKO模块的引入是为了动态地捕捉来自不同模式的常识的潜在概念。此外，为了获得广义的时间性常识，我们提出了一种顺序更新策略，将SEE中不同层次的特征与之前的共同特征单元进行有效整合。CKSTN在MSCOCO和Flickr30K数据集的图像-文本检索中展示了最先进方法的优势。此外，CKSTN是基于轻量级transformer 构建的，由于性能更好，参数更低，在实际场景中的应用更加方便和实用。

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval

https://arxiv.org/abs/2302.06350
VITR：用注重关系的学习增强跨模态信息检索的视觉transformer

以关系为重点的跨模态信息检索侧重于根据用户查询中表达的关系来检索信息，它在信息检索应用和下一代搜索引擎中尤为重要。虽然像对比语言-图像预训练（CLIP）这样的预训练网络在跨模态学习任务中取得了最先进的性能，但这些网络中使用的视觉转换器（ViT）在关注图像区域关系方面的能力有限。具体来说，ViT被训练成在全局层面上将图像与相关描述相匹配，而不考虑图像区域和描述之间的一致性。本文介绍了VITR，一个通过提取和推理基于本地编码器的图像区域关系来增强ViT的新型网络。VITR包括两个主要部分： (1)扩展基于ViT的跨模态网络的能力，以提取和推理图像中的区域关系；(2)将推理结果与全局知识汇总，以预测图像和描述之间的相似度分数。通过在Flickr30K、RefCOCOg和CLEVR数据集上将提出的网络应用于以关系为重点的跨模态信息检索任务，进行了实验。实验结果显示，在图像到文本和文本到图像的跨模态信息检索任务中，提出的VITR网络的表现优于其他各种最先进的网络，包括CLIP、VSE∞和VSRN++。

LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval

https://arxiv.org/abs/2302.02908
LexLIP：用于大规模图像-文本检索的词典-瓶颈语言-图像预训练

图像-文本检索（ITR）是一项从另一种模态的查询中检索相关图像/文本的任务。传统的密集检索范式依赖于使用双流编码器将图像和文本编码为密集的表示，然而，它在大规模检索场景中面临着低检索速度的挑战。在这项工作中，我们提出了词汇加权范式，即为图像和文本学习词汇空间的稀疏表示，以利用词包模型和高效的倒置索引，从而大大降低检索延迟。一个关键的差距来自于图像数据的连续性质，以及对稀疏词汇空间表示的要求。为了弥补这一差距，我们引入了一个新的预训练框架，即词典-瓶颈语言-图像预训练（LexLIP），它可以学习重要性感知的词典表示。这个框架的特点是在双流编码器和弱化文本解码器之间的词汇瓶颈模块，允许构建连续的词汇袋瓶颈来学习词汇的重要性分布。在用相同规模的数据进行预训练后，我们的LexLIP在两个基准ITR数据集MSCOCO和Flickr30k上实现了最先进的性能。此外，在大规模的检索场景中，LexLIP以5.5 ~ 221.3倍的检索速度和13.2 ~ 48.8倍的索引存储内存超越了CLIP。