CV技术指南 | DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度！

本文来源公众号“CV技术指南”，仅用于学术分享，侵权删，干货满满。

原文链接：DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度！

前言在本文中，作者提出了DetailCLIP：一种面向细节的CLIP，以解决基于对比学习的视觉语言模型的局限性，尤其是在处理面向细节和细粒度任务（如分割）方面。尽管CLIP及其变体在图像和文本表示的整体对齐方面表现出色，但它们通常难以捕捉精确分割所必需的细粒度细节。为了解决这些问题，作者提出了一种新的框架，该框架采用自蒸馏和像素级重建损失的层次比较，并增强了一个基于注意力的标记删除机制。这种方法选择性地保留语义相关的标记，使模型能够专注于与作者的模型特定功能（包括文本处理、标记比较和图像重建）对齐的图像关键区域，确保学习高级语义和详细视觉特征。

代码链接：GitHub - KishoreP1/DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks

1 Introduction

计算机视觉的快速进步使得能够精确理解并解释视觉数据的强大模型得到发展。其中，CLIP（对比语言图像预训练）[38] 脱颖而出，作为一种依赖图像与文本之间大规模对比学习的共享嵌入空间的先导方法。它在分类任务中表现出色，无需直接监督就能理解并关联到视觉内容到文本描述。

然而，尽管 CLIP 在概括性和高级语义理解方面表现出色，但其依赖对比损失的特性在适应更细粒度任务（如图像分割）时带来了明显的挑战。细粒度任务（如分割）要求对整个场景有全面的了解，并在像素 Level 精确划分物体边界。然而，对比学习中学习的全局表示往往无法捕捉这种详细 Level ，这导致在细节任务中使用 CLIP 性能不佳。

此外，传统的自监督学习（SSL）方法，由于其能够从无标注数据中学习，在细粒度任务中的应用通常是不够的。这些方法，包括对比学习或基于聚类的技术[32]，主要关注学习对高层任务（如分类或检测）有用的表示。然而，它们往往无法捕捉精细细节和空间关系，这对于精确边界划分和详细特征提取至关重要。这一限制在遮挡图像建模（MIM）方法中尤为明显，如 MAE[16]，SimMIM[47] 和 iBOT[56]，虽然它们在学

DetailCLIP引入了一个注意力-聚焦机制，用于保留图像中最相关且详细的部分。这种机制与相应的详细导向任务和文本描述有着紧密的联系。在图1中可以看出，该机制突出了任务的关键区域，确保了模型专注于最相关的细节。通过结合文本上下文，DetailCLIP增强了模型理解和强调与当前任务最相关的图像关键部分的能

作者提出了一种新的基于注意力的分词删除机制，该机制可以选择性地保留与对应文本描述以及详细定向任务具有强烈语义联系的分词，同时这种针对性的关注使得模型能够强调图像的最具相关性的区域，从而显著提高其捕捉细粒度细节的能力。
作者的模型实现了一种自蒸馏策略，该策略通过使用 Mask 图像来比较局部特征。这种方法有助于模型有效地学习低级语义特征，同时保持对图像内容的深入理解。
除了局部对比，作者的模型还采用 Mask 图像的像素级重构技术。这种技术确保模型可以准确重构和保留复杂的视觉细节，从而在需要高精度的任务中取得优胜。
通过解决现有基于CLIP的分词和传统自监督学习方法的局限性，作者的模型实现了一种在高层次语义理解和精确细节提取之间取得平衡的稳健方式。这使得它在零样本任务和应用中需求精雕细琢的细节调整方面效果特别显著。

2 Related Work

Self Supervised Learning

近年来，自监督学习（Self-Supervised Learning，简称SSL）已成为视觉预训练领域的 dominant 力量，得益于其能够从大规模无标签图像数据集中提取有意义视觉特征的能力。各种预训练策略为 SSL 的成功提供了燃料，这些策略关注于不同的预训练任务。在这些策略中，对比学习， Mask 图像建模（Masked Image Modeling，简称MIM）， Mask 频率建模（Masked Frequency Modeling，简称MFM），以及自监督知识蒸馏（Self-supervised Knowledge Distillation，简称KD）引起了广泛关注。

对比学习是一种流行的自监督学习技术，它将同一图像的不同视图放在共享的嵌入空间中，同时区分它们与其他图像视图 [35, 7]。尽管这种方法对学习全局特征有效，但它通常在需要详细精度的任务上面临挑战，例如图像分割。这是因为对比学习主要关注将整体图像表示进行对齐，这可能导致忽视细粒度的像素级细节。

另一方面， Mask 图像建模（MIM）在需要详细特征提取的任务上展现出更大的潜力。MIM涉及 Mask 图像的部分，并训练模型来恢复或预测缺失的部分，鼓励模型理解可见和隐藏区域之间的复杂关系。

CLIP-Based Approaches

自监督学习与视觉语言预训练的集成推动了一系列基于CLIP的模型的开发，每个模型都试图在视觉和文本数据之间建立桥梁。这些模型建立在原始CLIP框架之上，通过创新来提高表示的质量并改善图像和文本之间的对齐。

例如，SLIP [33] 通过将自监督学习和图像到图像对比学习相结合，增强了CLIP，从而产生了更丰富和更健壮的视觉表示。

MaskCLIP [12] 通过引入masked image建模，细化了视觉特征，通过专注于特定图像区域，确保它们更紧密地与相伴随的文本对齐。A-CLIP [48] 通过实现一个基于注意力的标记移除策略，选择性地保留与文本语义相关的标记，从而增强了视觉和文本对齐的精度。

虽然这些方法通过提高表示学习和效率来增强原始CLIP模型，但它们主要关注的是图像和文本之间的全局对齐。这种对全局特性的强调使得它们在细节导向的任务上效率较低，在这些任务中，捕捉和保留细粒度的视觉细节至关重要。在这些模型中，标记移除通常是无意识的或仅基于文本信息[12, 48]。相比之下，DetailCLIP通过采用基于注意力的机制，结合文本信息和细粒度任务，确保在细节敏感的应用中取得更好的性能。

3 Method

Preliminary and Background

DetailCLIP Framework

如图2所示，作者的架构可以分为以下步骤，这些步骤将在后续部分中详细讨论。3.2.1 级比对

作者采用教师-学生框架，在这种框架中，学生模型被训练以预测由教师模型生成的图像的细粒度和高粒度特征。教师模型为学生模型提供“目标”特征。对于每个输入，作者考虑两个视角：将原始视角输入教师模型，而将它们的数据 Mask 版本用作学生模型的输入。关于 Mask 过程的更多细节，请参阅第3.2.3节。学生模型的任务是预测被 Mask 的标记和由教师模型生成的全局特征。

作者使用两种主要的损失函数来训练学生模型，以确保全局特征和细粒度特征学习得到有效捕捉。

Pixel-Level Reconstruction

通过仅处理可见的图案，编码器大大减少了需要处理的数据量，从而提高了模型的效率。接着，解码器需要从编码器产生的潜在表示中重构原始图像。它通过使用编码的可见图案和一组表示 Mask 区域的标记来实现这一目的。与编码器相比，解码器较小且较轻，因为只是在预训练阶段需要使用。此外，使用较小的解码器，使得大部分计算工作集中在训练编码器上，从而使编码器更加健壮和强大。

这种过程非常适合精细粒度任务，因为它迫使编码器从有限的可见图案中提取详细信息，从而增强其识别和表示复杂特征的能力。通过专注于这些可见图案，编码器擅长捕捉在精度要求高的任务（如分割或详细物体识别）中的关键细微之处。解码器在重构图像的 Mask 区域方面承担的责任确保了这些细微之处保持并准确恢复，从而增强了模型处理复杂视觉数据的能力。

Token Removal

图像模型中 Token 删除，尤其在 Vision Transformers (ViT) 中，是一种通过选择性地删除对最终决策过程贡献较少的 Token 来优化注意力机制的方法。Token 删除方法使得模型可以动态地降低或忽略较不重要的区域，从而降低计算负载并使注意力集中在图像的最相关区域，最终提高性能和效率。

已提出许多 Token 删除的方法，如随机 Token 删除 [22] 和自注意力 Token 删除 [48]。在作者的工作中，作者介绍了一种新技术，该技术考虑了作者的模型的特定功能，包括文本信息处理、区域比较和图像重构。如4.2节所示，作者的 Token 删除策略同时处理了细粒度和粗糙粒度的细节，从而超过现有方法。

Integrated Loss Function

在本节中，作者引入了一个综合损失函数，该函数将多任务学习中必不可少的各种损失项融合在一起。综合损失函数定义为：

此外，在 ablation study 中，作者探讨了不同超参数选择的 impact，展示了改变这些权重如何影响整体模型性能和特定任务的成果。

4 Experiments

Setup

作者的计算设置旨在支持本研究中进行的广泛实验。它由四个节点组成，每个节点都配备了四台配备有80GB NVIDIA A100 GPU的计算机。

Training Data and Augmentation Strategy

作者的模型是在YFCC100M数据集[40]的1500万张图像子集[38]上进行训练的，该子集中仅包含英文的标题和描述。对于每个图像，作者在训练时随机选择一个有效的描述词--要么是标题，要么是描述，这采用了SLIP[33]中使用的方法。

为了增强模型的鲁棒性，作者使用类似于SLIP的数据增强策略。作者将图像随机缩放和裁剪，缩放后的尺寸在原始尺寸的50%和100%之间。这种增强策略应用于在线训练分支中的图像，使模型能够从同一图像的多样视角中学习。

对于教师部分，作者采用了稍有不同的方法。作者使用了一个比在线视图更大的随机裁剪子图，这使得作者能够准确计算注意力值。

Architecture and Training Setting

Experimental Analysis

Detail-Oriented Visual Tasks

为了全面评估作者提出的DetailCLIP框架的有效性，作者设计了一系列专注于细节处理的视觉任务实验。具体而言，作者实现了一系列不同的任务，这些任务侧重于模型在复杂视觉环境中捕获细微细节的能力。

语义分割在ADE20K上的应用：为评估DetailCLIP的分割能力，作者在ADE20K数据集[54]上进行了一系列实验，使用了不同的解码策略。首先，作者使用UperNet[45]解码器，这是语义分割的很好架构，来评估其划分物体边界和实现高分割精度的能力。接下来，作者采用线性解码器进行分割任务，以探索模型的适用性。这种更简单的方法允许作者评估DetailCLIP在最小架构复杂度下如何保持性能。这些实验共同提供了DetailCLIP在细节导向分割任务上的优势。

作者在输入分辨率512x512像素的UperNet或线性解码器上使用UperNet或线性解码器，进行端到端训练160k次。作者使用平均交并比(mIoU)指标评估模型的性能。

Image Classification

零样本在文本图像检索上的表现： 文中也提出在3个基准数据集上进行零样本文本图像检索：Flickr30K [50], MS-COCO [27]和ImageNet-1K [11]。作者的研究结果显示，仅使用纯文本，不添加任何前缀或后缀，在所有评估的模型中都能获得持强的性能。

表格2全面评估了不同模型在文本图像检索任务上的表现，重点关注Flickr30K和MS-COCO数据集，还有在ImageNet-1K上的零样本评估。

在25个周期时，DetailCLIP在大多数指标上表现最佳，在Flickr I2T (62.8)和T2I (42.2)上取得最佳结果，在COCO I2T (38.3)上与A-CLIP持平，同时在IN-1K上的零样本评估 (43.9) 上也取得最佳结果，非常接近A-CLIP的表现。对于50个周期，DetailCLIP保持了其优越性能，尤其是在COCO数据集中，与A-CLIP并列获得最佳的I2T得分 (39.8)，并在T2I上以24.9分的成绩超越了A-CLIP。这些结果表明，DetailCLIP在需要文本和图像之间进行详细匹配的任务上表现特别出色。DetailCLIP在两个数据集的I2T和T2I检索任务上都超过了其他模型，表明其在文本图像相关的任务上非常有效。

在多样基准上的零样本分类性能评估： 作者评估了作者的提出DetailCLIP方法在13种不同的分类任务上的零样本分类性能，这遵循了SLIP [33]建立的评估协议。这个严格的评估框架允许作者直接评估和比较DetailCLIP的性能与其他领先模型。

表3中的结果显示，DetailCLIP在所有竞争模型中均表现优异。具体来说，DetailCLIP在26种评估情况中取得了最高性能，在另外5种情况下取得第二好成绩。值得注意的是，DetailCLIP也同时在25个周期和50个周期的平均得分上取得了最高成绩，这突显了其在多样性基准上的稳健性和泛化能力。

这些结果表明，DetailCLIP在零样本分类任务上特别有效，尤其是与其他各种数据集上的最先进模型进行比较。

Ablation Study on Loss Weight Optimization

Conclusion

在本文中,作者介绍了一种名为DetailCLIP的新框架,旨在克服传统基于CLIP的模型的一个局限性,即在细微粒度和粗粒度任务上的不足。尽管现有的模型如CLIP在全局上对图像和文本表示进行对齐方面表现出色,但它们通常无法捕捉到像图像分割和目标检测等任务所需的精细细节。

为了解决这个问题,作者将创新技术集成到DetailCLIP中,包括patch Level 的比较、像素 Level 的重建和基于注意的 Token 删除机制。这些特性使得模型能够专注于图像的最关键区域,从而显著增强了其在细节导向任务上的表现。

作者的广泛实验证明,DetailCLIP在需要高度细节的任务上,如ADE20K数据集上的分割和MS COCO数据集上的目标检测, consistently优于最先进模型,在这些关键指标如mIoU和平均精确度上设定新的基准。

此外,DetailCLIP的优点不仅限于精细粒度任务,它还表现在粗粒度任务,如零样本分类方面也表现出色。

参考

[1].DetailCLIP: Detail-Oriented CLIP for Fine-Grained Tasks.

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。