Tag2Text: Guiding Vision-Language Model via Image Tagging——通过图像标签引导视觉语言模型

这篇文章介绍了一个名为 Tag2Text 的视觉语言预训练（VLP）框架，旨在通过引入图像标签来增强视觉语言模型的性能和语义对齐能力。以下是文章的主要研究内容总结：

1. 研究背景与动机

视觉语言预训练（VLP）：通过学习图像和文本之间的多模态表示来提升视觉语言任务（如图像描述生成、图像 - 文本检索等）的性能。
现有方法的局限性：
- 传统方法依赖于手动标注或现成目标检测器提供的有限标签，限制了模型的泛化能力。
- 基于检测器的方法存在模型参数过多、运行时间长等问题，且检测器在预训练期间需要冻结，限制了模型的优化空间。
- 无检测器的模型虽然解决了上述问题，但丢弃了有价值的标签信息。

2. Tag2Text 框架

核心思想：通过从图像 - 文本对中自动解析出的标签来监督图像标签识别任务，从而为视觉语言模型提供更丰富的语义指导。
主要贡献：
- 提出了一种新的多任务预训练方法，将图像标签识别、图像 - 标签 - 文本生成和图像 - 文本对齐整合到一个框架中。
- 展示了利用大规模无标注图像标签进行预训练的潜力，其零样本性能与全监督方法相当。
- 在多种下游任务（包括图像描述生成、图像 - 文本检索和图像标签识别）上取得了显著的性能提升。

3. 方法细节

图像标签解析：
- 使用文本语义解析器从图像 - 文本对中提取标签，包括物体、场景、属性和动作等。
- 构建了一个包含 3,429 个常用类别的标签系统，这些类别是从大规模数据集中筛选出来的。
预训练任务：
- 图像标签识别：通过一个简单的识别头将图像特征与标签对齐，使用鲁棒的对齐损失函数进行优化。
- 图像 - 标签 - 文本生成：将图像特征和标签作为输入，生成与图像相关的文本描述。
- 图像 - 文本对齐：通过对比学习和匹配学习，增强图像和文本之间的对齐能力。
模型架构：
- 使用 Transformer 编码器 - 解码器架构，支持端到端训练。
- 通过交叉注意力机制将图像特征与文本特征进行交互。

4. 实验与结果

图像标签识别：
- 在 COCO、OpenImages 和 OPPO 数据集上进行评估，Tag2Text 在零样本设置下取得了与全监督方法相当的性能。
图像描述生成：
- 在 COCO Captions 和 NoCaps 数据集上，Tag2Text 的性能超过了其他最先进的生成模型，尤其是在生成更全面和准确的描述方面。
图像 - 文本检索：
- 在 COCO 和 Flickr30K 数据集上，Tag2Text 在图像到文本和文本到图像检索任务上均取得了优异的性能。
标签引导的可控性：
- 通过调整标签识别头的阈值，可以控制生成文本的质量和内容，证明了标签引导对生成任务的重要作用。

5. 结论

Tag2Text 通过引入图像标签作为视觉语言模型的语义引导，有效提升了模型在多种任务上的性能和可控性。
该框架展示了标签作为图像和文本之间桥梁的价值，为视觉语言模型的研究提供了新的方向。

6. 局限性

幻觉性描述：当用户输入错误的标签时，可能会导致生成不准确的描述。
小目标识别：在识别小目标（如汤匙或棒球）时表现欠佳，但通过增加分辨率可以显著提升性能。

这篇文章的核心创新在于将图像标签作为视觉语言模型的语义引导，通过多任务预训练方法整合图像标签识别、生成和对齐任务，从而在多种视觉语言任务上取得了显著的性能提升。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

摘要

本文介绍了 Tag2Text，这是一个视觉语言预训练（VLP）框架，通过引入图像标签来引导视觉语言模型学习视觉 - 语言特征。与以往使用手动标注或通过现成检测器自动检测的有限性能目标标签的工作不同，我们的方法明确学习一个图像标签器，使用从图像 - 文本对中解析出的标签进行监督，从而为视觉语言模型提供强大的语义引导。通过这种方式，Tag2Text 可以利用大规模无标注的图像标签，并且提供超出物体的更多样化的标签类别，例如场景、属性、动作等。因此，Tag2Text 展现出作为基础图像标签模型的能力，其零样本性能甚至可以与全监督模型相媲美。此外，通过利用标签引导，Tag2Text 有效提升了视觉语言模型在基于生成和基于对齐任务上的性能。在广泛的下游基准测试中，Tag2Text 在类似模型大小和数据规模的情况下实现了最先进的结果，证明了所提标签引导的有效性。

图 1：(a) 1⃝：以往的研究基于现成的目标检测器，展示了将目标标签整合到视觉语言（VL）模型中的有效性。2⃝：由于检测器限制了模型的容量且耗时，近期的视觉语言模型通常避免使用检测器，导致有价值的标签未能得到充分利用。3⃝：我们通过图像标签重新将标签引导引入无检测器的视觉语言模型中。我们使用一个简单的标签头，并通过从其配对文本中解析出的无标注图像标签对其进行监督。我们的模型实现了卓越的标签能力，并有效提升了视觉语言任务的性能。(b) 对比视觉语言模型中使用的目标检测器和图像标签。

1 引言

视觉语言预训练（VLP）已被证明是学习通用多模态表示并改进视觉语言（VL）任务的有效方法，包括基于生成的任务（例如，图像描述）和基于对齐的任务（例如，图像 - 文本检索）。随着大规模图像 - 文本对数据集（Sharma 等人，2018；Changpinyo 等人，2021；Schuhmann 等人，2021；Radford 等人，2021；Jia 等人，2021）的可用性，近期的研究主要集中在使用基于 Transformer 的模型从大量图像 - 文本对中进行对比（Radford 等人，2021；Jia 等人，2021；Li 等人，2021；Bao 等人，2021；Li 等人，2022；Yu 等人，2022）或生成学习（Wang 等人，2021b；Li 等人，2022；Wang 等人，2022a；Chen 等人，2022；Yu 等人，2022；Wang 等人，2022c；d；Li 等人，2023）。尽管取得了巨大进展，但这些研究通常依赖于直接涉及不同模态特征的暴力预训练方式，由于缺乏图像和文本之间的显式对齐监督，因此建模为弱监督学习（Li 等人，2020b；Hu 等人，2021；Zeng 等人，2021）。

以往的方法（例如，OSCAR（Li 等人，2020b），VIVO（Hu 等人，2021），X-VLM（Zeng 等人，2021））引入了目标标签的使用，作为锚点以简化图像和文本之间语义对齐的学习。然而，这些方法依赖于过时的基于检测器的 VLP 框架，该框架使用现成的目标检测器（例如，Faster RCNN（Ren 等人，2015））来提取图像特征（如图 1（1）所示）。基于检测器模型的主要限制是，所使用的对象检测器通常并不完美，但在 VLP 期间必须保持冻结以维持检测能力，从而限制了视觉 - 语言模型的容量（Li 等人，2021；Dou 等人，2022；Huang 等人，2022）。此外，使用目标检测器会导致模型参数大幅增加和运行时间延长（Li 等人，2021；Kim 等人，2021）。因此，更近期的工作（Li 等人，2021；2022；Dou 等人，2022；Li 等人，2023）主要使用无检测器的 VL 模型来解决这些限制，导致有价值的标签被丢弃（如图 1（2）所示）。

在本工作中，如图 1（3）所示，我们通过图像标签的创新方法将标签引导重新引入无检测器的 VL 模型中。我们从两个关键角度证明了将图像标签与其他 VLP 任务以多任务方式整合是一种自然且有效的方法。1）数据：预训练图像标签是通过自动文本语义解析获得的，使得可以利用大规模无标注的图像标签，而无需像目标检测器那样需要昂贵的定位标注。图像标签还提供了图像和文本之间更好的桥梁，因为解析出的标签类别更多样化，超出物体，例如场景、属性、动作等。2）架构：图像标签只需在原始图像编码器后面添加一个识别头，确保高效的端到端预训练，并且参数更少、效率更高。图 1（b）提供了图像标签和目标检测在 VL 模型中的全面比较。

具体而言，我们提出了 Tag2Text，这是一个将图像标签引入视觉语言模型以引导视觉 - 语言特征学习的 VLP 框架。对于图像标签，以往的方法主要依赖于有限的手动标注数据集（Lin 等人，2014；Everingham 等人，2015），导致泛化能力较差。相比之下，Tag2Text 利用大规模图像 - 文本对，实现了对 3,429 个常见人类使用类别的卓越标签识别能力。值得注意的是，Tag2Text 展现出作为基础图像标签模型的能力，其零样本性能显著优于其他最先进的视觉 - 语言模型，例如 CLIP（Radford 等人，2021）、BLIP（Li 等人，2022）和 BLIP-2（Li 等人，2023），甚至可以与全监督模型（Ridnik 等人，2023）相媲美。

此外，Tag2Text 有效利用标签引导来提升视觉语言模型的性能。对于基于生成的任务，我们将训练任务设计为图像 - 标签 - 文本生成，使模型能够根据图像特征和分配的标签生成文本描述。如图 2 所示，Tag2Text 在全面识别的标签引导下生成更全面的文本描述。此外，Tag2Text 允许用户输入期望的标签，提供了在组成相应文本方面的灵活性（Zheng 等人，2019）。对于基于对齐的任务，以往的模型依赖于将多模态特征视为黑箱方法进行对齐，Tag2Text 通过将标签作为可见的对齐指标来增强这些方法。

图 2：Tag2Text（在 1400 万图像上预训练）和 BLIP（Li 等人，2022；在 1.29 亿图像上预训练）的图像描述生成结果对比。Tag2Text 将识别出的图像标签作为引导元素整合到文本生成中，从而生成更全面的文本描述（定量结果见表 2）。此外，Tag2Text 还允许用户输入指定的标签以生成相应的标题，提供了一种通过输入标签控制标题生成的方法。

我们的主要贡献可以总结如下：

首次，Tag2Text 通过利用从图像 - 文本对中解析出的大规模无标注图像标签，展现了基础图像标签模型的潜力，其零样本能力可与全监督方法相媲美。
Tag2Text 通过无缝整合图像标签，将标签引导重新引入无检测器的视觉语言模型中，有效提升了基于生成的任务和基于对齐的任务的性能。
一系列下游基准测试以及定性结果证明了 Tag2Text 的卓越标签能力以及将标签引导信息整合到视觉语言模型中的有效性。

2 相关工作

视觉语言模型分为基于生成的模型和基于对齐的模型。基于生成的模型涉及根据输入图像生成相关文本。初始的基于生成的模型方法依赖于两阶段过程：首先从图像中识别标签，然后使用这些标签来组成标题（Fang 等人，2015）。值得注意的是，在文本生成阶段，图像特征并未参与。随着语言模型的显著进展（Devlin 等人，2018；Brown 等人，2020；Ouyang 等人，2022），语言建模逐渐成为视觉语言生成模型中的主导预训练目标（Wang 等人，2021b；Li 等人，2022；Wang 等人，2022c；Chen 等人，2022；Wang 等人，2022a；d）。这种方法赋予了视觉语言模型根据视觉信息生成表达性标题的能力。与现有工作不同，我们提出的方法是一种新颖的图像 - 标签 - 文本生成方案，使模型能够根据分配的标签有效调节生成文本的内容和质量。

基于对齐的模型涉及判断图像和文本是否匹配。以往的模型执行图像 - 文本对比学习（Radford 等人，2021；Jia 等人，2021；Li 等人，2021；Bao 等人，2021；Li 等人，2022；Huang 等人，2022）采用双编码器架构，或图像 - 文本匹配（Li 等人，2020b；2021；Bao 等人，2021；Dou 等人，2022；Li 等人，2022）采用融合编码器架构。IDEA（Huang 等人，2022）引入了识别出的标签作为附加文本监督，仅增强了图像分类准确性。这些模型主要依赖于多模态特征的对齐，这些特征被视为用于检索任务的黑箱方法。Tag2Text 通过将标签作为可见的对齐指标来增强这些方法，从而实现进一步的性能提升。

图像标签，也称为多标签图像识别，是一项基本的计算机视觉任务，涉及识别给定图像的多个标签。传统方法依赖于全连接分类器和二元交叉熵损失（BCE）进行优化。近期的研究提出了基于 Transformer 的分类器（Liu 等人，2021a；Ridnik 等人，2023），以更好地利用视觉特征，以及鲁棒的损失函数（Ridnik 等人，2021；Zhang 等人，2021b），以解决缺失样本和正负样本不平衡的问题。大多数现有的多标签数据集（Lin 等人，2014；Everingham 等人，2015）依赖于手动标注，这些标注工作量大且难以扩展。我们的研究通过文本语义解析高效地获取图像标签，并构建了一个包含 3,429 个常用类别的大规模图像标签数据集，从而实现了卓越的标签识别能力。

图 3：Tag2Text 框架的示意图。Tag2Text 的核心在于引入了由其配对文本中解析出的无标注图像标签进行监督的图像标签识别任务。生成：Tag2Text 通过利用自动解析出的标签来学习生成与图像相关的文本，从而在识别出的标签的引导下生成全面且可控的文本。对齐：Tag2Text 对图像和文本进行对齐，并在推理过程中将标签作为可见的对齐指标。

3 方法

3.1 框架概述

我们提出了 Tag2Text，这是一个通过引入图像标签来增强视觉语言模型性能的 VLP 框架。图 3 展示了 Tag2Text 的框架。在大规模图像 - 文本对的基础上，Tag2Text 的核心在于利用图像标签。最初，图像标签是通过文本语义解析提取的，提供了一种无需昂贵手动标注的大规模标签获取方式。随后，解析出的标签可以作为图像标签识别任务的真实标签。此外，我们设计了一种新颖的图像 - 标签 - 文本生成方案，使模型能够根据识别出的标签有效调节生成文本的内容和质量。此外，Tag2Text 还涵盖了图像 - 文本对齐，并将标签作为可见的对齐指标。

3.2 从文本中挖掘标签

文本语义解析器用于将文本解析为图像标签。解析器（Wu 等人，2019）首先根据依赖树的规则识别输入句子中的实体（= 头 + 修饰语）和关系。依赖树是一种语法结构，用于映射句子内的句法关系。随后，我们根据从头 → 物体 / 场景、修饰语 → 属性和关系 → 动作的对比图，获得图像的标签（包括物体、场景、属性和动作）。例如，给定句子 “A red alarm clock is on a wooden desk”，解析器自动解析为：“头”：[“alarm clock”，“desk”]，“修饰语”：[“red”，“wooden”]，“关系”：[“on”]。

标签类别系统构建基于这样一个原则：出现频率更高的标签被认为更重要，因为它们反映了图像描述中的常见元素。通过使用文本语义解析器，我们处理了 400 万开源图像 - 文本对，并选择了出现频率最高的 5,000 个标签。进一步通过人工标注进行筛选，最终选出了 3,429 个最常被人类使用的标签类别（例如，将 “person” 和 “human” 这样的同义词合并）。更多统计信息和细节请参见附录 B。

3.3 Tag2Text 预训练

以图像 - 标签 - 文本三元组为输入，Tag2Text 采用多任务预训练方法，包括标签识别、生成和对齐。基于生成的任务和基于对齐的任务都利用图像标签的引导来提升性能。具体而言，从图像编码器获得的共享视觉特征通过交叉注意力与各种预训练任务进行交互。

图 4：图像 - 文本生成对比。
(a) 早期工作（Fang 等人，2015）主要采用多阶段方法，分别进行标签识别和文本组成。在文本组成阶段，图像特征未被利用。
(b) 近期的研究通常直接从图像特征生成文本，这使得生成的文本难以控制。
(c) 我们的方法将标签作为桥梁，引导图像特征进行文本生成，从而改善内容和质量控制。

图像标签识别旨在将图像特征与相应的标签关联起来。我们应用图像 - 标签识别解码器（Liu 等人，2021a）并采用鲁棒的对齐损失函数进行优化。与依赖于全局图像特征与文本通过点积相互作用进行对齐的 CLIP 相比，Tag2Text 引入了一种更细粒度的视觉空间特征与标签（从文本中解析而来）的对齐，通过高效的识别解码器实现。这种方法特别适用于多标签识别，因为标签通常对应于多个图像区域，并且在文本中以标记级别存在。

图像 - 标签 - 文本生成旨在根据图像特征和分配的标签生成文本。为了实现图像 - 标签 - 文本生成，Tag2Text 采用 Transformer 编码器 - 解码器（Vaswani 等人，2017）架构。在文本开头添加 [BOS] 标记以指示序列的开始。为了消除位置偏差，图像标签在处理前会重新排列。标签和文本都通过标记化和词嵌入矩阵转换为嵌入。标签嵌入与图像特征在图像 - 标签交互编码器中整合，随后传递到图像 - 标签 - 文本生成解码器进行文本生成。文本嵌入用作真实值，通过语言建模损失（LM）优化模型。

图像 - 文本对齐旨在判断给定的图像和文本对是否对齐。按照 Li 等人（2022）的方法，Tag2Text 引入了一个额外的图像 - 文本对齐编码器。文本通过标记化和词嵌入转换为嵌入。然后，文本嵌入通过编码器，并与图像特征进行粗粒度的图像 - 文本对比损失（ITC）。随后，文本嵌入通过交叉注意力与图像特征进行细粒度的图像 - 文本匹配损失（ITM）。具有更高 ITC 相似性的负样本将以更高的概率被选中进行 ITM 的难样本挖掘。

3.4 标签引导的视觉 + 语言任务

图像标签识别，也称为多标签图像识别，要求模型识别图像的所有相关标签。图像标签识别可以作为模型识别能力的有效指标。如图 3（a）所示，Tag2Text 直接利用图像 - 标签识别解码器来实现这一任务。

图像描述生成要求模型为给定图像生成文本描述。图 3（b）显示，在微调阶段使用了与图像 - 标签 - 文本生成预训练相同的组件。以往的图像 - 文本生成模型难以控制生成描述的内容。通过整合图像 - 标签识别解码器识别出的全面标签，我们的方法有效提升了生成文本的性能。此外，用户还可以输入替代的引导标签，以生成突出图像特定方面的描述。

图像 - 文本检索包括图像到文本和文本到图像的检索。以往的方法仅基于不同模态的特征匹配图像 - 文本对，导致缺乏控制和可解释性。我们的方法，如图 3（d）所示，通过将标签作为可见的对齐指标来增强这些方法（图像识别 → 标签，文本解析 → 标签）。通过权衡匹配标签的数量与特征相似性，Tag2Text 提升了检索结果。此外，实际应用中，用户通常使用几个关键词而不是句子来搜索图像，这突显了我们方法的优势。图 5 展示了一些使图像和文本之间有效对齐的可见对齐指标的示例。

4 实验

4.1 实验设置

按照 Li 等人（2021；2022）的方法，我们在两个广泛使用的数据集设置上预训练我们的模型，分别是一个包含 400 万图像的数据集和一个包含 1400 万图像的数据集。400 万图像数据集设置包括两个人工标注的数据集（COCO（Lin 等人，2014）和 VG（Krishna 等人，2017））和两个网络数据集（SBU Captions（Ordonez 等人，2011）和 CC-3M（Sharma 等人，2018））。1400 万图像数据集设置在 400 万设置的基础上，增加了更多噪声网络数据集 CC-12M（Changpinyo 等人，2021）。我们采用两个在 ImageNet（Deng 等人，2009）上预训练的最广泛使用的骨干网络作为图像编码器：ViTBase（Dosovitskiy 等人，2021）和 SwinBase（Liu 等人，2021b）。除非特别标注下标，否则默认的视觉模型指的是以 SwinBase 作为图像编码器的模型。更多实现细节请参见附录 A。

4.2 图像标签识别评估

为了评估 Tag2Text 的标签能力，我们在两个多标签识别任务上进行评估：COCO 和 OpenImages（Kuznetsova 等人，2020）。考虑到 OpenImages 中存在大量罕见类别且标签缺失，我们整理了一个包含常见类别和高质量标签的子集。我们还使用了一个内部高质量标注的测试集，称为 OPPO，以全面评估标签性能。我们的模型在 COCO 训练数据集上进行微调，使用 COCO 标题注释中提供的文本和解析出的标签，因为原始的 COCO 多标签注释仅包含 80 个类别的标签。更多细节请参见附录 C。在附录 E 中还提供了在 NUS-WIDE（Chua 等人，2009）上额外的零样本评估。

表 1：图像标签识别与分类模型的性能比较（以 mAP 衡量）。蓝色表示零样本性能；绿色表示全监督学习；黄色表示模型见过相应的训练图像，但未见过标注。值得注意的是，Tag2Text 在 OpenImages 上的零样本泛化能力甚至可以与 ML-Decoder 的全监督性能相媲美。

表 2：图像标签识别与视觉语言模型的性能比较。值得注意的是，Tag2Text 展示出卓越的零样本图像识别能力，超过了其他视觉语言模型，尽管这些模型的训练数据集规模更大。

这些标签基准测试用于衡量图像识别模型对常见类别的识别能力。表 2 展示了 Tag2Text 与其他最先进的识别模型（包括分类模型和视觉语言模型）的比较。对于分类模型，Tag2Text 展示出卓越的零样本识别能力，甚至可以与全监督方式的 ML-Decoder 相媲美。对于视觉语言模型，对于基于对齐的视觉语言模型，我们通过计算图像与所有标签类别的相似性并进行阈值处理来获得图像标签。对于基于标题的视觉语言模型，我们解析标题并将其分类为同义词以获得图像标签。值得注意的是，Tag2Text 的标签和标题能力显著超过了其他最先进的视觉语言模型（包括 CLIP、BLIP、BLIP-2）在常见类别识别方面。

4.3 图像描述生成评估

在第 4.2 节中，我们基于图像标签基准测试提供了一种新颖的标题评估范式，有效衡量了标题对常见类别的识别能力。在本节中，我们在两个已建立的图像描述生成基准测试上评估 Tag2Text：COCO Captions（Karpathy & Fei-Fei，2015）和 NoCaps（Agrawal 等人，2019），后者更侧重于识别新物体。表 3 展示了 Tag2Text 与其他最先进的生成模型的比较。为了确保公平性，我们比较了所有方法的基础版本，这些版本没有使用 CIDEr 优化（Rennie 等人，2017）。

实验结果表明，Tag2Text 在两个基准测试的所有指标上均优于其他方法，且模型大小和数据规模相似。此外，Tag2Text 在大多数指标上超过了 BLIP + Bootstrap，后者采用数据集引导方法，以及 LEMON 和 SIMVLM，它们分别在 2 亿和 18 亿图像上进行预训练。值得注意的是，由于 Tag2Text 具备生成和对齐的双重能力，其性能还可以通过引导进一步提升，我们计划在未来的工作中实现这一目标。

4.4 图像 - 文本检索评估

图像 - 文本检索任务在两个基准测试上进行评估：COCO 和 Flickr30K（Plummer 等人，2015），分别针对图像到文本检索（I2T）和文本到图像检索（T2I）。表 4 展示了与其他方法的性能比较。在等效的预训练数据和图像编码器配置下，Tag2Text 展示出与 ALBEF、VLMO 和 BLIP 相当或更优的性能。Tag2Text - Swin 进一步显著提升了性能。更重要的是，Tag2Text 中的标签对齐整合使其更适合实际搜索场景，用户可以通过几个关键词的查询来搜索。

表 3：在 COCO 和 NoCaps 标题基准测试上的图像描述生成性能比较。BLIP* 表示我们复现的结果。+Bootstrap 表示使用生成和对齐任务的两阶段数据集引导方法。

表 4：在 COCO 和 Flickr30K 基准测试上的图像 - 文本检索性能比较。BLIP* 表示我们复现的结果。+Bootstrap 表示使用生成和对齐任务的两阶段数据集引导方法。

4.5 标签引导分析

在本节中，我们进行详细分析以调查标签引导的有效性。

标签引导评估。在表 5 中，我们在广泛的下游基准测试中验证了引入标签引导的优越性，包括四个生成基准测试、两个检索基准测试和两个识别基准测试。

表 5：在微调（FT）和零样本（ZS）设置下，对八个下游基准测试进行标签引导的评估。✗ 表示该方法无法直接转移到相应的基准测试。

图像描述生成的可控性分析。我们通过操纵标签头的阈值来获得不同质量的标签引导。如图 6 所示，当标签（在 OpenImages 上评估）的精度或召回率较低时，图像描述生成的性能（在 COCO 上评估）会下降。这些结果有效地证明了标签引导对图像描述生成具有显著的控制作用。

图像描述生成性能与标签引导性能之间的强相关性表明，标签引导对图像描述生成具有显著的控制作用。• 左轴的线条：图像描述生成性能。▲ 右轴的线条：标签引导性能。

标签引导的可控性分析。我们通过操纵标签头的阈值来获得不同质量的标签引导。如图 6 所示，当标签（在 OpenImages 上评估）的精度或召回率较低时，图像描述生成的性能（在 COCO 上评估）会下降。这些结果有效地证明了标签引导对图像描述生成具有显著的控制作用。

更好的图像与文本之间的桥梁。为了突出 Tag2Text 在标签识别方面的优势，我们将识别出的标签与其他最先进的开源模型在多标签识别和目标检测方面进行了比较。对于多标签识别，我们使用基于 OpenImages（Kuznetsova 等人，2020）的 9,600 个类别的 ML-Decoder（Ridnik 等人，2023）模型。对于目标检测，我们使用基于 LVIS（Gupta 等人，2019）的 1,203 个类别的 Detic（Zhou 等人，2022）模型。比较结果如图 7 所示，ML-Decoder 识别出许多不常用的标签，并且缺少许多明显的常见标签。另一方面，Detic 仅限于识别目标类别。相比之下，Tag2Text 提供了一套更全面且更常用的标签，包括物体、场景、属性和动作。

表 6：图像标签识别的消融研究。背景颜色的表示与表 2 一致。

消融研究。尽管从文本中解析出的标签存在噪声，但我们的模型设计使得 Tag2Text 能够利用带噪声的标签，并实现卓越的图像标签性能。如表 6 所示，将视觉语言预训练任务整合到模型中也提升了标签识别能力。此外，表 6 突出了在多标签识别背景下 “预训练 + 微调” 两阶段范式的价值。仅在有限的 COCO 数据集上训练的模型无法在 OpenImages 数据集上泛化，其 mAP 得分为 57.5。然而，当在大规模数据集上进行预训练时，我们的模型表现出色，即使没有接触过 OpenImages 数据集的训练图像，也能实现 83.4 的 mAP，与 85.8 mAP 的全监督性能相当。

5 结论

本文介绍了 Tag2Text，这是一个视觉语言预训练框架，通过引入图像标签来增强视觉语言模型。Tag2Text 通过利用细粒度的文本信息，实现了卓越的图像标签识别能力。此外，Tag2Text 利用标签引导，有效提升了视觉语言模型的性能和可控性。在广泛的视觉语言任务中，Tag2Text 展示了标签作为图像和文本之间的桥梁的价值，以注入结构和知识信息到视觉语言模型中。