【CVPR 2024】InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic

【CVPR 2024】InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

一、前言
Abstract
1. Introduction
2. Related Work
3. Proposed Method
4. Experiments
5. Conclusion

一、前言

Authors: Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai
单位：OpenGVLab, Shanghai AI Laboratory

【Paper】 > 【Github_Code】 > 【Project】

Abstract

背景问题大型语言模型 (LLM) 的指数级增长为多模式 AGI 系统开辟了无数可能性。然而，视觉和视觉语言基础模型（也是多模态 AGI 的关键要素）的进展并没有跟上大语言模型的步伐。
工作介绍：在这项工作中，我们设计了一个大规模视觉语言基础模型（InternVL），它将视觉基础模型扩展到 60 亿个参数，并使用网络规模web-scale的图像文本数据逐步与 LLM 对齐。来自各种来源。该模型可以广泛应用于 32 个通用视觉语言基准，并在这些基准上实现最先进的性能，包括图像级或像素级识别等视觉感知任务、零样本图像/等视觉语言任务视频分类、零样本图像/视频文本检索以及与大语言模型链接以创建多模式对话系统。它具有强大的视觉功能，可以成为ViT-22B的良好替代品。
展望：我们希望我们的研究能够为多模态大型模型的开发做出贡献。

1. Introduction

在这里插入图片描述

大型语言模型（LLM）以其在开放世界语言任务中令人印象深刻的能力极大地促进了通用人工智能（AGI）系统的发展，并且其模型规模和性能仍在快速增长。利用LLM的视觉大语言模型（VLLM）[3,5,19,21,28,69,87,113,147]也取得了重大突破，实现了复杂的视觉语言对话和交互。然而，对于 VLLM 也至关重要的视觉和视觉语言基础模型的进展却落后于 LLM 的快速发展。

为了将视觉模型与 LLM 连接起来，现有的 VLLM \cite{li2023blip2, zhu2023minigpt4, bai2023qwenvl, zhang2023internlmxcomposer, sun2023emu} 通常采用轻量级“粘合”层，例如 QFormer \cite{li2023blip2} 或线性投影 \cite{liu2023llava} 来对齐视觉和语言模型的特征。
这种对齐方式有几个限制：
(1)~\emph{参数尺度的差异。}
大型LLM~\cite{fedus2022switch}现在可提升多达10000亿个参数，而广泛使用的VLLM视觉编码器仍然在10亿左右。
这种差距可能会导致大语言模型能力的利用不足。
(2)~\emph{不一致的表示。}
在纯视觉数据上训练或与 BERT 系列一致的视觉模型 \cite{devlin2018bert,liu2019roberta,jia2021scaling} 经常表现出与 LLM 的表示不一致。
(3)~\emph{低效连接。}“粘合”层通常是轻量级且随机初始化的，这可能无法捕获对于多模态理解和生成至关重要的丰富的跨模态交互和依赖关系。

这些限制揭示了视觉编码器和大语言模型之间在参数规模和特征表示能力方面存在巨大差距。为了弥补这一差距，我们的灵感在于提升视觉编码器以与大语言模型的参数规模保持一致，并随后协调它们的表示。然而，如此大规模模型的训练需要从互联网获得大量的图像文本数据。这些数据中显着的异质性和质量变化给训练过程带来了相当大的挑战。为了提高训练的效率，生成监督被认为是对比学习的补充方法，如图 1 所示。该策略旨在在训练期间为模型提供额外的指导。然而，低质量数据对于生成训练的适用性仍然令人担忧。此外，如何有效地表示用户的命令并协调视觉编码器和LLM之间的表示是另一个悬而未决的问题。

为了解决这些问题，我们制定了 InternVL，一种大规模视觉语言基础模型，它将放大的视觉编码器的表示与大语言模型结合起来，并在各种视觉和视觉上实现了最先进的性能。语言任务。如图1（c）所示，InternVL具有三个关键设计：
（1）参数平衡的视觉和语言组件：它包括一个扩展到60亿个参数的视觉编码器和一个具有80亿个参数的LLM中间件，其中中间件作为一个重要的“粘合”层来重新组织视觉特征。与之前的纯视觉（图 1 (a)）或双塔（图 1 (b)）结构不同，我们的视觉编码器和中间件为对比任务和生成任务提供灵活的组合。
（2）\emph{一致表示}：为了保持视觉编码器和LLM之间表示的一致性，我们采用预先训练的多语言LLaMA~\cite{cui2023chinesellama}来初始化中间件并将视觉编码器与其对齐。
(3) \emph{渐进式图像文本对齐}：我们利用不同来源的图像文本数据，通过渐进式对齐策略确保训练稳定性。该策略启动对大规模噪声图像文本数据的对比学习，然后过渡到对细粒度数据的生成学习。这种方法确保模型性能和任务范围的持续增强。

这些设计赋予我们的模型几个优点：（1）多功能。它可以作为感知任务的独立视觉编码器，或者与视觉语言任务和多模态对话系统的语言中间件协作。语言中间件弥补了视觉编码器和LLM解码器之间的差距。（2）Strong强。通过利用训练策略、大规模参数和网络规模数据，我们的模型具有强大的表示能力，有助于在各种视觉和视觉语言任务上实现最先进的结果，如图所示如图 2 所示。 (3) LLM 友好。由于与 LLM 的特征空间一致，我们的模型可以与现有的 LLM 顺利集成，例如 LLaMA 系列 [106, 107]、Vicuna [145] 和 InternLM [104]。这些功能将我们的模型与以前的方法区分开来，并为各种应用程序建立了领先的视觉语言基础模型。

扫描二维码关注公众号，回复： 17524500 查看本文章

总之，我们的贡献有三个方面：
（1）我们提出了一个大规模视觉语言基础模型——InternVL，它首次从头开始将大规模视觉编码器与大语言模型结合起来。该模型在各种通用视觉语言任务上表现出强大的性能，包括视觉感知任务、视觉语言任务和多模态对话。
（2）我们引入了一种渐进式图像文本对齐策略，用于高效训练大规模视觉语言基础模型。该策略最大限度地利用网络规模的噪声图像文本数据进行对比学习，并最大限度地利用细粒度、高质量的数据进行生成学习。
(3) 我们将所提出的模型与当前最先进的视觉基础模型和 VLLM 进行了广泛比较。
结果表明 InternVL 在广泛的通用视觉语言任务上取得了领先的性能，包括图像分类 (ImageNet)、语义分割 (ADE20K)、视频分类 (Kinetics)、图像文本检索 (Flickr30K & COCO)、视频文本检索 (MSR-VTT) 和图像字幕 (COCO & Flickr30K & NoCaps)。同时，它对于多模态对话（MME & POPE & Tiny LVLM）也有效。

2. Related Work

2.1. Vision Foundation Models

过去十年见证了计算机视觉领域基础模型的重大发展。从开创性的AlexNet [55]开始，各种卷积神经网络（CNN）不断涌现，不断刷新ImageNet基准[27,32,43,47,49,72,114,124]。特别是，残差连接的引入[43]有效地解决了梯度消失的问题。这一突破导致了“大而深”神经网络的时代，这意味着，通过足够的训练和数据，更大、更深的模型可以实现更好的性能。换句话说，扩大规模很重要。

近年来，ViT[34]为计算机视觉领域的网络架构开辟了新的可能性。 ViT 及其变体 [13、23、30、71、89、111、112、125、139、140] 显着提高了其能力，并在各种重要的视觉任务中表现出色。在大语言模型时代，这些视觉基础模型通常通过一些轻量级的“粘合”层与大语言模型连接[60,69,147]。然而，存在差距，因为这些模型主要源自 ImageNet [31] 或 JFT [134] 等纯视觉数据集，或者使用图像文本对与 BERT 系列 [52,54,70] 对齐，缺乏与大语言模型。此外，用于连接 LLM 的流行视觉模型仍然限于大约 10 亿个参数 [37, 51]，这也限制了 VLLM 的性能。

2.2. Large Language Models

大型语言模型 (LLM) 彻底改变了人工智能领域，实现了以前被认为是人类独有的自然语言处理任务 [1, 106, 118]。 GPT-3[118]的出现带来了能力的显着飞跃，特别是在少样本和零样本学习方面，凸显了大语言模型的巨大潜力。随着 ChatGPT 和 GPT-4 [1] 的进步，这一承诺得到了进一步实现。开源LLM的出现进一步加速了该领域的进展，包括LLaMA系列[106, 107]、Vicuna[145]、InternLM[104]、MOSS[101]、ChatGLM[36]、Qwen[ 4]、百川[6]和Falcon [86]等[26,103,119]。

然而，在实际场景中，交互并不局限于自然语言。
视觉模态可以带来额外的信息，这意味着更多的可能性。
因此，探索如何利用大语言模型的优秀能力进行多模态交互将成为下一个研究趋势。

2.3. Vision Large Language Models

最近的进展已经创建了视觉大语言模型（VLLM）[3,21,56,59,62,66,100,121,128,130,136,138,141,142,148]，其旨在增强具有处理和解释视觉信息能力的语言模型。 Flamingo [3] 使用视觉和语言输入作为提示，并在视觉问答方面表现出出色的小样本性能。随后，GPT-4[1]、LLaVA系列[68、69、76]和MiniGPT-4[147]引入了视觉指令调整，以提高VLLM的指令跟踪能力。同时，VisionLLM [113]、KOSMOS-2 [87] 和 Qwen-VL 等模型。 [5,19,115]改进了具有视觉基础能力的VLLM，促进了区域描述和定位等任务。许多基于 API 的方法 [73、74、95、102、120、127、129] 也尝试将视觉 API 与 LLM 集成，以解决以视觉为中心的任务。此外，PaLM-E [35]和EmbodiedGPT [83]代表了使VLLM适应具体应用的先进努力，显着扩展了其潜在应用。这些工作表明 VLLM 已经取得了重大突破。然而，对于 VLLM 同样重要的视觉和视觉语言基础模型的进展却没有跟上。

3. Proposed Method

在这里插入图片描述

3.1. Overall Architecture

如图 3 所示，与传统的仅视觉主干网 [43,71,114] 和双编码器模型 [51,89,99] 不同，所提出的 InternVL 设计有视觉编码器 InternViT-6B 和语言中间件QLLaMA。具体来说，InternViT-6B 是一款具有 60 亿个参数的视觉转换器，经过定制以实现性能和效率之间的有利权衡。 QLLaMA 是一个具有 80 亿个参数的语言中间件，使用预先训练的多语言 LLaMA-7B [26] 进行初始化。它可以为图像文本对比学习提供强大的多语言表示，或者作为连接视觉编码器和现成的 LLM 解码器的桥梁

为了使两个在模式和结构上存在巨大差距的大型组成部分保持一致，
我们引入了渐进式对齐训练策略。
训练策略是循序渐进的，从大规模噪声数据的对比学习开始，逐步转向精细、高质量数据的生成学习。
%
通过这种方式，我们确保了来自各种来源的网络规模图文数据的有效组织和充分利用。
%
然后，配备了对齐的视觉编码器和语言中间件，我们的模型就像瑞士军刀一样发挥作用。
%
它拥有灵活的组合，可以适应各种通用视觉语言任务。这些任务的范围从视觉感知和图像/视频文本检索到图像字幕、视觉问答和多模式对话等。

3.2. Model Design

Large-Scale Vision Encoder: InternViT-6B. 我们使用普通视觉变压器（ViT）[34]来实现 InternVL 的视觉编码器。为了匹配大语言模型的规模，我们将视觉编码器扩展到 60 亿个参数，从而产生了 InternViT-6B 模型。为了在精度、速度和稳定性之间取得良好的权衡，我们对 InternViT-6B 进行了超参数搜索。我们在 {32, 48, 64, 80} 内改变模型深度，在 {64, 128} 内改变头部尺寸，在 {4, 8} 内改变 MLP 比率。模型宽度和头数是根据给定的模型比例和其他超参数计算的。

我们对 LAION-en 数据集 [91] 的 100M 子集采用对比学习来测量具有不同配置的 InternViT-6B 变体的准确性、速度和稳定性。我们报告以下发现：
(1) \emph{Speed.}
对于不同的模型设置，当计算未饱和时，深度较小的模型每张图像的速度更快。然而，随着 GPU 计算的充分利用，速度差异变得可以忽略不计；
(2) \emph{Accuracy.}
在参数数量相同的情况下，深度、头部尺寸和 MLP 比率对性能影响很小。根据这些发现，我们确定了最终模型最稳定的配置，如表 1 所示。
在这里插入图片描述
**Language Middleware: QLLaMA.**语言中间件 QLaMA 的提出是为了协调视觉和语言特征。如图3所示，QLLaMA是基于预训练的多语言LLaMA [26]开发的，并新增了96个可学习查询和随机初始化的交叉注意层（10亿个参数）。这种方式使得 QLLaMA 能够顺利地将视觉元素集成到语言模型中，从而增强组合特征的连贯性和有效性。

与最近流行的使用轻量级“粘合”层（例如 QFormer [61] 和线性层 [69]）来连接视觉编码器和 LLM 的方法 [61, 69] 相比，我们的方法具有三个优点：（1）通过使用[26]的预训练权重，QLLaMA可以将InternViT-6B生成的图像标记转换为与LLM对齐的表示形式；（2）QLLaMA有80亿个视觉语言对齐参数，比QFormer大42倍。因此，即使使用冻结的 LLM 解码器，InternVL 也可以在多模态对话任务上取得良好的性能。（3）它还可以应用于对比学习，为图文对齐任务提供强大的文本表示，例如零样本图像分类和图文检索。

“Swiss Army Knife” Model: InternVL. 通过灵活地结合视觉编码器和语言中间件，InternVL可以支持各种视觉或视觉语言任务。

(1) \emph{对于视觉感知任务}，InternVL 的视觉编码器，即 InternViT-6B，可以用作视觉任务的主干。
给定输入图像 $I\in\mathbb{R}^{H\times W\times 3}$ ，我们的模型可以生成特征图 $F\in \mathbb{R}^{H/14\times W/ 14\times D}$ 用于密集预测任务，或与全局平均池化和线性投影配合进行图像分类。

(2) \emph{对于对比任务}，我们引入两种推理模式：
\textbf{InternVL -C} 和 \textbf{InternVL -G}，使用视觉编码器或 InternViT 和 QLLaMA 的组合来编码视觉特征。
具体来说，我们将注意力池应用于 InternViT 的视觉特征或 QLLaMA 的查询特征，以计算全局视觉特征 $I_{f}$ 。
此外，我们通过从 QLLaMA 的 \texttt{[EOS]} 标记中提取特征，将文本编码为 $T_{f}$ 。
通过计算 $I_{f}$ 和 $T_{f}$ 之间的相似度分数，我们支持各种对比任务，例如图像文本检索。

(3) \emph{对于生成任务}，与 QFormer \cite{li2022blip} 不同，QLLaMA 由于其放大的参数，本质上具有有前景的图像字幕能力。
QLLaMA 的查询重新组织了 InternViT-6B 的视觉表示，并充当 QLLaMA 的前缀文本。后续的文本标记是按顺序一一生成的。

(4) \emph{对于多模式对话}，我们引入了 InternVL-Chat，利用 InternVL 作为与大语言模型联系的可视化组件。为此，我们有两种不同的配置。一种选择是独立使用 InternViT-6B，类似于 LLaVA-1.5 [68] 中的方法。另一种方法是同时使用完整的 InternVL 模型，如图 3 所示。

3.3. Alignment Strategy

如图3所示，InternVL的训练由三个渐进阶段组成。这些阶段有效地利用了不同来源的公共数据，从网络上嘈杂的图像文本对到高质量的标题、VQA 和多模态对话数据集。
在这里插入图片描述

Vision-Language Contrastive Training.
在第一阶段，我们进行对比学习，将 InternViT-6B 与多语言 LLaMA-7B [26] 在网络规模、噪声图像文本对上进行对齐。这些数据都是公开的，并且包含多语言内容，包括LAION-en [91]、LAION-multi [91]、LAION-COCO [92]、COYO [12]、Wukong [41]等。我们使用以下组合这些数据集并过滤掉一些质量极低的数据来训练我们的模型。如表2所示，原始数据集包含60.3亿个图像文本对，清洗后剩余49.8亿个图像文本对。有关数据准备的更多详细信息将在补充材料中提供。

在训练过程中，我们采用 LLaMA-7B 将文本编码为 $T_f$ ，并使用 InternViT-6B 提取视觉特征 $I_f$ 。遵循 CLIP [89] 的目标函数，我们最小化批次中图像文本对相似度分数的对称交叉熵损失。该阶段使 InternVL 在零样本图像分类和图文检索等对比任务上表现出色，并且该阶段的视觉编码器在视觉感知任务上也能表现良好。

Vision-Language Generative Training. 在第二阶段的训练中，我们将InternViT-6B与QLLaMA连接起来，并采用生成式训练策略。具体来说，QL-LaMA继承了第一阶段LLaMA-7B的权重。我们保持 InternViT-6B 和 QLLaMA 冻结，仅使用经过过滤的高质量数据训练新添加的可学习查询和交叉注意层。表 2 总结了第二阶段的数据集。可以看到，我们进一步过滤掉了低质量字幕的数据，将其从第一阶段的49.8亿条减少到10.3亿条。

遵循 BLIP-2 [61] 的损失函数，此阶段的损失计算为三个部分的总和：图像文本对比（ITC）损失、图像文本匹配（ITM）损失和图像- 接地文本生成（ITG）损失。这使得查询能够提取强大的视觉表示，并进一步将特征空间与 LLM 对齐，这归功于有效的训练目标和我们大规模的、LLM 初始化的 QLLaMA 的利用。

Supervised Fine-tuning. 为了展示 InternVL 在创建多模态对话系统方面的优势，我们通过 MLP 层将其与现成的 LLM 解码器（例如 Vicuna [145] 或 InternLM [104]）连接，并进行监督微调（SFT）。如表 3 所示，我们收集了广泛的高质量教学数据，总计约 400 万个样本。对于非对话数据集，我们遵循[68]中描述的格式进行转换。由于 QLLaMA 和 LLM 具有相似的特征空间，即使冻结 LLM 解码器、选择仅训练 MLP 层或同时训练 MLP 层和 QLLaMA，我们也能实现稳健的性能。这种方法不仅加快了 SFT 流程，还保留了大语言模型的原始语言能力。

4. Experiments

在这里插入图片描述

4.1. Implementation Details

第 1 阶段。在此阶段，图像编码器 InternViT-6B 被随机初始化 [7]，文本编码器 LLaMA-7B 使用 [26] 中的预训练权重进行初始化。所有参数都是完全可训练的。
第2阶段。在这个阶段，InternViT-6B和QLLaMA继承了第一阶段的权重，而QLLaMA中新的可学习查询和交叉注意层被随机初始化。我们保持 InternViT-6B 和 QL-LaMA 冻结，只训练新参数。
第三阶段。在这个阶段，我们有两种不同的配置。一种是单独使用InternViT-6B，类似于LLaVA-1.5[68]。另一种是同时使用整个 InternVL 模型，如图 3 所示。更多详细信息将在补充材料中提供。

4.2. Visual Perception Benchmarks

首先，我们验证了InternVL最核心组件InternViT-6B的视觉感知能力。

转移到图像分类。我们使用 ImageNet-1K [31] 数据集评估 InternViT-6B 生成的视觉表示的质量。遵循常见做法[30,44,84]，我们采用线性探测评估，即在保持骨干网冻结的同时训练线性分类器。除了 ImageNet-1K 验证集之外，我们还报告了几个 ImageNet 变体 [9、45、46、90、109] 的性能指标，以对域泛化能力进行基准测试。如表 4 所示，InternViT-6B 在线性探测方面比之前最先进的方法 [37,51,84] 取得了非常显着的改进。据我们所知，这代表了当前没有 JFT 数据集的最佳线性评估结果[134]。

转移到语义分割。为了研究 InternViT-6B 的像素级感知能力，我们在 ADE20K [146] 数据集上进行了广泛的语义分割实验。遵循 ViT-22B [30]，我们开始进行少量学习实验，即在有限的数据集上使用线性头微调主干网。如表 5a 所示，在使用不同比例的训练数据的五次实验中，InternViT-6B 始终优于 ViT-22B。此外，表 5b 展示了我们在三种不同设置下的进一步验证，包括线性探测、头部微调 [122] 和全参数微调。值得注意的是，在线性探测的情况下，InternViT-6B 达到了 47.2 mIoU，比 ViT-22B 大幅提高了 12.6 mIoU。这些结果强调了我们的 InternViT-6B 强大的开箱即用像素级感知能力。

4.3. Vision-Language Benchmarks

在本节中，我们评估 InternVL 在各种视觉语言任务上的固有能力。

零样本图像分类。我们对 InternVL-C 的零样本图像分类能力进行了彻底的验证。如表 6a 所示，InternVL-C 在各种 ImageNet 变体 [31、45、46、90、109] 和 ObjectNet [8] 上取得了领先的性能。与 EVA-02-CLIP-E+ [99] 相比，它对分布偏移表现出更强的鲁棒性，表现为跨 ImageNet 变体的准确性更加一致。此外，如表 6b 所示，我们的模型展示了强大的多语言能力，在多语言 ImageNet-1K 基准上优于竞争模型 [14,24,51,126]。

零样本视频分类。遵循之前的方法[89,99,117]，我们在Kinetics-400/600/700 [15-17]上报告top-1准确率以及top-1和top-5准确率的平均值。如表 8 所示，当仅对每个视频中的单个中心帧进行采样时，我们的方法在三个数据集上的平均准确率达到 71.0%、71.3% 和 65.7%，超过了 EVA-02-CLIP-E+ [99 ]分别增加+1.2、+2.0和+2.3点。此外，当在每个视频中均匀采样 8 帧时，InternVL-C 甚至优于使用网络规模视频数据训练的 ViCLIP [117]。

零样本图像文本检索。 InternVL展现出强大的多语言图文检索能力。在表7中，我们使用Flickr30K [88]和COCO [20]数据集以英语评估这些能力，并使用Flickr30K-CN [58]和COCO-CN [63]以中文评估这些能力。总之，InternVL-C 在大多数检索指标上实现了最先进的性能，并且通过第二阶段的预训练，InternVL-G 进一步增强了零样本图像文本检索性能。这些改进表明通过使用 QLLaMA 可以更有效地协调视觉和语言特征。

零镜头图像字幕。受益于对大量高质量图像文本对的视觉语言生成训练，我们的 QLLaMA 在零样本图像字幕方面具有良好的能力。如表 10 所示，QLLaMA 在 COCO Karpathy 测试集 [20] 上的零样本性能优于其他模型。当 InternVL 与 LLM（例如，Vicuna-7B/13B [145]）链接并进行 SFT 时，在 Flickr30K [88] 和 NoCaps [2] 数据集上观察到零样本性能的显着增强，如表9所示。

4.4. Multi-Modal Dialogue Benchmarks

除了传统的多模态任务之外，ChatGPT [1]的出现使得人们越来越关注评估多模态模型在实际使用场景中的性能，特别是在多模态对话领域。我们在两个著名的多模态对话基准上对 InternVL-Chat 模型进行了测试，包括 MME [39] 和 POPE [65]。如表 9 所示，它清楚地表明我们的模型与以前的方法相比表现出优越的性能。

4.5. Ablation Study

InternViT-6B 的超参数。正如第 3.2 节中所讨论的，我们探索了模型深度 {32, 48, 64, 80}、头部尺寸 {64, 128} 和 MLP 比率 {4, 8} 的变化，从而产生了 16 个不同的模型。在选择最佳模型时，我们最初将重点缩小到 6 个模型，根据其吞吐量进行选择，如表 11 所列。这些模型在 LAION-en 的 100M 子集上使用对比学习进行了进一步评估[91 ] 超过 10K 次迭代。对于实验设置，主要区别是使用 CLIP-L [89] 中的随机初始化文本编码器，以加快训练速度。出于准确性、推理速度和训练稳定性的考虑，我们最终选择变体 3 作为最终的 InternViT-6B。

特征表示的一致性。在本研究中，我们验证了 InternVL 与 LLM 的特征表示的一致性。我们采用极简设置，即仅使用 LLaVA-Mix-665K \cite{li2021improved} 数据集进行单阶段 SFT。此外，只有 MLP 层是可训练的，从而确认了各种视觉基础模型和 LLM 的特征之间的固有对齐水平。结果如表 12 所示。这些显着的改进清楚地表明 InternVL 的特征表示与现成的 LLM 更加一致。

5. Conclusion

在本文中，我们提出了 InternVL，这是一种大规模视觉语言基础模型，可将视觉基础模型扩展到 60 亿个参数，并针对通用视觉语言任务进行调整。具体来说，我们设计了一个大规模视觉基础模型 InternViT-6B，逐步将其与 LLM 初始化的语言中间件 QL-LaMA 对齐，并利用来自各种来源的网络规模图像文本数据进行高效训练。它弥合了视觉基础模型和大语言模型之间的差距，并展示了对各种通用视觉语言任务的熟练程度，例如图像/视频分类、图像/视频文本检索、图像字幕、视觉问答、和多模式对话。我们希望这项工作能够为 VLLM 社区的发展做出贡献。