【读点论文】Vary: Scaling up the Vision Vocabulary for Large Vision-Lang...构建更泛化的中文视觉语言词表，继承了SAM和CLIP知识

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

Abstract

现代大型视觉语言模型 (LVLM) 拥有相同的视觉词汇表 – CLIP，它可以涵盖最常见的视觉任务。然而，对于一些需要密集和细粒度视觉感知的特殊视觉任务，例如文档级 OCR 或图表理解，尤其是在非英语场景中，CLIP 风格的词汇表在标记视觉知识时效率低下，甚至会遭遇词汇表不足的问题。因此，我们提出了 Vary，一种高效且有效的方法来扩展 LVLM 的视觉词汇表。Vary 的过程自然分为两个部分：新视觉词汇的生成和集成。在第一阶段，我们设计了一个词汇表网络以及一个微型解码器专用 Transformer，通过自回归生成所需的词汇表。接下来，我们通过将新词汇表与原始词汇表 (CLIP) 合并来扩展原始视觉词汇表，使 LVLM 能够快速获得新特征。 与流行的 BLIP-2、MiniGPT4 和 LLaVA 相比，Vary 可以保留其原始功能，同时享受更出色的细粒度感知和理解能力。具体来说，Vary 擅长新的文档解析功能（OCR 或 markdown 转换），同时在 DocVQA 中实现 78.2% 的 ANLS，在 MMVet 中实现 36.2%。我们的代码将在主页上公开发布。[GitHub - Ucas-HaoranWei/Vary: ECCV 2024] Official code implementation of Vary: Scaling Up the Vision Vocabulary of Large Vision Language Models.
论文地址：[2312.06109] Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models (arxiv.org)
他们认为之前的大型视觉-语言模型在进行视觉端编码时都会使用CLIP的视觉端模型（即CLIP-ViT）。作者也承认由于在大量图像-文本对上进行了训练，CLIP-ViT确实是一个非常强大的图像编码器，能很好地作为视觉词典工作在这些大模型中。但是由于CLIP的训练过程和训练数据导致CLIP-VIT在处理一些高分辨率图片、非英语OCR和文档/图标理解等任务时表现不好。作者在原文中说：the CLIP-VIT may regard them as a “foreign language, leading to inefficient tokenizing, i.e., difficulty in encoding all vision information into a fixed number (usually 256) of tokens。然后作者提到mPlug-Owl和Qwen-VL两个模型，说他们在训练时打开了CLIP-ViT参数进行学习，一定程度上缓解了上面提到的问题，但是作者又提出了三个问题：
- 这样做可能让原来CLIP-ViT具有的能力或知识丧失
- 在一个相对较大的LLM上更新视觉词汇表的训练效率较低，致计算图变得很大，更新参数会变慢，其次是容易在视觉词典处发生发生梯度消失，导致参数更新得很慢。
- 由于LLM具有强大的记忆能力，它不能允许视觉词汇网络多次“看到”图像（训练一个数据集多次）。假如训练时视觉词典看到了同一张图片多次，由于它的参数是变化的，编码出来的视觉token肯定不一样。又由于大语言模型记忆能力很强，那么它可能会因为同一张图片的不同token产生错乱，模型学习会受到影响。
既然不能通过微调来训练原来的vision vocabulary，那么最好的方式就是训练出一个新的vocabulary，这个vocabulary能很好地handle原来词典处理不好的任务。在放到跟LLM一块训练时，可以把新旧词典一块冻结，不参与训练过程。将一些自然图像、文档、图表以图片形式输入词典网络，然后为了将输出的token序列的特征维度与OPT对齐，设计了Input embedding linear layer做维度变换。然后输出对应的文本。在整个模型遇到自然图像时，只让它输出“This is an nature image”或者类似的话，在遇到其他图像时，输出ocr结果、结构化字典等细粒度内容。当然，在输入token到OPT时，为了让OPT知道输入序列中哪一段是文本，作者还用两个特殊的标记“<img>”和“</img>”。输出的只有文本，使用“<s>”和“</s>”标记文本的开始和结束。
Vary通过两个阶段来生成和整合新的视觉词汇：首先设计一个词汇网络和一个小型 decoder-only Transformer，通过自回归生成所需的词汇；然后通过合并新词汇和原始词汇（CLIP）来扩展原始视觉词汇，使LVLMs能够快速获取新特征。与流行的BLIP-2、MiniGPT4和LLAVA相比，Vary在保持原始能力的同时，展现出更出色的细粒度感知和理解能力。
Vary方法通过扩展视觉词汇来解决大型视觉语言模型在特定任务上的局限性。通过设计词汇网络和自回归生成新词汇，然后将其与原始词汇合并，LVLMs能够快速适应新特征并提高细粒度感知和理解能力。这种方法在文档解析表现出色，并具有广泛的应用前景。

Introduction

最近，对视觉对话机器人的研究取得了显著进展。这些类人模型主要依赖于两个组件（大型语言模型 (LLM) 和视觉词汇网络），不仅可以根据用户的输入图像进行对话，而且在简单的下游任务上也表现良好，例如 VQA 、图像字幕、OCR 等。因此，不可否认的是，大型视觉语言模型 (LVLM) 正在推动人工智能社区朝着通用人工智能 (AGI) 的方向发展。
流行的类似 GPT-4 的 LVLM，例如 BLIP2 、MiniGPT4 、LLaVA 、Qwen-VL 等凭借其自己的编程范式在多个方面享有令人惊叹的性能：基于 LLM ，BLIP-2 提出了 Q-former（类似 BERT 的网络）作为视觉输入嵌入层，旨在将图像标记与文本特征对齐。继承了 BLIP-2 的结构，MiniGPT-4 引入了 3500 个高质量图像-文本对作为自监督微调 (SFT) 数据，使其能够像 GPT-4 一样“说话”。与 BLIP-2 不同，LLaVA 使用线性层作为视觉嵌入层，这与文本标记器中的文本输入嵌入层类似，从而确保图像和文本分支结构的一致性。对于 Qwen-VL，它使用交叉注意层来采样和对齐图像标记，使模型可以接受更大的输入分辨率。虽然上述 LVLM 的视觉输入嵌入网络是可变的（例如 MLP、Qformer、Perceiver ），但它们的视觉词汇几乎相同（基于 CLIP 的 VIT），我们认为这可能是瓶颈。
众所周知，CLIP-VIT 是一个庞大的通用视觉词汇表，通过对比学习训练而成，基于超过 4 亿个图文对，覆盖了绝大多数自然图像和视觉任务。然而，对于一些特殊场景，例如高分辨率感知、非英语 OCR、文档 / 图表理解等，CLIP-VIT 可能将其视为“外语”，导致分词效率低下，即难以将所有视觉信息编码成固定数量（通常为 256 个）的分词。虽然 mPlug-Owl 和 Qwen-VL 通过解冻其视觉词汇网络（CLIP-L 或 CLIP-G）缓解了上述问题，但我们认为这种方式可能并不合理，原因有三：
- 1）它可能会覆盖原有词汇的知识；
- 2）在较大的 LLM（7B）上更新视觉词汇表的训练效率低下；
- 3）由于 LLM 的记忆能力很强，它无法让视觉词汇网络多次“看”一张图像（用多个 epoch 训练一个数据集）。
因此，一个自然而然的问题是：是否有一种策略可以简化并有效地强化视觉词汇？
在本文中，我们提出了一种高效且用户友好的方法来回答上述问题。 Vary 的灵感来自于 vanilla LLM 中的文本词汇扩展方式，即在将英语 LLM 转换为另一种外语（例如中文）时，需要扩展文本词汇量以提高新语言下的编码效率和模型性能。直观地说，对于视觉分支，如果我们将“外语”图像输入模型，我们还需要扩大视觉词汇量。在 Vary 中，词汇扩展的过程可以分为两个步骤：
- 1）生成可以弥补旧词汇量的新视觉词汇量（CLIP）；
- 2）整合新旧词汇量。
如图 1 所示，我们在第一步中构建了一个由词汇网络和微型仅解码器转换器组成的小型管道，通过预测下一个 token 来训练词汇模型。值得注意的是，基于自回归的词汇生成过程可能比基于对比学习（如 CLIP）的过程更适合密集感知任务。一方面，next-token 方式可以让视觉词汇压缩更长的文本。另一方面，可以以这种方式使用的数据格式更加多样化，例如带有提示的 VQA 数据。准备好新的视觉词汇后，我们将其添加到 vanilla LVLM 中以引入新功能。在此过程中，我们冻结新旧词汇网络，以避免视觉知识被覆盖。
- 图 1：以前的方法与 Vary：与其他使用现成视觉词汇的模型不同，Vary 的过程可以分为两个阶段：视觉词汇的生成和融合。在第一阶段，我们使用“词汇网络”以及一个小型解码器专用网络通过自回归生成强大的新视觉词汇。在第二阶段，我们将视觉词汇与原始词汇融合，以有效地为 LVLM 提供新特征。
之后通过扩大视觉词汇量，我们的 LVLM 在保证其原有能力（对话、VQA、字幕等）的同时，可以实现更细粒度的视觉感知，如文档级中英文 OCR、书籍图片转 markdown 或 LATEX、中英文图表理解等。此外，我们提供了生成合成数据的方法，并验证了其在文档/图表理解中的重要性。更重要的是，Vary 是一种强化 LVLM 视觉词汇量的有用策略，可以用于 CLIP 不擅长的任意下游视觉任务。除了本文提到的文档和图表解析之外，我们认为 Vary 仍然适用于更细粒度的任务，并呼吁研究人员从视觉词汇构建的角度重新思考 LVLM 的设计思路。
Vary是LLaVA的延伸，基于LLaVa提升了细粒度感知的能力（比如高分辨率的文档图像），主要的方法是首先采用自回归的方法对视觉编码器Clip进行词表扩充，扩充词表后的Clip称之为Vary-tiny，原来的Clip称之为Vary-Base；微调时将Vary-tiny和Vary-Base共同作为图像编码器，按照以前的微调范式进行微调。其中VaryTiny使用的模型为SAM预训练的ViTDet，并在最后一层后面添加了两个卷积层，以对齐 CLIP-VIT 的Size。
目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。确实，在 400M 图像文本对训练的 CLIP 有很强的视觉文本对齐能力，可以覆盖多数日常任务下的图像编码。但是对于密集和细粒度感知任务，比如文档级别的 OCR、Chart 理解，特别是在非英文场景，CLIP 表现出了明显的编码低效和 out-of-vocabulary 问题。

Related Works

Large Language Models

在过去的一年里，大型语言模型 (LLM) 在自然语言处理 (NLP) 和计算机视觉 (CV) 领域引起了广泛关注。这种高度关注源于 LLM 在各个方面的出色表现，尤其是强大的世界知识库和通用能力。当前的 LLM 拥有统一的 Transformer 架构，例如 BERT 、GPT-2 、T5 等。随后，研究人员发现了 LLM 中的“突发能力” 的概念。这意味着当语言模型大小达到一定阈值时，它们的能力可能会有质的飞跃。此外，InstructGPT 和 ChatGPT 发现带人类反馈的强化学习 (RLHF) 可以进一步提升“说话机器人”的性能。受 GPT 系列巨大成功的推动，许多其他开源 LLM 应运而生，包括 OPT 、LLaMA 、GLM 等等。在这些公开的 LLM 基础上，引入了许多量身定制的微调模型来开发用于各种应用的 LLM，尤其是 LLaMA 驱动的模型，例如 Alphaca 、Vicuna ，它们已成为大型视觉语言模型 (LVLM) 事实上的组成部分。

LLM-based Large Vision-Language Models

LLM 强大的零样本能力和逻辑推理能力使其成为 LVLM 中的中央控制器。有两种主要的管道样式：基于插件的和端到端模型。基于插件的方法通常将 LLM 视为代理，以调用来自其他基础或专家模型的各种插件，并根据人工指令执行特定功能。虽然此类方法提供了多功能性，但它们在插件调用效率和性能方面存在局限性。相反，端到端 LVLM 通常依赖于单个大型多模态模型来促进交互。按照这种方法，Flamingo 引入了一种门控交叉注意机制，该机制在数十亿个图像-文本对上进行训练以对齐视觉和语言模态，在小样本学习中表现出色。BLIP-2 引入了 Q-Former 来增强视觉特征与语言空间的对齐。最近，LLaVA 提出使用一个简单的线性层来代替 Q-Former，并设计了一个两阶段的指令调整程序。
尽管现有方法表现优异，但它们都局限于相同且有限的视觉词汇表——CLIP-VIT 。对于 LVLM，CLIP-VIT 是一个庞大的通用视觉词汇表，通过百万级图像-文本对的对比学习进行训练，可以覆盖大多数自然图像和视觉任务，例如 VQA、Caption、Easy English OCR。然而，一些特殊场景下的图像，例如高分辨率图像、非英语 OCR、文档/图表理解等，仍会被 CLIP-VIT 视为“外语”，导致视觉词汇表之外的问题，这反过来会成为 LVLM 的瓶颈。

Method

Architecture

Vary 有两种构象：Vary-tiny 和 Vary-base，如图 2 所示。我们设计了 Vary-tiny 来“编写”新的视觉词汇表，并设计了 Vary-base 来使用新的词汇表。具体来说，Vary-tiny 主要由词汇表网络和 tiny OPT-125M 组成。在这两个模块之间，我们添加了一个线性层来对齐通道维度。Vary-tiny 中没有文本输入分支，因为它主要关注细粒度感知。我们希望新的视觉词汇表网络能够在处理人工图像（即文档和图表）方面表现出色，以弥补 CLIP 的不足。同时，我们还希望它在对自然图像进行标记时不会成为 CLIP 的噪音。因此，在生成过程中，我们将手动文档和图表数据作为正样本，将自然图像作为负样本来训练 Vary-tiny。完成上述过程后，我们将词汇网络提取出来，加入到大模型中，构建 Vary-base。如图 2 下半部分所示，新旧词汇网络拥有独立的输入 embedding 层，并在 LLM 之前集成。在这个阶段，我们冻结新旧视觉词汇网络的权重，并解冻其他模块的权重。
- 图 2：Vary 概览。Vary 形式有两种：Vary-tiny 和 Vary-base。Vary-tiny 主要侧重于生成新的视觉词汇，而 Vary-base 是我们新的 LVLM，旨在基于新的视觉词汇处理各种视觉任务。

Towards Generating a New Vision Vocabulary

The new vocabulary network

我们使用 SAM 预训练的 ViTDet 图像编码器（基本尺度）作为 Vary 新词汇网络的主体部分。由于 SAM-base 的输入分辨率为（1024×1024），而输出步幅为 16，最后一层的特征形状为（H×W×C 为 64×64×256），无法与 CLIP-L 的输出（N×C 为 256×1024）对齐。因此，我们在 SAM 初始化网络的最后一层后面添加了两个卷积层，我们发现这是一个很好的 token 合并单元，如图 3 所示。第一个卷积层的核大小为 3，旨在将特征形状转换为 32×32×512。第二个卷积层的设置与第一个相同，可以进一步将输出形状转换为 16×16×1024。之后，我们将输出特征展平为 256×1024，以对齐 CLIP-VIT 的图像标记形状。

Data engine in the generating phrase

Documnet 数据。我们选择高分辨率文档图文对作为新视觉词汇预训练的主要正数据集，因为密集的 OCR 可以有效验证模型的细粒度图像感知能力。据我们所知，目前还没有公开的英文和中文文档数据集，所以我们自己创建了数据集。英文部分我们首先从 arXiv 和 CC-MAIN-2021-31-PDFUNTRUNCATED 上的开放获取文章中收集 pdf 样式的文档，中文部分则从互联网上的电子书中收集。然后我们使用 PyMuPDF 的 fitz 提取每个 pdf 页面中的文本信息，同时通过 pdf2image 将每页转换为 PNG 图像。在此过程中，我们构建了 1M 中文和 1M 英文文档图文对进行训练。
图表数据。我们发现目前的 LVLM 对图表的理解并不好，尤其是中文图表，所以我们选择它作为另一个需要“写入”新词汇的主要知识。对于图表图文对，我们都遵循渲染方式。我们选择 matplotlib 和 pyecharts 作为渲染工具。对于 matplotlib 风格的图表，我们为中文和英文分别构建了 250k。而对于 pyecharts，我们为中文和英文分别构建了 500k。此外，我们将每个图表的文本基本事实转换为 python-dict 形式。图表中使用的文本（例如标题、x 轴和 y 轴）是从互联网上下载的自然语言处理（NLP）语料库中随机选择的。
负自然图像。对于 CLIP-VIT 擅长的自然图像数据，我们需要确保新引入的词汇不会造成噪音。因此，我们构建了负自然图像-文本对，以使新词汇网络在看到自然图像时能够正确编码。我们在 COCO 数据集中提取了 120k 幅图像，每幅图像对应一个文本。文本部分是从以下句子中随机选择的：“It’s an image of nature”; “Here’s a nature picture”; “It’s a nature photo”; “This is a natural image”; “That’s a shot from nature”。

Input format

我们通过自回归使用图像-文本对训练 Vary-tiny 的所有参数。输入格式遵循流行的 LVLM ，即图像标记以前缀的形式与文本标记一起打包。具体来说，我们使用两个特殊标记“<img>”和“</img>”来指示图像标记的位置，作为插值 OPT-125M（4096 个标记）的输入。在训练期间，Vary-tiny 的输出仅为文本，“</s>”被视为 eos 标记。

Towards Scaling Up the Vision Vocabulary

The structure of Vary-base

完成词汇网络的训练后，我们将其引入到我们的 LVLM - Vary-base 中。具体来说，我们将新的视觉词汇与原始 CLIP-VIT 并行化。这两个视觉词汇都有一个单独的输入嵌入层，即一个简单的线性层。如图 2 所示，线性层的输入通道为 1024，输出为 2048，确保连接后图像标记的通道为 4096，这与 LLM（Qwen-7B 或 Vicuna-7B ）的输入完全对齐。

Data engine in the scaling up phrase

LATEX 渲染文档。除了 3.2.2 节中收集文档数据外，我们还需要具有某种格式的数据，例如支持公式和表格。为此，我们通过 LATEX 渲染创建文档数据。首先，我们在 arxiv 上收集了一些 .tex 源文件，然后使用正则表达式提取表格、数学公式和纯文本。最后，我们使用 pdflatex 准备的新模板重新渲染这些内容。我们收集了 10+ 个模板进行批量渲染。此外，我们将每个文档页面的文本基本事实转换为 mathpix markdown 样式以统一格式。通过此构建过程，我们获得了 50 万个英文页面和 40 万个中文页面。部分样本如图 4 所示。
- 图4：合成数据可视化。我们使用pdflatex来渲染文档，使用pyecharts/matplotlib来渲染图表。文档数据包括中英文文本、公式、表格等。图表数据包括中英文条形图、折线图、饼图、组合图等。
语义关联图渲染。在第 3.2.2 节中，我们批量渲染图表数据来训练新的词汇网络。但是，这些渲染图表中的文本（标题、x 轴值和 y 轴值）相关性较低，因为它们是随机生成的。这个问题在词汇生成过程中不是问题，因为我们只希望新词汇能够有效地压缩视觉信息。然而，在 Vary-base 的训练阶段，由于解冻了 LLM，我们希望使用更高质量（强相关内容）的数据进行训练。因此，我们使用 GPT-4 使用相关语料生成一些图表，然后利用高质量语料库为 Vary-base 训练另外渲染 200k 图表数据。
一般数据。训练 Vary-base 的过程遵循流行的 LVLM，例如 LLaVA，包括预训练和 SFT 阶段。与 LLaVA 不同，我们冻结所有词汇网络并解冻输入嵌入层和 LLM，这更像是纯 LLM 的预训练设置。我们使用自然的图像-文本对数据将一般概念引入 Vary-base。图像-文本对是从 LAION-COCO 中随机提取的，数量为 400 万。在 SFT 阶段，我们使用 LLaVA-80k 或 LLaVA-CC665k 以及 DocVQA 和 ChartQA 的训练集作为微调数据集。

Conversation format

在使用Vicuna-7B作为LLM时，对话格式遵循Vicuna v1 【Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality】，即用户：<img>“<image>”</img>“文本输入”助理：“文本输出”</s>。由于Vicuna的文本词汇处理中文效率较低，因此我们选择 Qwen-7B 作为中文处理的LLM。在使用Qwen-7B时，我们遵循 LLaVA-MPT 设计对话风格，可描述为：<|im_start|>用户：<img>“<image>”</img>“文本输入”<|im_end|><|im_start|>助理：“文本输出”<|im_end|>。

Experiments

Datasets and Evaluation Metrics

我们在多个数据集上评估了所提出的 Vary，包括 1）我们创建的用于探索密集视觉感知性能的文档级 OCR 测试集；2）DocVQA 和 ChartQA 用于测试下游任务的改进；3）MMVet 用于监测模型总体性能的变化。我们自己的文档测试集包含纯 OCR 和 markdown 转换任务。在纯 OCR 任务中，测试拆分包括 100 页中文和英文内容，这些内容是从 arxiv 和 ebook 中随机提取的。在 markdown 转换任务中，测试集获得 200 页，其中 100 页包含表格，另外 100 页包含数学公式。
我们报告了归一化编辑距离和 F1 分数以及文档解析的精度和召回率。对于 DocVQA、ChartQA 和 MMVet，我们使用它们的原始指标与其他 LVLM 进行公平比较。

Implementation Details

在视觉词汇生成过程中，我们优化了 Vary-tiny 的所有参数，批处理大小为 512，并训练模型 3 个 epoch。我们使用 AdamW 优化器和余弦退火调度程序以及 5e-5 的学习率来训练 Vary-tiny。
在 Vary-base 的训练阶段，我们冻结了新视觉词汇网络和 vanilla (CLIP-L) 视觉词汇网络的权重，并优化了输入嵌入层和 LLM 的参数。预训练中的初始学习率为 5e-5，而 SFT 中的初始学习率为 1e-5。预训练和 SFT 的批处理大小均为 256，epoch 为 1。其他设置与 Vary-tiny 相同。

Fine-grained Perception Performance

我们通过密集文本识别能力来衡量 Vary 的细粒度感知性能。如表 1 所示，Vary-tiny 通过视觉词汇生成过程整合了中英文密集 OCR 能力，对中文和英文文档（纯文本）OCR 分别实现了 0.266 和 0.197 的编辑距离，证明了新的视觉词汇具有良好的细粒度文本编码能力。对于 Vary-base，在英文纯文本文档上可以达到与 nougat （一种特殊的文档解析模型）相当的性能。此外，通过不同的提示（例如，将图片转换为 markdown 格式），Vary-base 可以实现文档图片到 markdown 格式的转换。值得注意的是，在这样的任务中，Vary-base（0.181 edict distance，81.10% F1 的数学和表格平均值）在一定程度上优于 nougat（0.245 edict distance，79.97% F1 平均值），这可能得益于 7B LLM（Qwen）超强的文本校正能力。以上结果表明，通过扩大视觉词汇量，新的 LVLM 可以提升其细粒度感知性能。
- 表一：细粒度文本感知对比 Nougat。Vary-tiny 是基于 OPT125M 生成视觉词汇的模型，拥有纯 OCR 能力，包括中文和英文。Vary-base 是基于 Qwen-Chat 7B 扩展视觉词汇后的模型，既拥有纯文档 OCR 能力，又能通过提示控制实现 markdown 格式对话能力。

Downstream Task Performance

我们使用 DocVQA 和 ChartQA 测试下游 VQA 任务的性能改进。我们使用附加提示：“使用单个单词或短语回答以下问题：” 以允许模型输出简短而准确的答案。如表 2 所示，Vary-base（以 Qwen-7B 作为 LLM）在 LLaVA-80k SFT 数据上可以在 DocVQA 上实现 78.2%（测试）和 76.3%（验证）的 ANLS。使用 LLaVA-665k 数据进行 SFT，Vary-base 在 ChartQA 上可以达到 66.1% 的平均性能。在两个具有挑战性的下游任务上的性能与 Qwen-VL 相当甚至更好，表明所提出的视觉词汇扩展方法对下游也很有前景。
- 表 2：DocVQA 和 ChartQA 上流行方法的比较。80k 表示 SFT 数据是 LLaVA-80k，而 665k 表示 LLaVA-CC665k。DocVQA 的度量标准是 ANLS，而 ChartQA 的度量标准是按照他们的原始论文放宽准确度。

General Performance

我们通过 MMVet 基准测试监控 Vary 的总体性能。如表 3 所示，使用相同的 LLM（Vicuna-7B）和 SFT 数据（LLaVA-CC665k），Vary 的总指标比 LLaVA-1.5 提升了 2.4%（32.9% vs. 30.5%），证明我们的数据和训练策略不会损害模型的通用能力。此外，使用 Qwen-7B 和 LLaVA-80k 的 Vary 可以实现 36.2% 的性能提升，进一步证明了我们的视觉词汇扩展方式的有效性。
- 表 3：与 MMVet 上的流行方法的比较。缩写代表：Rec：识别；Know：知识；Gen：语言生成；Spat：空间意识。

Conclusion

本文强调，扩大视觉分支的词汇量对于 LVLM 来说非常重要，并且我们成功地设计出了一种简单的方法来证明这一说法。根据实验，所提供的模型 Vary 在多个任务中取得了可观的成绩，这主要得益于我们生成的新词汇量。尽管 Vary 的表现令人满意，但我们认为如何有效地扩大视觉词汇量仍有很大改进空间，尤其是与成熟且相对简单的文本词汇扩展方法相比。我们希望 Vary 实用而高效的设计能够吸引更多研究关注这一方向。

Appendix

在此附录中，我们展示了我们的模型的输出结果，以便更直观地了解其性能。
- 图 5：Vary-base 对 excel markdown 转换或纯 OCR 功能的说明。 Vary-base 可以根据用户的提示控制文档图像输入的输出格式。
- 图 6：Vary-base 对英文文档密集 OCR 的细粒度视觉感知能力。
- 图7：Vary-base对中文书稠密OCR的细粒度视觉感知能力。此图片来自互联网。
- 图8：Vary-base 的 Markdown/Latex 格式转换功能（数学公式）。此图片来自网络。
- 图9：Vary-base的Markdown/Latex格式转换能力（表格上）。图片来自网络。
- 图10：Vary-base的图表理解（中文）。图片来自网络。
- 图 11：Vary-base 的总体性能。图像来自 LLaVA 样本。