Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration 论文解读

Abstract

近期关于加速视觉语言模型的研究表明，即便对视觉信息进行高度压缩，模型仍能在各种视觉语言任务中保持强大的性能。在这项研究中，我们对语言模型中流行的早期视觉令牌剪枝加速方法进行了探究，发现该方法在众多任务中表现出色，并非源于其卓越的视觉信息压缩能力，而是由于基准测试评估细粒度视觉能力的局限性。具体而言，我们揭示了这种加速方法存在的一个核心问题，即图像顶部的大多数令牌被剪掉了。然而，这个问题仅在诸如定位等一小部分任务的性能中有所体现。对于其他评估任务，即便采用有缺陷的剪枝策略，模型仍能保持较高的性能。鉴于所研究的加速技术视觉能力有限，我们提出了FEATHER（基于集成准则的快速有效加速方法，Fast and Effective Acceleration wiTH Ensemble cRiteria），这是一种简单直接的方法，具有以下特点：（1）解决早期层剪枝中发现的问题；（2）采用均匀采样，确保覆盖图像的所有区域；（3）分两个阶段进行剪枝，使剪枝准则在后期层更有效，同时通过早期层剪枝仍能显著提高速度。在计算成本相当的情况下，我们发现FEATHER在以视觉为中心的定位基准测试中，与原始加速方法相比，性能提升超过5倍。

Introduction

VLMs研究现状：VLMs是计算机视觉和自然语言处理关键研究领域，核心是结合大语言模型与视觉编码器实现多模态能力。早期用复杂方案调节语言模型，近期主要从预训练视觉编码器提取图像补丁特征并投影到语言模型输入空间，但图像补丁作令牌计算效率低。为此许多研究通过压缩视觉信息加速，如FastV修剪50%视觉令牌不影响性能，还有研究表明牺牲视觉信息用大语言模型在固定预算下可实现最佳性能，但不清楚高度压缩下视觉推理等任务表现及是否有任务使方法失效。
研究动机与发现：聚焦FastV方法研究其视觉能力，评估发现压缩导致TextVQA任务性能大幅下降、定位任务更严重下滑，原因是早期层剪枝标准无效，大量丢弃图像顶部标记，且多数评估基准对视觉基础定位要求低，这对衡量VLM加速方法有效性和评估VLM视觉能力构成挑战。
提出FEATHER方法：针对VLM加速方法局限，尝试多种方案得到FEATHER方法。早期层后剪枝，改进标准解决选择不均衡问题，保留少量均匀采样标记确保覆盖图像区域，后期层更广泛剪枝。该方法性能显著提升，定位性能提高5倍多，语言模型后半部分仅保留3.3%视觉标记。
研究结论：视觉压缩在以视觉为中心的任务中保持性能取决于精心设计的策略，目前因视觉语言基准测试不全面，评估策略有效性困难。

Related Work

现有研究分为两类：在视觉信息输入LLM前压缩和在LLM内部压缩视觉信息

1. 视觉信息输入LLM前的压缩方法

动态合并与选择：

ChatUniVi [13]：动态合并语义相似的视觉令牌，减少冗余。
PruMerge [25]：基于视觉编码器中类令牌（class token）与各图像块（patch）的相似性筛选重要令牌，合并次要令牌（通过加权平均）。
HiRED [3]：针对高分辨率图像（如LLaVA-NeXT分割的子图），为每个子图按预算保留特征重要性最高的令牌。

文本引导的视觉恢复：

部分研究 [8, 34]：认为仅依赖图像信息不足以筛选重要视觉令牌，需结合文本输入恢复与文本相关的视觉令牌。

2. 视觉信息在LLM内部的压缩方法

KV缓存优化：

LOOKM [30]：通过减少多模态KV缓存规模提升效率。

基于令牌剪枝的方法：

FastV [7]：核心研究对象。发现LLM深层对视觉令牌的注意力稀疏性，提出在浅层（如第3层）剪枝不重要令牌（保留50%），显著减少计算量（FLOPs降低45%）且性能无损。

后续改进工作：

自适应剪枝 [10]：动态决定剪枝比例，而非固定比率。
多阶段剪枝 [33]：分多个阶段逐步剪枝，平衡效率与性能。

3. The Drawback of VLM Acceleration

3.1. Preliminaries

VLM架构与令牌剪枝流程

输入与编码流程

输入：
- 图像 $x_{\text{img}}$ 和文本提示 $x_{\text{prompt}}$ 。
视觉编码：
- 预训练视觉编码器 $f$ （如ViT）将图像分割为 $n$ 个块（patches），提取特征 $z_{\text{img}} \in \mathbb{R}^{n \times d_{\text{vision}}}$ 。
适配器（Adapter）：
- 轻量级MLP将视觉特征投影到LLM的输入空间 $h_{\text{img}} = p(z_{\text{img}}) \in \mathbb{R}^{n \times d_{\text{text}}}$ 。
LLM处理：
- 将视觉嵌入 $h_{\text{img}}$ 与文本嵌入 $h_{\text{prompt}}$ 拼接后输入LLM生成文本输出 $\text{LM}([h_{\text{img}}; h_{\text{prompt}}])$ 。

令牌剪枝机制

剪枝位置：
- 在LLM的第 $K$ 层后，按比例 $R\%$ 剪枝视觉令牌，保留 $\hat{n} = (1 - R\%) \cdot n$ 个令牌。
剪枝标准：
- 基于排名函数 $g_{\phi}$ ，以最后一个文本令牌的注意力分数（ $\phi_{\text{text}}^{\text{original}}$ ）作为重要性指标。
位置保留：
- 剪枝时保留令牌的位置编码，确保空间信息不丢失。

加速方法与效率评估

FastV核心设计：

在LLM浅层（如第3层）剪枝 $R\%$ 的视觉令牌，保留重要令牌继续参与后续计算。
计算FLOPs节省公式：
$\text{FLOPS Reduction} = 1 - \frac{K \cdot C + (T - K) \cdot (4\hat{n}d^2 + 2\hat{n}^2d + 2\hat{n}dm)}{T \cdot C}$ 其中 $C = 4nd^2 + 2n^2d + 2ndm$ 为单层Transformer的FLOPs， $T$ 为LLM总层数， $m$ 为FFN中间层维度。

评测基准与任务

定位任务：

RefCOCO系列（RefCOCO、RefCOCO+、RefCOCOg）：测试对短描述、外观描述及长描述的物体定位能力。
OCID-Ref：面向机器人场景，评估杂乱环境中的跨域定位能力。

开放问答任务：

VizWiz（盲人视觉问答）、VQAv2（通用视觉推理）、GQA（空间推理）、TextVQA（文本相关推理）。

挑战性任务：

VSR（二元空间关系）、TallyQA（计数）、POPE（抗幻觉）、AI2D（科学图表理解）。

实验设置细节

模型架构：

视觉编码器：SigLIP ViT-SO400M（冻结参数）。
适配器：单层MLP（含GELU激活）。
LLM：Llama 2 7B。

训练配置：

使用多模态指令调优数据集进行单阶段训练，仅训练适配器，视觉编码器参数固定。

评测协议：

完全复现[14]的评测流程，确保结果可比性。

3.2. Early visual token pruning falters in visioncentric tasks

1. 实验发现：视觉中心任务性能急剧下降

定位任务（RefCOCO系列、OCID-Ref）：
- 性能骤降：剪枝50%令牌时，平均性能下降45%；剪枝75%时，性能趋近于零（见图2左）。
- 线性退化模式：性能随剪枝比例增加近似线性下降，表明剪枝直接导致关键视觉信息丢失。
TextVQA任务：
- 剪枝75%令牌时，性能下降42.0%，显著高于其他非定位任务。
其他任务（VQAv2、GQA、VizWiz等）：
- 性能下降轻微（剪枝75%时平均下降5-8%），表明这些任务对视觉细粒度信息依赖较低。

图2

2. 问题定位：剪牌策略的固有缺陷

令牌分布偏差：
- 剪枝后保留的视觉令牌集中在图像底部（见图3b），丢弃顶部区域的关键信息（如目标物体位置）。
- 原因：浅层剪枝标准（基于注意力分数）受RoPE位置编码影响，对靠近文本提示的底部令牌赋予更高权重。
任务敏感性差异：
- 定位任务：需精确定位物体边界，依赖全局空间信息，对令牌丢失高度敏感。
- 其他任务：可通过语言先验或局部视觉信息（如底部区域）回答，掩盖剪枝缺陷。

图3

3. 关键对比：剪枝位置的影响

实验设计：对比不同剪枝层（ $\in \{3, 8, 16, 24\}$ ）的性能。
结果：
- 浅层剪枝（ $K = 3$ ）：定位性能最差（因令牌分布偏差最大）。
- 深层剪枝（ $K = 24$ ）：定位性能接近未剪枝模型，表明深层注意力标准更有效（见图3c）。
结论：浅层剪枝标准在早期层无法有效筛选重要视觉令牌，导致视觉中心任务失败。

4. 评测任务的局限性

多数任务未充分评估视觉能力：
- 即使剪枝后保留的令牌分布不合理（如仅底部），模型仍能通过语言先验或残留信息正确回答（见图1a示例）。
- 例外：TextVQA因涉及图像中的文本识别，需更细粒度的视觉覆盖，因此性能下降显著。
定位任务的特殊价值：
- 定位任务需全局空间理解，是评估VLM视觉能力的“试金石”，暴露了现有剪枝方法的根本缺陷。

图1

markdown

核心图示支持

图2：定位任务性能随剪枝比例线性下降（左），其他任务性能保持稳定（中）。
图3：
- (a) 浅层剪枝（ $K = 3$ ）导致令牌集中在图像底部，深层剪枝（ $K = 24$ ）覆盖目标区域。
- (b) 热图显示不同剪枝层保留令牌的位置分布。
- © 剪枝层越深，定位性能越高，其他任务影响越小。

3.3. Interpreting poor vision-centric task performance

1. 剪枝标准在浅层的失效：位置偏差主导

现象：
- 当在浅层（如第3层）剪枝时，保留的视觉令牌集中分布在图像底部（见图3b），而顶部区域的令牌被大量丢弃。
- 示例（图3a）：对于定位任务“定位树前的动物”，浅层剪枝后保留的令牌（红色）仅覆盖底部区域（如草地），而目标物体（牛）和关键区域（树）的令牌被剪枝。
原因：
- RoPE位置编码的长期衰减效应：在浅层，注意力分数受RoPE的位置偏差影响显著，导致靠近文本输入的视觉令牌（通常位于图像底部）被赋予更高权重，即使其语义重要性较低。
- 浅层语义信息不足：早期层的LLM尚未充分融合视觉与文本信息，注意力机制无法准确识别关键区域。

2. 深层剪枝标准的有效性：语义重要性主导

现象：
- 当在深层（如第24层）剪枝时，保留的令牌覆盖与任务相关的语义区域（如目标物体位置）。
- 示例（图3a）：深层剪枝后，保留的令牌集中在牛和树周围，支持准确定位。
原因：
- 深层语义融合更充分：LLM深层已通过跨模态注意力整合了文本指令与视觉信息，注意力分数能反映语义相关性。
- 位置偏差减弱：深层注意力机制更关注内容而非位置，RoPE的长期衰减效应影响减小。

3. 定量验证：剪枝层对性能的影响

实验设计：对比不同剪枝层（ $\in \{3, 8, 16, 24\}$ ）对定位和其他任务的影响（R=75%剪枝比例）。
结果：
- 定位任务：
  - $K = 3$ ：性能接近随机猜测（RefCOCOg准确率5.1%）。
  - $K = 24$ ：性能接近未剪枝模型（RefCOCOg准确率28.6%）。
- 其他任务：剪枝层影响较小（如VQAv2在 $K = 3$ 和 $K = 24$ 时性能差距仅2.1%）。
结论：剪枝层越深，定位任务性能越高，验证了深层剪枝标准的有效性。

4. 热图分析：剪枝层与令牌分布关系

图3b：
- $K = 3$ ：保留令牌高度集中在图像底部。
- $K = 24$ ：保留令牌分布更均匀，覆盖目标区域。
统计规律：剪枝层越深，保留令牌的位置分布越接近任务真实需求。

5. 核心结论

浅层剪枝的缺陷：
- 位置偏差（RoPE）导致令牌选择不合理，丢弃关键视觉信息。
- 早期层语义融合不足，注意力分数无法反映真实重要性。
深层剪枝的优势：
- 语义信息充分融合，注意力分数更准确。
- 保留的令牌覆盖任务相关区域，支持视觉中心任务（如定位）。

3.4. Explaining VLM inference acceleration performance on other tasks

1. 核心矛盾：剪枝缺陷与任务性能的反差

现象：
- 剪枝后保留的视觉令牌集中在图像底部（见图1a），且丢弃了关键区域的令牌，但多数任务（如VQAv2、GQA、TallyQA）性能下降不明显。
- 例外：TextVQA（依赖图像中的文本识别）性能显著下降，但仍远高于纯文本模型。
关键问题：为什么这些任务对剪枝后的视觉信息丢失不敏感？

2. 假设验证：剪枝方法成功的原因是评测任务的局限性

假设1：浅层剪枝前的视觉信息已通过注意力传递到保留的令牌中

实验设计：
- 对比组1：在LLM浅层（如第3层）剪枝后保留部分令牌（FastV方法）。
- 对比组2：在视觉信息输入LLM前直接剪枝相同位置的令牌（丢弃未被FastV保留的令牌），阻止信息传递。
- 对比组3：纯文本模型（移除所有视觉令牌）。
结果：
- 所有任务：对比组1（FastV）与对比组2（输入前剪枝）性能接近（见图4），表明浅层的信息传递对性能提升无显著贡献。
- 结论：剪枝方法的高性能并非源于信息传递，而是任务本身对视觉细粒度信息的需求较低。
  
  图4

假设2：评测任务可通过语言先验或局部信息回答

示例分析（图1a）：
- 问题：“树前是什么动物？”即使剪枝后所有“树”令牌被丢弃，模型仍可通过保留的“牛”令牌正确回答，无需定位树的位置。
TextVQA的特殊性：
- 依赖图像中的文本识别，需覆盖更多区域以捕捉文本位置，因此对剪枝更敏感（但仍优于纯文本模型）。

假设3：纯文本模型性能反映任务对视觉的依赖

实验结果：
- 多数任务（如VQAv2、GQA）纯文本模型性能显著低于视觉模型（即使剪枝后），表明任务需要视觉信息。
- 矛盾点：剪枝后视觉信息分布不合理（仅底部），但性能仍接近未剪枝模型，说明任务依赖的视觉信息较粗粒度或集中于局部区域。

3. 核心结论：评测任务未能充分评估视觉能力

任务设计缺陷：
- 多数评测任务（如VQAv2、TallyQA）可通过局部视觉信息（如底部区域）或语言先验（如常识推理）回答，无需全局视觉理解。
- 定位任务是少数需要全局空间信息的任务，因此成为暴露剪枝缺陷的“试金石”。
启示：
- 当前评测体系存在盲区，需设计更多依赖细粒度视觉能力的任务（如密集描述生成、复杂空间推理）。
- 仅对比“视觉启用”和“视觉禁用”模型不足以衡量视觉能力，需引入对视觉信息覆盖度的定量评估。

4. Improving Visual Token Pruning

4.1. Evaluating pruning criteria

1. 实验目的

验证假设：
- 修正现有剪枝标准（如去除位置偏差）是否能在浅层剪枝中提升视觉能力（尤其是定位任务）。
- 探索非基于注意力的剪枝标准（如均匀采样）是否优于基于注意力的标准。
指导后续设计：为FEATHER方法选择最优剪枝标准组合。

2. 评估的剪枝标准

作者测试了四类剪枝标准，并在不同剪枝层（ $K = 3$ 和 $K = 8$ ）下比较性能：

基于注意力的标准：
- 原标准（ $\phi_{\text{original}}$ ）：使用最后一个文本令牌的注意力分数（含RoPE位置编码）。
- 改进标准（ $\phi_{\text{-R}}$ ）：去除RoPE的注意力计算，消除位置偏差。
非基于注意力的标准：
- 均匀采样（ $\phi_{\text{uniform}}$ ）：按固定步长（如步长2）均匀保留令牌，覆盖全图。
- KNN密度采样（ $\phi_{\text{KNN}}$ ）：基于视觉编码器特征的局部密度与距离，筛选高密度区域的代表性令牌。
混合标准（Ensemble）：
- $\phi_{\text{-R}} + \phi_{\text{uniform}}$ ：结合改进的注意力标准与均匀采样，部分令牌按注意力筛选，部分按均匀分布保留。

3. 实验结果与分析（表1）

在这里插入图片描述

浅层剪枝（ $K = 3$ ）

定位任务性能：
- 原标准（ $\phi_{\text{original}}$ ）：表现最差（平均准确率5.9%），因位置偏差导致底部令牌主导。
- 改进标准（ $\phi_{\text{-R}}$ ）：性能显著提升（平均16.7%），验证了去除RoPE的有效性。
- 均匀采样（ $\phi_{\text{uniform}}$ ）：表现最佳（平均28.0%），因覆盖全图保留关键区域。
- 混合标准：结合 $\phi_{\text{-R}}$ 与均匀采样，性能进一步提升至27.2%。
其他任务：所有标准性能接近（平均约0.61），反映任务对剪枝不敏感。

深层剪枝（ $K = 8$ ）

定位任务性能：
- 原标准（ $\phi_{\text{original}}$ ）：性能提升至23.3%（深层注意力更准确）。
- 改进标准（ $\phi_{\text{-R}}$ ）：进一步优化至27.3%。
- 混合标准：性能最优（平均35.6%），FLOPs减少50%。
其他任务：混合标准性能最高（平均0.644），表明深层剪枝更均衡。

4. 核心结论

位置偏差的负面影响：
- 原标准（ $\phi_{\text{original}}$ ）在浅层剪枝中因RoPE导致令牌选择偏差，改进标准（ $\phi_{\text{-R}}$ ）显著缓解此问题。
均匀采样的优势：
- 直接覆盖全图区域，避免注意力偏差，尤其在浅层剪枝中效果显著（定位任务提升4.6倍）。
混合标准的必要性：
- 结合注意力标准（语义筛选）与均匀采样（覆盖保障），在浅层和深层均达到最优性能。
剪枝层的权衡：
- 深层剪枝（如 $K = 8$ ）允许更有效的注意力筛选，但需保留更多计算资源；混合标准在效率与性能间取得平衡。

5. 对FEATHER方法的指导

设计选择：
- 浅层采用混合标准（ $\phi_{\text{-R}} + \phi_{\text{uniform}}$ ），确保覆盖全图并筛选关键令牌。
- 深层进一步剪枝（如 $K = 16$ ），利用更精准的注意力标准。
结果验证：两阶段剪枝策略使定位任务性能提升5倍，FLOPs减少50%以上。

4.2. Distilling insights

FEATHER方法的设计原则

两阶段剪枝策略：
- 第一阶段（浅层）：在较浅层（如 $K = 8$ ）剪枝75%令牌，采用混合标准（ $\phi_{\text{-R}} + \phi_{\text{uniform}}$ ）：
  - 80%令牌按 $\phi_{\text{-R}}$ 筛选（消除位置偏差）。
  - 20%令牌按 $\phi_{\text{uniform}}$ 均匀采样（确保覆盖全图）。
- 第二阶段（深层）：在深层（如 $K = 16$ ）进一步剪枝至3.3%令牌（保留6个），仅用 $\phi_{\text{-R}}$ 筛选（深层注意力更准）。
计算效率优化：
- 两阶段剪枝平衡效率与性能：
  - 浅层剪枝（FLOPs减少50%）解决主要计算瓶颈。
  - 深层二次剪枝（保留极少量令牌）进一步加速。
覆盖与语义的权衡：
- 浅层混合标准保留关键语义区域（ $\phi_{\text{-R}}$ ）并覆盖全图（ $\phi_{\text{uniform}}$ ）。
- 深层聚焦最相关令牌，避免冗余计算。

4.3. Comparison against FastV and PyramidDrop

在这里插入图片描述

1. 对比方法与实验设置

FastV：
- 在LLM浅层（如第3层）剪枝视觉令牌，采用注意力标准（含RoPE位置偏差）。
- 剪枝比例固定（如75%）。
PyramidDrop：
- 多阶段剪枝策略，在多个LLM层逐步剪枝视觉令牌。
- 每层剪枝比例递增（如逐层剪枝25%、50%、75%）。
FEATHER：
- 两阶段剪枝：浅层（ $K = 8$ ）剪枝75%令牌（混合标准 $\phi_{\text{-R}} + \phi_{\text{uniform}}$ ），深层（ $K = 16$ ）进一步剪枝至3.3%令牌（仅 $\phi_{\text{-R}}$ ）。
- 计算效率与FastV、PyramidDrop保持相近（FLOPs减少约50%）。

2. 实验结果：任务性能对比

视觉中心任务（定位）

RefCOCO系列：
- FEATHER平均准确率 35.6%，显著高于FastV（5.9%）和PyramidDrop（18.2%）。
- 在OCID-Ref上，FEATHER（32.0%）较FastV（5.7%）提升 5.6倍。
原因：
- FastV因浅层位置偏差丢失关键区域令牌，PyramidDrop多阶段剪枝逐步累积误差。
- FEATHER通过混合标准（覆盖全图+语义筛选）保留关键令牌，两阶段剪枝减少信息损失。

其他任务（VQA、计数等）

VQAv2：FEATHER（74.5%）与FastV（74.1%）、PyramidDrop（73.8%）性能接近。
TallyQA：FEATHER（54.2%）略优于FastV（53.7%）和PyramidDrop（53.5%）。
结论：FEATHER在非视觉中心任务上保持竞争力，验证其通用性。

3. 计算效率对比

FLOPs与推理速度：
- FEATHER（FLOPs减少50%）与FastV（51%）、PyramidDrop（48%）计算开销相近。
- 但FEATHER在相同FLOPs下，定位任务性能显著更优。
令牌保留量：
- FEATHER最终仅保留 3.3% 视觉令牌（约6个），FastV保留25%（约50个），PyramidDrop保留12%（约24个）。
- FEATHER通过两阶段剪枝最大化冗余令牌剔除，减少深层计算负担。

4. 可视化对比：令牌分布与任务适配性

图5示例：
- FastV：保留令牌集中在图像底部（如草地），忽略顶部目标（如飞盘）。
- PyramidDrop：令牌分布分散但覆盖不完整，部分关键区域（如人物手部）被剪枝。
- FEATHER：保留令牌均匀覆盖全图，并聚焦任务相关区域（如飞盘、人物动作）。
结论：FEATHER的混合标准平衡了覆盖度与语义重要性，支撑多任务需求。

5. 核心结论

FEATHER的突破性：
- 在相同计算开销下，视觉中心任务（如定位）性能较FastV提升 5×，较PyramidDrop提升 2×。
- 其他任务性能持平或略优，验证方法的高效性与普适性。
方法优势来源：
- 修正位置偏差（$ \phi_{\text{-R}} $）解决FastV的固有缺陷。
- 两阶段剪枝（浅层覆盖+深层筛选）优于PyramidDrop的渐进式剪枝。
- 极低令牌保留量（3.3%）减少冗余计算，提升推理速度。

6. Token Pruning Visualizations

可视化 $visual\ token$
在这里插入图片描述

图6展示了在第三层之后应用各种剪枝标准时，保留与参考表达式相关的视觉标记的能力。我们观察到， $\phi - R$ 解决了 $\phi_{original}$ 选择图像底部标记的倾向，并且均匀采样是一种可靠的方法，它通过 $\phi_{-R}+\phi_{uniform}$ 提高了 $\phi - R$ 选择标记的有效性。有关标准的定义，请参阅正文。

在这里插入图片描述

图7展示了在第八层之后应用各种剪枝标准时，保留与参考表达式相关的视觉令牌的能力。我们观察到，与在第三层之后进行剪枝相比，基于注意力的剪枝标准在第八层之后进行剪枝时更为有效。

在这里插入图片描述

图8展示了FEATHER、FastV和PyramidDrop保留与参考表达式相关的视觉令牌的能力。我们观察到，我们的方法保留了与参考表达式相关的令牌的比例要高得多。