2025-07-04 14:27 美国

关注公众号，发现CV技术之美

近日，上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队创新性地提出一种通用的视觉-语言模型加速框架Skip-Vision，论文Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping。该框架不需要额外的预训练，也不需要重新训练大模型，只需在现有 SFT 流程中插入即可，并能轻松适配 LLaVA、LLaVA-HD、CoS 等多种多模态架构。

项目主页：https://zwl666666.github.io/Skip-Vision/

Arxiv: https://arxiv.org/abs/2503.21817

技术背景：视觉Token——性能与算力的双刃剑

近年来，视觉-语言模型（Vision-Language Models）在多模态智能领域大放异彩，从图像描述、视觉问答到复杂的多模态推理，都表现出惊人的能力。然而，这种能力背后隐藏着一个日益严峻的算力困境——视觉Token过载。

现有VLM通常会将一张图像分割成数百甚至上千个视觉Token，送入多层Transformer进行细粒度的特征分析。这种做法在精度上带来了好处，模型能捕捉到细微的纹理、局部结构甚至微小的物体。但与此同时，它也带来了巨大的代价：

训练阶段：每一个视觉Token都需要在每层Transformer的前馈网络（Feed-Forward Network, FFN）与自注意力网络（Self-Attention, SA）中进行运算。这种重复计算让训练的时间与能耗都水涨船高，动辄需要数百小时的GPU时间。

推理阶段：在生成回答或描述的过程中，模型需要持续维护所有Token在各层的Key-Value缓存（KV-Cache）。这种全量保留不仅造成了显存的暴涨，也显著增加了每次推理的延迟。以LLaVA这类模型为例，处理一张图像的单次推理FLOPs可高达2千亿，延迟超过150毫秒，对实时应用来说代价高昂。

简而言之，视觉Token是一把双刃剑——它提升了多模态理解的上限，但也把大模型推向了算力消耗的极限。如何保留理解能力，又能大幅降低训练与推理的开销？这正是Skip-Vision要解决的问题。

Skip-Vision核心方法：聪明地“跳过”，精准地“汇总”

Skip-Vision 的提出，就是要解决上述困境，核心理念可以用八个字概括：跳过冗余，汇总精华。它从训练和推理两个维度同时入手，构建了一个端到端的加速框架：

1. 训练阶段：Skip-FFN

Skip-Vision 在训练中最核心的创新，是对 FFN 层的跳过机制（Skip-FFN）。如图1所示，我们通过深入观察发现，大量视觉Token在 FFN 计算前后几乎没有显著变化。这意味着模型其实在对这些Token做重复、低收益的运算。

图1. 我们通过计算 FFN 之前 (∥hattn∥2) 和 FFN 之后 (∥FFN(hattn)∥2) 的特征模量比来评估 FFN 的影响。与文本 token 相比，FFN 对视觉 token 的更新量明显较小。

如图2所示，Skip-Vision 会将视觉token分成retained token与skipped token，retained token数量很少，通常会通过 LLM 的所有解码器层，而大量的skipped token可以选择性地使用token merge进行处理，并被限制只在每个 Transformer 块的自注意层计算，跳过它们的前馈计算。这不仅减少了训练所需的FLOPs，还降低了显存占用。如图3所示，在实际实验中，这一机制可以帮助 LLaVA 等模型在训练时节省22%～40%的训练时间，而性能几乎无损。

2. 推理阶段：Skip KV-Cache

训练阶段节省下算力只是第一步，Skip-Vision 在推理环节进一步提出Skip KV-Cache用于加速推理。

在多模态解码过程中，模型通常需要在 KV-Cache 中保留所有视觉Token的历史信息。然而，经过前几层的Attention计算后，大部分视觉信息已被整合到少数关键Token（即 summary token）之中。许多原始Token对后续生成几乎不再贡献有效信息。

Skip-Vision利用这一现象，将被 Skip-FFN 标记的冗余Token，从 KV-Cache 中彻底剔除。这使得推理 FLOPs 可以降低 40%～75%，端到端延迟减少 18%～45%。尤其值得注意的是，即便在这样大幅度的裁剪下，模型在诸如 MMBench、MMVet、MMStar 等多项多模态基准测试中，仍能维持与原始全量模型相当的性能。

3. 关键桥梁：Summary Token

仅仅“跳过”是不够的，关键还在于如何保留重要信息。Skip-Vision 提出了“Summary Token”机制：在跳过冗余Token之前，通过注意力机制先把它们的信息集中到少量 summary token 中，再让这些 summary token 继续参与后续的运算。这种机制保证了信息流不被中断，避免了因大幅裁剪而带来的理解缺失。