ICCV2025 | Skip-Vision，为视觉-语言模型打造通用加速框架

我爱计算机视觉 07月09日 09:41

上海交大团队提出的Skip-Vision框架，通过自适应Token跳过技术，有效加速视觉语言模型。该框架无需额外预训练或重新训练大模型，即可应用于LLaVA等多种多模态架构，显著降低计算成本，提升推理速度，同时保持模型性能。Skip-Vision的核心在于跳过冗余视觉Token，汇总关键信息，从而在训练和推理阶段实现效率提升，为多模态模型的发展提供了新的思路。

💡 **视觉Token过载问题：** 现有视觉语言模型（VLM）处理图像时，会产生大量视觉Token，导致训练和推理阶段的算力消耗巨大，例如LLaVA模型单次推理FLOPs可达2千亿，延迟超过150毫秒，对实时应用造成挑战。

⏩ **Skip-FFN：** Skip-Vision在训练阶段引入Skip-FFN机制，通过观察发现大量视觉Token在FFN计算前后变化很小，选择性跳过FFN计算，保留少量retained token，并使用token merge处理skipped token，从而节省22%～40%的训练时间，性能几乎无损。

💾 **Skip KV-Cache：** 在推理阶段，Skip-Vision采用Skip KV-Cache，将Skip-FFN标记的冗余Token从KV-Cache中剔除，降低推理FLOPs 40%～75%，端到端延迟减少18%～45%，同时在多模态基准测试中保持与原始模型相当的性能。

✅ **Summary Token机制：** 为了保留重要信息，Skip-Vision引入Summary Token机制，在跳过冗余Token前，通过注意力机制将其信息集中到Summary Token中，确保信息流不中断，避免因裁剪带来的理解缺失。

🔬 **理论支撑与效果：** Skip-Vision具有严格的理论支撑，通过对transformer的计算流进行分析，推导了Skip-FFN的误差上界，证明其加速效果可靠。实验表明，Skip-Vision在多模态模型加速方面具有显著优势。

2025-07-04 14:27 美国

关注公众号，发现CV技术之美

近日，上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队创新性地提出一种通用的视觉-语言模型加速框架Skip-Vision，论文Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping。该框架不需要额外的预训练，也不需要重新训练大模型，只需在现有 SFT 流程中插入即可，并能轻松适配 LLaVA、LLaVA-HD、CoS 等多种多模态架构。

项目主页：https://zwl666666.github.io/Skip-Vision/

Arxiv: https://arxiv.org/abs/2503.21817

技术背景：视觉Token——性能与算力的双刃剑

近年来，视觉-语言模型（Vision-Language Models）在多模态智能领域大放异彩，从图像描述、视觉问答到复杂的多模态推理，都表现出惊人的能力。然而，这种能力背后隐藏着一个日益严峻的算力困境——视觉Token过载。

现有VLM通常会将一张图像分割成数百甚至上千个视觉Token，送入多层Transformer进行细粒度的特征分析。这种做法在精度上带来了好处，模型能捕捉到细微的纹理、局部结构甚至微小的物体。但与此同时，它也带来了巨大的代价：

训练阶段：每一个视觉Token都需要在每层Transformer的前馈网络（Feed-Forward Network, FFN）与自注意力网络（Self-Attention, SA）中进行运算。这种重复计算让训练的时间与能耗都水涨船高，动辄需要数百小时的GPU时间。

推理阶段：在生成回答或描述的过程中，模型需要持续维护所有Token在各层的Key-Value缓存（KV-Cache）。这种全量保留不仅造成了显存的暴涨，也显著增加了每次推理的延迟。以LLaVA这类模型为例，处理一张图像的单次推理FLOPs可高达2千亿，延迟超过150毫秒，对实时应用来说代价高昂。

简而言之，视觉Token是一把双刃剑——它提升了多模态理解的上限，但也把大模型推向了算力消耗的极限。如何保留理解能力，又能大幅降低训练与推理的开销？这正是Skip-Vision要解决的问题。

Skip-Vision核心方法：聪明地“跳过”，精准地“汇总”

Skip-Vision 的提出，就是要解决上述困境，核心理念可以用八个字概括：跳过冗余，汇总精华。它从训练和推理两个维度同时入手，构建了一个端到端的加速框架：

1. 训练阶段：Skip-FFN

Skip-Vision 在训练中最核心的创新，是对 FFN 层的跳过机制（Skip-FFN）。如图1所示，我们通过深入观察发现，大量视觉Token在 FFN 计算前后几乎没有显著变化。这意味着模型其实在对这些Token做重复、低收益的运算。

图1. 我们通过计算 FFN 之前 (∥hattn∥2) 和 FFN 之后 (∥FFN(hattn)∥2) 的特征模量比来评估 FFN 的影响。与文本 token 相比，FFN 对视觉 token 的更新量明显较小。

图2. Skip-Vision框架图。

如图2所示，Skip-Vision 会将视觉token分成retained token与skipped token，retained token数量很少，通常会通过 LLM 的所有解码器层，而大量的skipped token可以选择性地使用token merge进行处理，并被限制只在每个 Transformer 块的自注意层计算，跳过它们的前馈计算。这不仅减少了训练所需的FLOPs，还降低了显存占用。如图3所示，在实际实验中，这一机制可以帮助 LLaVA 等模型在训练时节省22%～40%的训练时间，而性能几乎无损。

图3. 性能效率权衡曲线。2. 推理阶段：Skip KV-Cache

训练阶段节省下算力只是第一步，Skip-Vision 在推理环节进一步提出Skip KV-Cache用于加速推理。

在多模态解码过程中，模型通常需要在 KV-Cache 中保留所有视觉Token的历史信息。然而，经过前几层的Attention计算后，大部分视觉信息已被整合到少数关键Token（即 summary token）之中。许多原始Token对后续生成几乎不再贡献有效信息。

Skip-Vision利用这一现象，将被 Skip-FFN 标记的冗余Token，从 KV-Cache 中彻底剔除。这使得推理 FLOPs 可以降低 40%～75%，端到端延迟减少 18%～45%。尤其值得注意的是，即便在这样大幅度的裁剪下，模型在诸如 MMBench、MMVet、MMStar 等多项多模态基准测试中，仍能维持与原始全量模型相当的性能。

3. 关键桥梁：Summary Token

仅仅“跳过”是不够的，关键还在于如何保留重要信息。Skip-Vision 提出了“Summary Token”机制：在跳过冗余Token之前，通过注意力机制先把它们的信息集中到少量 summary token 中，再让这些 summary token 继续参与后续的运算。这种机制保证了信息流不被中断，避免了因大幅裁剪而带来的理解缺失。

4. 理论保障：误差上界分析

Skip-Vision 不仅是工程上的技巧，更有严格的理论支撑。论文中，我们通过对transformer的计算流进行分析，推导了 Skip-FFN的误差上界。分析表明，在对模型谱范数进行一定假设下，理论误差是可控的，与实际测量高度一致。这意味着，Skip-Vision 的加速不仅实用，而且可靠。