我爱计算机视觉 07月04日 21:22
ICCV2025 | Skip-Vision,为视觉-语言模型打造通用加速框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海交大团队提出的Skip-Vision框架,旨在通过跳过冗余视觉Token,加速视觉-语言模型(VLM)的训练和推理。该框架无需额外预训练,可适配多种多模态架构,通过Skip-FFN和Skip KV-Cache技术,降低了FLOPs和延迟,同时保持了模型性能。Skip-Vision的核心在于跳过冗余信息,汇总精华,并提出了Summary Token机制,确保信息不丢失。

💡 **视觉Token过载问题**: 视觉-语言模型(VLM)使用大量视觉Token,导致训练和推理阶段的算力消耗巨大,例如LLaVA模型单次推理FLOPs可达2千亿,延迟超过150毫秒。

🚀 **Skip-FFN加速训练**: Skip-Vision在训练阶段采用Skip-FFN机制,跳过对FFN层更新量小的视觉Token的计算,从而节省22%~40%的训练时间,且性能几乎无损。

⚡️ **Skip KV-Cache加速推理**: 在推理阶段,Skip-Vision利用Skip KV-Cache,剔除冗余Token的KV-Cache,降低40%~75%的推理FLOPs,端到端延迟减少18%~45%。

🧠 **Summary Token机制**: Skip-Vision通过Summary Token机制,将冗余Token的信息汇总到少量Summary Token中,保证信息流不中断,避免因大幅裁剪而带来的理解缺失。

🔬 **理论与实验验证**: Skip-Vision有严格的理论支撑,通过对transformer的计算流进行分析,推导了Skip-FFN的误差上界,实验结果表明其加速效果显著,性能稳定。

2025-07-04 14:27 美国

关注公众号,发现CV技术之美


近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队创新性地提出一种通用的视觉-语言模型加速框架Skip-Vision,论文Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping。该框架不需要额外的预训练,也不需要重新训练大模型,只需在现有 SFT 流程中插入即可,并能轻松适配 LLaVA、LLaVA-HD、CoS 等多种多模态架构。

技术背景:视觉Token——性能与算力的双刃剑

近年来,视觉-语言模型(Vision-Language Models)在多模态智能领域大放异彩,从图像描述、视觉问答到复杂的多模态推理,都表现出惊人的能力。然而,这种能力背后隐藏着一个日益严峻的算力困境——视觉Token过载

现有VLM通常会将一张图像分割成数百甚至上千个视觉Token,送入多层Transformer进行细粒度的特征分析。这种做法在精度上带来了好处,模型能捕捉到细微的纹理、局部结构甚至微小的物体。但与此同时,它也带来了巨大的代价:

    训练阶段:每一个视觉Token都需要在每层Transformer的前馈网络(Feed-Forward Network, FFN)与自注意力网络(Self-Attention, SA)中进行运算。这种重复计算让训练的时间与能耗都水涨船高,动辄需要数百小时的GPU时间。

    推理阶段:在生成回答或描述的过程中,模型需要持续维护所有Token在各层的Key-Value缓存(KV-Cache)。这种全量保留不仅造成了显存的暴涨,也显著增加了每次推理的延迟。以LLaVA这类模型为例,处理一张图像的单次推理FLOPs可高达2千亿,延迟超过150毫秒,对实时应用来说代价高昂。

简而言之,视觉Token是一把双刃剑——它提升了多模态理解的上限,但也把大模型推向了算力消耗的极限。如何保留理解能力,又能大幅降低训练与推理的开销?这正是Skip-Vision要解决的问题。

Skip-Vision核心方法:聪明地“跳过”,精准地“汇总”

Skip-Vision 的提出,就是要解决上述困境,核心理念可以用八个字概括:跳过冗余,汇总精华。它从训练和推理两个维度同时入手,构建了一个端到端的加速框架:

1. 训练阶段:Skip-FFN

Skip-Vision 在训练中最核心的创新,是对 FFN 层的跳过机制(Skip-FFN)。如图1所示,我们通过深入观察发现,大量视觉Token在 FFN 计算前后几乎没有显著变化。这意味着模型其实在对这些Token做重复、低收益的运算。

图1. 我们通过计算 FFN 之前 (∥hattn∥2) 和 FFN 之后 (∥FFN(hattn)∥2) 的特征模量比来评估 FFN 的影响。与文本 token 相比,FFN 对视觉 token 的更新量明显较小。
图2. Skip-Vision框架图。

如图2所示,Skip-Vision 会将视觉token分成retained token与skipped token,retained token数量很少,通常会通过 LLM 的所有解码器层,而大量的skipped token可以选择性地使用token merge进行处理,并被限制只在每个 Transformer 块的自注意层计算,跳过它们的前馈计算。这不仅减少了训练所需的FLOPs,还降低了显存占用。如图3所示,在实际实验中,这一机制可以帮助 LLaVA 等模型在训练时节省22%~40%的训练时间,而性能几乎无损。

图3. 性能效率权衡曲线。

2. 推理阶段:Skip KV-Cache

训练阶段节省下算力只是第一步,Skip-Vision 在推理环节进一步提出Skip KV-Cache用于加速推理。

在多模态解码过程中,模型通常需要在 KV-Cache 中保留所有视觉Token的历史信息。然而,经过前几层的Attention计算后,大部分视觉信息已被整合到少数关键Token(即 summary token)之中。许多原始Token对后续生成几乎不再贡献有效信息。

Skip-Vision利用这一现象,将被 Skip-FFN 标记的冗余Token,从 KV-Cache 中彻底剔除。这使得推理 FLOPs 可以降低 40%~75%,端到端延迟减少 18%~45%。尤其值得注意的是,即便在这样大幅度的裁剪下,模型在诸如 MMBench、MMVet、MMStar 等多项多模态基准测试中,仍能维持与原始全量模型相当的性能。

3. 关键桥梁:Summary Token

仅仅“跳过”是不够的,关键还在于如何保留重要信息。Skip-Vision 提出了“Summary Token”机制:在跳过冗余Token之前,通过注意力机制先把它们的信息集中到少量 summary token 中,再让这些 summary token 继续参与后续的运算。这种机制保证了信息流不被中断,避免了因大幅裁剪而带来的理解缺失。

4. 理论保障:误差上界分析

Skip-Vision 不仅是工程上的技巧,更有严格的理论支撑。论文中,我们通过对transformer的计算流进行分析,推导了 Skip-FFN的误差上界。分析表明,在对模型谱范数进行一定假设下,理论误差是可控的,与实际测量高度一致。这意味着,Skip-Vision 的加速不仅实用,而且可靠。

表1. 性能与效率评估(LLaMA3 8B作为基座LLM)。
表2. 性能与效率评估(Vicuna-1.5 7B作为基座LLM)。
表3. 扩展Skip-Vision的性能评估。

Skip-Vision不仅是一个优化技巧,更是对多模态大模型设计范式的重新思考。论文已公开在Arxivhttps://arxiv.org/abs/2503.21817),更多详情可访问项目主页https://zwl666666.github.io/Skip-Vision/)

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

END

欢迎加入「视觉语言交流群👇备注:VL


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Skip-Vision 视觉-语言模型 模型加速 算力优化
相关文章