机器之心 9小时前
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为AdaCM2的跨模态记忆压缩框架,旨在解决大语言模型在处理超长视频时面临的显存瓶颈和信息冗余问题。该框架由得克萨斯大学阿灵顿分校的研究团队提出,并被CVPR 2025接收为Highlight论文。AdaCM2通过跨模态注意力驱动的层级记忆压缩策略,仅保留对文本提示最有意义的视觉信息,从而实现高效的长视频理解。实验结果表明,AdaCM2在多个长视频标准数据集上表现出色,性能超越了现有技术,并显著降低了显存使用。该框架为多模态大模型的“长时记忆”能力提供了技术支持,有望应用于智能交通监控、医疗手术记录分析、教育与会议记录理解等领域。

💡 AdaCM2是首个支持超长视频理解的跨模态记忆压缩框架,针对大语言模型在处理长视频时遇到的显存瓶颈和冗余信息问题。

👀 AdaCM2基于两大核心观察:帧内注意力稀疏性(只有少数视觉Token与文本提示相关)和层间语义冗余性(临近帧间跨模态注意力相似度高)。

⚙️ AdaCM2的核心技术包括:逐帧回归式建模,动态更新记忆缓存;跨模态注意力打分,保留高注意力得分的关键信息;分层压缩机制,根据不同Transformer层中的Token冗余程度进行精细化内存控制。

🚀 实验结果表明,AdaCM2在多个长视频标准数据集上性能超越SOTA,显存使用下降65%,并支持处理超2小时长视频,具有强大的实用性。

💡 AdaCM2为多模态大模型赋予了“可控的长时记忆能力”,在智能交通、医疗、教育等领域具有广阔的应用前景,推动长视频智能理解发展。

2025-06-09 12:34 辽宁

首个支持超长视频理解的跨模态记忆压缩框架。


本文第一作者为前阿里巴巴达摩院高级技术专家,现一年级博士研究生满远斌,研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师,UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队,主要研究方向为多模态空间智能系统,致力于通过软件和系统的联合优化设计实现空间人工智能的落地。


近年来,大语言模型(LLM)持续刷新着多模态理解的边界。当语言模型具备了「看视频」的能力,视频问答、视频摘要和字幕生成等任务正逐步迈入真正的智能阶段。但一个现实难题亟待解决——如何高效理解超长视频?


为此,来自得克萨斯大学阿灵顿分校(UTA)计算机系研究团队提出了 AdaCM2:首个支持超长视频理解的跨模态记忆压缩框架。该研究已被 CVPR 2025 正式接收,并荣获 Highlight 论文(接收率为 3%),展示出其在技术创新与实际价值上的双重突破。




背景:LLM 强大,长视频理解却步


多模态视频理解模型如 VideoLLaMA、VideoChat 等已经在短视频(5–15 秒)场景中表现优异,能够回答关于视频内容的自然语言问题。但当视频长度扩展至分钟级甚至小时级,模型的显存瓶颈和冗余信息干扰问题暴露无遗:



AdaCM2 正是为解决这些核心问题而生。



提出动机:两大关键观察揭示「压缩冗余」的机会


AdaCM2 的提出建立在对视频与文本交互过程中的两个核心观察基础上,揭示了现有模型在超长视频场景下的内在局限:



观察一:帧内注意力稀疏性(Intra-Frame Sparsity)


在长视频的任意一帧中,只有极少数视觉 Token 对当前文本提示具有强相关性。绝大多数视觉信息对于回答文本问题(如「她在和谁说话?」)是无关的。实验发现,这些注意力得分呈现出尾部偏置分布,意味着高价值信息集中在少数 Token 中。


启发: 可以有选择性地仅保留「重要的」视觉 Token,而无需一视同仁处理全部帧内容。


观察二:层间语义冗余性(Layer-Wise Redundancy)


研究还发现,在深层网络中,临近帧之间的跨模态注意力相似度非常高,甚至在间隔较远的帧之间也存在冗余。这种高相似性意味着:多个 Token 在不同时间或不同层次上表达了重复的语义信息。


启发: 应该在不同层次上使用差异化的压缩策略,从而动态平衡信息保留与内存占用。


这两大观察构成了 AdaCM2 设计的基础,驱动出一整套可调、可解释、可扩展的「视频记忆管理机制」。


创新:AdaCM2 提出跨模态动态压缩机制


为应对长视频带来的内存挑战,AdaCM2 首次引入了跨模态注意力驱动的层级记忆压缩策略。其核心思想是:「仅保留那些对文本提示最有意义的视觉信息」,并通过跨层级的策略自适应完成压缩,确保模型不丢关键信息。



关键技术点:







实验结果:性能超越 SOTA + 显存下降 65%



AdaCM2 在多个长视频标准数据集上进行了验证,包括:




消融研究也显示,若移除跨模态压缩模块或将其替换为随机丢弃,模型性能将显著下降,证明观察驱动设计的有效性。


应用前景:多模态大模型的「长时记忆」引擎


AdaCM2 的提出,为多模态模型赋予了「可控的长时记忆能力」。这一能力不仅适用于传统的视频理解任务,还对以下未来应用场景具有重要意义:



总结


AdaCM2 作为首个专注于极长视频理解的跨模态记忆压缩框架,在大语言模型和视觉编码器之间架起了一座高效的信息筛选桥梁。它不仅优化了计算资源利用率,还拓展了多模态 AI 在实际应用中的边界。随着多模态大模型逐步走向落地,AdaCM2 的提出无疑将成为推动长视频智能理解发展的关键技术。


该论文已被 CVPR 2025 接收并评为 Highlight 论文,充分体现其在长视频多模态建模领域的前瞻性与影响力。更多相关研究成果也即将在未来发布,敬请关注!


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AdaCM2 超长视频 跨模态 记忆压缩 CVPR 2025
相关文章