量子位 20小时前
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

PAM(Perceive Anything Model)模型由香港中文大学等机构开源,是一款创新的多模态模型,它整合了分割、识别、解释和描述功能,能够同时处理图像、短视频和长视频,并支持文本和Mask的同步输出。PAM在SAM2分割一切的基础上,增加了丰富的语义信息,仅使用3B参数就在多个图像和视频理解基准上超越或接近SOTA水平,且推理效率和显存占用更优。PAM团队构建了大规模高质量训练数据集,PAM模型已完全开源,为AR/VR、移动端推理等场景提供了新的解决方案。

🖼️ **强大的图像理解能力**:PAM模型支持通过点击或拖拽选中物体,实现分割、类别识别、解释和描述的同步输出,提供物体“是什么”、“为什么”和“什么作用”的全面信息。

🎬 **卓越的视频处理能力**:对于短视频,PAM可以追踪并分割选定物体,同时输出事件描述;对于长视频,PAM则提供流式描述功能,类似实时字幕,实现连续事件的追踪和动态叙述。

⚙️ **创新的模型架构与数据集**:PAM采用了Semantic Perceiver连接SAM2分割骨架和LLM,高效地将视觉特征转化为多模态token,实现了轻量高效的图像/视频区域级理解。同时,PAM构建了大规模、多层次、高密度的图像与视频语义标注数据集,为模型的训练提供了坚实的基础。

🚀 **优异的性能表现**:PAM-3B在PACO基准测试中达到最佳性能,并在LVIS、Total-Text、COCO-Text等多个基准上刷新或并列SOTA。与相同参数量的模型相比,PAM-3B推理更快、显存更省。

关注前沿科技 2025-06-14 16:33 北京

所有数据均已完全开源

PAM团队 投稿量子位 | 公众号 QbitAI

可以输出语义的「分割一切模型2.0」来了!

一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出!

由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的基础上,同时输出丰富的语义信息。

为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有150万个图像区域+60万个视频区域标注

实验结果表明,PAM仅使用3B参数,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现性能与轻量的统一。

所有数据均已完全开源

PAM:准确定位一键输出

SAM2拥有强大的分割能力,可以“分割一切物体”,在视频中能够高效追踪任意目标,表现惊艳!

但它也有一个明显的局限:无法提供定位目标的任何语义信息(比如物体是什么、有何功能、处于什么状态等)。

一些最新的Video LLM模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而:

而PAM(Perceive Anything Model)既保留了SAM2在图像和视频中分割、追踪一切物体的能力,同时可以输出丰富的语义信息:

在图像任务中,PAM支持一次点击即可输出选中区域的:

在视频任务中,PAM同样支持区域理解:

只需要用户的一次点击,PAM就可以并行输出mask和文本,在许多应用场景下都具有潜力!

效果展示:图片/短视频/长视频

对于图片,用户通过点击或者拖拽矩形框选中一个物体,PAM可以完成分割的同时,输出该物体的类别+解释+描述的详细语义信息!

对于较短视频,用户选中特定物体后,PAM可以追踪并分割该物体,同时输出该物体的事件描述

而对于长视频,PAM在追踪分割用户选中物体的同时,会根据事件的变化,动态地输出流式描述,类似实时字幕

工作原理:模型框架+数据集

PAM引入了Semantic Perceiver来连接SAM2分割骨架和LLM,高效地将视觉特征“翻译”成多模态token

通过SAM2分割骨架+Semantic Perceiver+LLM并行解码,在保证轻量高效的前提下,实现了分割mask和语义信息并行输出的图像/视频区域级理解。

基于此方法,PAM只使用了1.5B/3B参数的LLM head,就可以输出非常丰富和鲁棒的语义信息。

为支撑PAM的训练,构建了一个大规模、多层次、高密度的图像与视频语义标注数据集,覆盖分类、解释、描述、时序事件等多个维度:

图像数据:精细三连注释

使用SoM(Set of Masks)方法精准定位目标区域**,结合强大的闭源VLM(如GPT-4o)生成三类语义信息:

每个物体不仅知道“是什么”,还能解释“为什么”和“什么作用”。

视频数据:Storyboard驱动式理解

流式视频数据:连贯事件字幕的首创实践

实验分析:规模更小、性能更好

可以看到,PAM-3B在PACO基准测试中达到最佳性能,超过先前最佳模型3.2%以上,并在LVIS基准测试中,就语义IoU而言,超越了当前SOTA模型DAM-8B。

此外,PAM-3B在Total-Text上超过VP-SPHINX-13B超过3.5%,并在COCO-Text上达到相当的性能。

在ImageCaption、VideoCaption、视频时序事件理解等多个benchmark上,PAM都以更小的参数规模(3Bvs8B、13B)刷新或并列SOTA

如图所示,和相同参数量的DAM-3B模型相比,PAM-3B推理更快,显存更省

此外,PAM首创了区域级的流式视频字幕能力,不仅能持续描述一个物体的行为,还能在连续事件中保持高度语义一致性,展现了强大的实际应用潜力。

论文地址:https://arxiv.org/abs/2506.05302项目主页:https://perceive-anything.github.io/GitHub Repo:https://github.com/Perceive-Anything/PAMModel CKPT:https://huggingface.co/Perceive-Anything/PAM-3BDataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PAM模型 分割一切 多模态 图像视频处理
相关文章