南洋理工｜解决目标分配的视频抠图难题MatAnyone，利用记忆传播实现指定目标的视频抠像，活动报名

智源社区 04月22日 16:08

南洋理工｜解决目标分配的视频抠图难题MatAnyone，利用记忆传播实现指定目标的视频抠像，活动报名

MatAnyone 提出一种基于记忆传播的视频抠像方法，旨在解决复杂背景和多目标干扰下的抠像难题。该方法通过首帧指定目标，实现稳定、高质量的目标提取。核心在于「区域自适应记忆融合」，细致捕捉毛发等细节。同时，构建了更大规模的训练数据集 VM800 和更真实的评测基准 YouTubeMatte。此外，利用真实分割数据进行核心区域监督的训练策略，提升模型泛化能力。该技术在电影、短视频制作和实时视频通讯中具有广泛的应用价值。

🧑‍🔬MatAnyone 是一种基于记忆传播的「目标指定型」视频抠像方法，用户只需在第一帧通过人物遮罩指定抠像目标，即可在整个视频中实现稳定、高质量的目标提取。

🧠该方法的核心是「区域自适应记忆融合」，智能调节记忆信息在不同区域的传播程度，既确保人物主体在复杂环境中的语义稳定性，又细致捕捉到毛发等精细边界细节。

📊为了提升模型性能，研究团队构建了更大规模、更高质量的训练数据集 VM800，以及更加贴近真实分布的评测基准 YouTubeMatte。

💡为了克服现有视频抠像数据不足的问题，研究团队创新性地提出了利用真实分割数据进行核心区域监督的训练策略，显著提升了模型在真实场景中的泛化能力。

报告主题：MatAnyone：利用记忆传播实现指定目标的视频抠像

报告日期：04月24日（本周四）10:30-11:30

报告要点:

视频人物抠像技术在电影、短视频制作和实时视频通讯中具有广泛的应用价值，但面对复杂背景和多目标干扰时，现有方法仍然难以实现令人满意的追踪稳定性和细节捕捉效果。与传统无辅助方法不同，MatAnyone 提出一种基于记忆传播的「目标指定型」视频抠像方法：只需在第一帧通过人物遮罩指定抠像目标，即可在整个视频中实现稳定、高质量的目标提取。受视频目标分割的记忆力机制启发，MatAnyone对需要更高精度的抠像任务提出了「区域自适应记忆融合」，智能调节记忆信息在不同区域（即核心和边缘）的传播程度，从而既确保人物主体在复杂环境中的语义稳定性，又细致捕捉到毛发等精细边界细节。此外，我们构建了更大规模、更高质量的训练数据集 VM800，以及更加贴近真实分布的评测基准 YouTubeMatte。同时，为克服现有视频抠像数据不足的问题，我们创新性地提出了利用真实分割数据进行核心区域监督的训练策略，显著提升了模型在真实场景中的泛化能力。

报告嘉宾：

杨沛青是南洋理工大学MMLab的二年级博士生，师从吕健勤教授。她的研究兴趣涵盖计算机视觉与深度学习，聚焦于视觉内容增强、编辑及生成。她在 CVPR、NeurIPS、IJCV等国际顶级会议与期刊上发表多篇研究成果。

更多信息请访问她的个人主页：https://pq-yang.github.io/。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MatAnyone 视频抠像记忆传播目标指定深度学习

相关文章

Import AI 363: ByteDance’s 10k GPU training run; PPO vs REINFORCE; and generative everything

xLSTM: Enhancing Long Short-Term Memory LSTM Capabilities for Advanced Language Modeling and Beyond

Optimizing Graph Neural Network Training with DiskGNN: A Leap Toward Efficient Large-Scale Learning

V-JEPA, AI Reasoning from a Non-Generative Architecture with Mido Assran - #677

Transformers On Large-Scale Graphs with Bayan Bruss - #641

Towards Improved Transfer Learning with Hugo Larochelle - #631

Stable Diffusion & Generative AI with Emad Mostaque - #604

Engineering Production NLP Systems at T-Mobile with Heather Nolis - #600

Transformers for Tabular Data at Capital One with Bayan Bruss - #591

100x Improvements in Deep Learning Performance with Sparsity, w/ Subutai Ahmad - #562