我爱计算机视觉 01月26日
贾佳亚团队 x Adobe提出GenProp,物体追踪移除特效样样在行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

贾佳亚团队联手Adobe团队的GenProp,展现出世界模拟器的潜力。它能完成多种传播任务,具有生成模型特有的优势,可解决传统方法的诸多难题,拓展问题边界并带来革新。

GenProp可完成多种传播任务,如物体移除、视频补全等,且效果优于传统方法。

该模型能追踪物体的side effects,如影子、反射等,弥补感知模型的缺陷。

GenProp具有多种编辑能力,如物体插入时可产生合理运动,物体替换时可大幅改变形状。

它还涌现出outpainting等新能力,体现了模型的通用能力。

52CV 2025-01-25 22:17 江苏




关注公众号,发现CV技术之美




Text-to-Video模型已展现出世界模拟器的潜力,这种潜力能革新传统视觉任务吗?

近日,贾佳亚团队联手Adobe团队,用GenProp(Generative Video Propagation)来给出答案。

GenProp可以完成几乎所有 “传播”( Propagation)任务,即便是更接近感知任务的实例追踪(Instance Tracking)

在人们的印象里,追踪(Tracking)问题已经得到了很好的解决。SOTA方法SAM在大规模分割数据上经过了专门的训练,精度很高。然而,传统感知方法的数据标注很难覆盖“千变万化”的影子,强如SAM也会在这类问题上犯错。

相比于SAM v2.1,GenProp展现出了生成模型特有的优势:得益于video generation的基础能力,模型可以完整地追踪物体的side effects,如狗和人的影子、反射等

这给我们带来了一些启发:

GenProp并不追求在某个问题上成为定量的SOTA,而是希望能够发挥生成模型的作用,拓展每个问题的边界,展现之前方法做不到的事情。接下来,我们会看到GenProp对物体移除、视频补全、物体替换、背景替换、物体插入、视频外绘等问题的革新。

对于物体移除,传统方法只能移除物体本身。和追踪问题类似,GenProp也可以同时移除物体产生的side effects,如反射、影子。这对于传统方法很困难,因为数据多变、难以收集,需要模型对物理规律有理解。

对于物体插入,GenProp不仅能插入静止物体,还可以产生合理的独立运动,如行驶的赛车、掉落的柠檬(符合物理规律)。

对于物体替换,GenProp不止能编辑外观(appearance editing),还能大幅改变替换物体的形状,例如熊变成羊,人变成石台。而依靠attention map的传统视频编辑方法,如Video-P2P,都无法大幅改变形状。

GenProp还可以编辑特效,如使钓鱼竿着火!须知,现阶段的编辑算法大多围绕物体和场景,对于特效的编辑能力都较弱。

对于背景替换,GenProp能使生成物体和新背景的相互作用,适应协调:

除此之外,GenProp在没有outpainting数据pair训练的情况下,涌现出了outpainting的能力,可以补全大面积运动的区域,体现了模型的通用能力:


化繁为简:通用框架与通用数据对

GenProp允许用户在初始帧上做任意修改,并据此生成后续变化的内容。

在推理过程中,GenProp的框架通过选择性内容编码器(Selective Content Encoder,SCE)接收原始视频作为输入,以保留未改变区域的内容。首帧所做的更改会通过Image-to-Video(I2V)模型在整个视频中传播,而其他区域则保持不变。

如图所示,Selective Content Encoder负责重建原始视频的信息,Image-to-Video模型负责生产新的视频信息。通过调整Injection Weight,可以控制生成和重建的比例。

GenProp的框架在I2V生成模型的基础上集成了选择性内容编码器(Selective Content Encoder,SCE)和掩码预测解码器(Mask Decoder),强制模型传播编辑区域的同时,保留原始视频中其他所有区域的内容。通过Copy & Paste等合成数据,模型被训练以传播首帧中的各种变化,同时还可以预测每帧中被编辑区域的位置。

如图所示,训练过程中,仅需放开Selective Content Encoder和Mask Decoder的参数。合成数据只作为Selective Content Encoder的输入,用于监督的模型输出数据均采用原始视频,从而保证了模型输出的视频质量不会被降低。这也意味着,原始视频的caption可以直接送入text encoder。

具体来说,文章对实例分割数据采用了多种数据制造技术,针对不同的传播子任务进行了设计:

(1) Copy-and-Paste:从一个视频中随机分割物体并粘贴到另一个视频中,模拟物体移除;

(2) Mask-and-Fill:对遮罩区域进行图像修复,模拟选定区域内的编辑效果;

(3) Color Fill:用特定颜色填充遮罩区域,代表基本的物体跟踪场景。

Copy & Paste合成数据如图所示(Video1和Video2是随机采样的视频):

可以看出,GenProp的数据对并无涵盖所有的应用场景,但数据量很大。通过有限的构造数据,SCE和I2V的分工得到了充分训练,实现了“无限”应用,如特效编辑、outpainting等。

除此之外,GenProp提出了区域感知损失(Region-Aware Loss)。该loss通过限制梯度的方式,削弱了SCE对于编辑区域的影响,帮助模型将编辑区域与原始内容区分开来。

可以观察到,在注意力图可视化过程中,注意力图逐渐聚焦于要移除的区域(左边的天鹅),引导I2V模型在这些区域内生成新内容,符合训练的预期:


总结

本文搭建了一个通用的框架,把视频生成模型转变为编辑模型GenProp,可将一帧的修改传播到整个视频。对于去除任务,模型可去除物体的side effects(如影子、反射)。对于修改任务,模型可修改物体的一小部分,也可进行较大形变的修改。对于背景修改,模型能够生成物体和新背景的相互作用。对于物体插入,模型能够允许物体独立的运动。对于物体追踪,模型能够同时追踪side effects(如影子、反射)。此外,模型还涌现出了如outpainting等新能力。

论文详情如下:

最新 AI 进展报道
请联系:amos@52cv.net


END




欢迎加入「图像编辑交流群?备注:编辑




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GenProp 视频编辑 生成模型 革新能力
相关文章