我爱计算机视觉 07月07日 20:12
ICCV 2025 | 零样本、无需训练的交互式运动编辑算法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中山大学智能工程学院的研究团队在ICCV-2025上发表了MotionDiff,这是一种无需训练的零样本扩散方法,通过光流引导实现复杂的多视角运动编辑。该方法允许用户交互选择物体并添加运动先验,随后通过多视角光流估计和运动扩散阶段,生成高质量、多视角一致的编辑效果,支持平移、缩放、旋转和拉伸等多种操作。MotionDiff无需重新训练,为下游任务提供了便利,并在实验中展现出优于其他方法的性能。

💡MotionDiff是一种创新的零样本交互式运动编辑算法,用户只需对单视角图像施加光流,即可生成多视角一致的运动编辑结果,并保留纹理细节。

💡该方法的核心在于其无需训练的零样本扩散框架,该框架利用光流引导,实现平移、缩放、旋转和拉伸等多种复杂的多视角运动编辑操作。

💡MotionDiff包含两个关键阶段:多视角光流估计阶段(MFES)和多视角运动扩散阶段(MMDS)。MFES通过用户交互和点运动学模型(PKM)估算多视角光流,而MMDS利用光流指导扩散模型进行运动编辑,并解耦运动表示。

💡为了保证编辑效果,MotionDiff采用了流导向策略(FGS)引导运动编辑,并引入潜在空间融合(LSF)和背景网格约束(BGC)以保持纹理细节和多视角一致性。

💡实验结果表明,MotionDiff在生成高质量、多视角一致的运动效果方面优于其他基于物理的生成式运动编辑方法,并且通过消融实验验证了各个策略的有效性。

2025-07-07 13:57 江苏

关注公众号,发现CV技术之美


导读:

论文《MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion》已被国际计算机视觉顶级学术会议ICCV-2025收录,由中山大学智能工程学院完成。论文第一作者为2023级硕士研究生马义坤,通讯作者为其导师金枝教授。

生成式模型能够产生高质量的内容。然而其输出具有内在不确定性,实现可控的编辑,尤其涉及空间运动编辑更具有挑战性。虽然一些基于物理先验的方法尝试实现运动编辑,但它们通常适合处理单视角图像上的简单运动(如平移和拖拽)。通常难以处理复杂的旋转和拉伸运动,并且无法保证多视角一致性,往往还需要耗费大量资源重新训练。

为了解决这些问题,我们提出了MotionDiff,一种无需训练的零样本扩散方法,利用光流引导复杂的多视角运动编辑。用户可以交互选择感兴趣的物体并添加运动先验。随后,所提出多视角光流估计阶段(Multi-view Flow Estimation Stage, MFES)估算对应的多视角光流。接着,多视角运动扩散阶段(Multi-view Motion Diffusion Stage, MMDS)解耦运动表示并生成多视角运动结果。

大量实验表明,MotionDiff在生成高质量、多视角一致的运动效果方面优于其他基于物理的生成式运动编辑方法。此外,该方法无需重新训练,用户能够方便地将其应用于下游任务。

Abstract

本文提出了一种无需训练的零样本交互式运动编辑算法,称为MotionDiff。对于用户,只需要对一张单视角图像施加光流,其后算法便能生成多视角一致的运动编辑结果,并且能够保真纹理细节。

本文的贡献与创新点如下:

    提出了一种无需训练的零样本、光流引导的扩散框架,能够实现多种复杂的多视角运动编辑操作,如平移、缩放、旋转和拉伸。

    在多视角光流估计阶段MFES中开发了一个用户友好的交互式框架,并结合所提出的 点运动学模型PKM,从静态场景中推导出多视角光流。

    在多视角运动扩散阶段MMDS中设计了一种解耦运动表示方法,为其他相关任务(如AR/ VR,人机交互等)提供了便利。

Method

Network Architecture

MotionDiff 通过两个推理阶段实现运动编辑。首先,如图1,给定一个静态场景,用户可以交互式地选择需要编辑的物体并添加运动先验;随后,所提出的 PKM在MFES内估算多视角光流。接下来,MMDS(图2)利用这些光流来引导扩散模型进行运动编辑,并对运动表示进行解耦,以获得多视角一致的编辑结果。

多视角光流估计阶段MFES。与拖拽不同,光流具有表示像素级运动的能力。然而,直接从一个没有运动属性的静态场景中获取光流是非常具有挑战性的。因此,我们提出了 MFES,使用户能够交互式地获取多视角光流。如图1所示,具体而言,给定一个静态场景,包括多视角图像和重建的三维点云,我们首先使用 Mask Clustering对三维点进行分割,并通过用户交互式查询选择感兴趣的物体。在获取到感兴趣的物体之后,我们的核心思路是估算其运动后的三维点云。通过这种方式,我们可以通过将两种点云投影到二维空间来获得对应的多视角光流。

然而,运动后的点云是难以获取的,因此,我们提出了点运动学模型PKM,用于估计适用于不同运动模式的点云,包括平移、缩放、旋转和拉伸。如图3所示。通过PKM,我们可以从三维点云中估计出多视角光流:

多视角运动扩散阶段MMDS。利用扩散模型进行运动编辑通常需要重新训练,这对计算资源和数据都有很高的要求。因此,在MMDS(如图2所示)中,我们提出了一种无需训练的零样本扩散模型,利用从MFES获得的多视角光流来指导Stable Diffusion完成运动编辑任务。我们将运动过程解耦为静态背景、运动对象和遮挡区域的组合,如图4所示。

具体来说,在所有扩散步骤中,我们使用DDIM Inversion获取非移动区域的潜在变量,以防止静态背景结构被篡改。同时,我们在所有步骤中设计了流导向策略(Flow Guidance Strategy, FGS)来引导SD进行运动编辑。

从T步开始,我们引入了处理后的潜在空间融合(Latent Space Fusion, LSF)策略,以保持生成运动对象的纹理细节。为了保证生成遮挡区域的多视图一致性,我们引入了背景网格约束(Background Grid Constrain, BGC)。

最后,我们使用变分自编码器(VAE)解码预测的噪声潜在变量,从而获得多视角一致性的结果。这种方法避免了昂贵的重训练过程,并能够有效地支持多种运动编辑任务。

Experiments

Main Results

表2给出了MotionDiff和其它生成式运动编辑模型的对比,我们设计了专门用于运动编辑的评价指标。从表中可以发现,我们的方法作为一种无需训练的范式,具有较好的指标评估性能。此外,为了更全面的展示我们的方法的性能,我进行了了定性的评估:

如图5所示,我们分别展示了平移、缩放、旋转和拉伸的可视化对比结果。每一行展示了不同方法的编辑效果,每一列则代表来自同一场景的不同视角。为了更好地展示运动结果,我们对框选区域进行了放大显示。

结果显示,DiffEditor在一定程度上可以处理简单的运动,例如平移和缩放,但在应对更复杂的运动时存在局限(例如,在旋转中黑板的显示效果不理想)。此外,Motion Guidance因缺乏有效的纹理监督策略,在保持运动物体外观方面表现不佳,例如在平移过程中红色枕头的纹理细节丢失。

MagicFixup在单视角运动编辑中取得了令人满意的效果,但由于一致性约束不足,其在多视角运动编辑中的表现有限。

相比之下,MotionDiff在执行多样化运动的同时,能够有效保持多视角的一致性,展现出明显的优势。更多的实验结果和实验细节,欢迎阅读我们的论文原文以及补充材料。

Ablation Studies

为了验证我们所提策略的有效性,我们设计了如下消融实验:

如上图所示,分别对本文所提的策略,例如FGS,LSF等进行消融。缺失FGS无法得到合理的运动,缺失LSF无法保证运动纹理等。其余消融结果均无法取得满意的编辑效果。只有将他们组合起来才能得到高质量的编辑。这进一步证实了所提策略的有效性。

中山大学智能工程学院的前沿视觉实验室

( FVL: [https://fvl2020.framer.website/](https://fvl2020.framer.website/)  )由学院金枝教授建设并维护,实验室目前聚焦在图像/视频质量增强、视频编解码、3D 重建和无接触人体生命体征监测等领域的研究。旨在优化从视频图像的采集、传输到增强以及服务后端应用的完整周期。我们的目标是开发通用和高效的图像视频处理方法。为了应对这些挑战,我们将持之以恒地进行相关的研究,并与其他实验室进行合作,希望利用更多关键技术,解决核心问题。长期欢迎有志之士加入我们!

了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net

END

欢迎加入「图像编辑交流群👇备注:编辑


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MotionDiff 运动编辑 计算机视觉 ICCV-2025 光流
相关文章