机器之心 1小时前
ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

小红书 AIGC 团队 Dynamic-X-Lab 提出了 groundbreaking 的人脸交换方法 DynamicFace,将视频人脸交换技术推向“电影级”工业流水线。该方法巧妙融合扩散模型与可组合 3D 人脸先验,实现了高质量且高度一致的人脸置换效果。DynamicFace 通过将人脸条件精细解耦为身份、姿态、表情、光照和背景五种独立表征,解决了现有方法在身份保持和运动一致性上的难题。该技术在影视、游戏和自媒体等领域展现出巨大潜力,能够显著降低成本并提升用户体验,未来可控生成领域有望迎来新思路。

✨ **精细化解耦提升身份与运动一致性**:DynamicFace 创新性地将人脸条件分解为身份、姿态、表情、光照和背景五个独立表征,并利用 3DMM 重建模型获取参数。通过将源身份特征与目标动作信息进行精细解耦,有效解决了现有方法在身份保持和运动一致性上的矛盾,确保生成的人脸既保留原有身份特征,又能准确还原目标动作,从而实现高质量且一致的人脸交换效果。

🌟 **双流注入机制实现高保真身份保持**:为确保生成人脸的高保真度和身份一致性,DynamicFace 设计了“身份–细节双流注入机制”。高层身份流利用 Face Former 和 ArcFace 提取 ID Embedding,并通过可学习 Query Token 与 U-Net 各层 Cross-Attention 交互,确保全局身份的一致性。细节纹理流则通过 ReferenceNet 将源图像的潜变量注入主网络,实现细粒度的纹理迁移,从而在保留核心身份信息的同时,也能迁移精细的面部纹理。

🚀 **时序一致性模块优化视频生成效果**:针对视频生成中的时序一致性难题,DynamicFace 引入了 FusionTVO 模块。该模块将视频序列划分为若干段进行加权融合,并在潜变量空间引入总变差约束,有效抑制帧间跳动,提升视频的帧间稳定性。此外,通过替换背景区域的潜变量,进一步维持了场景的高保真度和自然度,使得生成视频整体视觉效果更加连贯统一。

📊 **定量实验验证卓越性能**:在 FaceForensics++ 和 FFHQ 数据集上的定量实验结果表明,DynamicFace 在身份一致性(ID Retrieval)和运动一致性(Mouth&Eye Consistency)方面均取得了最优表现,优于包括 Deepfakes、FaceShifter、SimSwap 等在内的多种 SOTA 方法。这充分证明了 DynamicFace 在身份保真与运动还原方面的综合优势,以及其在高质量人脸可控生成中的卓越性能。

2025-08-12 11:08 北京

让视频人脸交换迈入「电影级」工业流水线!

本论文主要作者来自小红书 AIGC 团队(Dynamic-X-Lab),Dynamic‑X‑LAB 是一个专注于 AIGC 领域的研究团队,致力于推动姿态驱动的人像生成与视频动画技术。他们以高质量、高可控性的生成模型为核心,围绕文生图(t2i)、图像生成(i2i)、图像转视频(i2v)和风格迁移加速等方向展开研究,并通过完整的开源方案分享给开发者与研究者社区。


近年来,扩散模型在图像与视频合成领域展现出前所未有的生成能力,为人脸生成与编辑技术按下了加速键。特别是一张静态人脸驱动任意表情、姿态乃至光照的梦想,正在走向大众工具箱,并在三大场景展现巨大潜力:

人脸视频生成的核心难题在于,如何在根据参考图像和外部动作序列,严谨地保持源参考人脸身份特征不被损伤的同时,还要维持目标人脸动作的一致性。现有方法在追求真实动态表现时,通常会遭遇以下三大挑战:

小红书提出 DynamicFace,让视频人脸交换迈入「电影级」工业流水线!

方法介绍

本研究提出了一种创新性的人脸置换方法 DynamicFace,针对图像及视频领域的人脸融合任务实现了高质量与高度一致性的置换效果。

与传统人脸置换方法相比,DynamicFace 独创性地将扩散模型(Diffusion Model)与可组合的 3D 人脸先验进行深度融合,针对人脸运动与身份信息进行了精细化解耦,以生成更一致的人脸图像和视频。


可组合三维面部先验的显式条件解耦

针对现有方法在身份与运动表征中普遍存在的耦合冗余问题,DynamicFace 提出将人脸条件显式分解为身份、姿态、表情、光照及背景五个独立的表征,并基于 3DMM 重建模型获取对应参数。

具体而言,利用源图像提取身份形状参数 α,目标视频逐帧提取姿态 β 与表情 θ,随后渲染生成形状–姿态法线图,减少目标人脸身份泄露,最大程度保留源身份;表情信息从二维关键点中提取,建模更精准的表情信息,仅保留眉毛、眼球及口唇区域的运动先验,避免引入目标身份特征;光照条件由 UV 纹理图经模糊处理得到,仅保留低频光照分量;背景条件采用遮挡感知掩码与随机位移策略,实现训练–推理阶段的目标脸型对齐。

四条条件并行输入 Mixture-of-Guiders,每组由 3×3 卷积与零初始化卷积末端构成轻量级条件注入模块,在注入网络前经过 FusionNet 融合四个条件特征后注入到扩散模型中,可在保持 Stable Diffusion 预训练先验的同时实现精准控制。


身份–细节双流注入机制

为实现高保真身份保持,DynamicFace 设计了双流并行注入架构。高层身份流由 Face Former 完成:首先利用 ArcFace 提取 ID Embedding,再通过可学习 Query Token 与 U-Net 各层 Cross-Attention 交互,确保全局身份一致性;细节纹理流由 ReferenceNet 实现,该网络为 U-Net 的可训练副本,将 512×512 源图潜变量经 Spatial-Attention 注入主网络,实现细粒度的纹理迁移。


即插即用时序一致性模块

针对时序一致性问题,DynamicFace 会在训练中插入时序注意力层来优化帧间稳定性,但时序层在处理长视频生成时会出现帧间跳动的现象。为此,我们提出了 FusionTVO,将视频序列划分为若干段,并为每段设置融合权重,在相邻段的重叠区域实行加权融合;并在潜变量空间引入总变差(Total Variation)约束,抑制帧与帧之间的不必要波动;对于人脸之外的背景区域,在每一步去噪迭代过程中采用目标图像中的背景潜变量空间进行替换,维持了场景的高保真度。

生成结果展示


与 SOTA 方法的定性对比实验


DynamicFace 可以很好地保持身份(例如,形状和面部纹理信息)和动作(包括表情和姿势等),并且生成结果维持了更好的背景一致性。

具体来说,基于 GAN 的方法往往会生成较为模糊、视觉上并不真实且身份一致性较差的结果,但可以维持不错的运动一致性;其他基于扩散模型的方法能生成分辨率更高且更真实的结果,但运动一致性保持较差(如表情不一致,眼神朝向不同等)。

DynamicFace 通过精细化解耦的条件注入可以保证更优的表情一致、眼神一致和姿势一致性。

与 SOTA 方法的定量对比实验


为全面评估 DynamicFace 的性能,研究团队在 FaceForensics++(FF++)和 FFHQ 数据集上进行系统性的定量实验,并与当前最具代表性的 6 种换脸方法进行对比,包括 Deepfakes、FaceShifter、MegaFS、SimSwap、DiffSwap 以及 Face Adapter。

实验遵循先前论文的参数设置:从每个测试视频中随机抽取 10 帧作为评估样本,并另取连续 60 帧用于视频级指标计算。所有方法均使用官方开源权重或公开推理脚本,在输入分辨率(512×512)下复现结果。定量结果如表中所示:DynamicFace 同时在身份一致性(ID Retrieval)和运动一致性(Mouth&Eye Consistency)达到了最优的结果。

整体而言,实验结果充分证明了 DynamicFace 在身份保真与运动还原方面的综合优势,验证了其在高质量人脸可控生成中的卓越性能。

更多应用样例


我们也展示了一些其他的应用示例,DynamicFace 可以对身份保持和人体驱动等生成结果进行后处理,显著提升生成结果的人脸 ID 一致性和表情控制,更多效果展示可以在项目主页中进行查看。期望这种精细化解耦条件注入的方法能为可控生成的后续工作提供新思路。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DynamicFace 人脸交换 AIGC 扩散模型 3D人脸先验
相关文章