2025-02-03 17:51 四川
这是理想论文里出现的图片,这张图片在论文中主要用于说明UniAvatar方法在生成具有不同运动条件的视频时的视觉控制能力。第一组是头部运动,第二组是摄像头移动,第三组是表情变化。
24年12月26日,理想&哈工大&浙大发布UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation withComprehensive Motion and Lighting Control
论文链接:https://arxiv.org/pdf/2412.19860
其中理想为第一单位,理想的Wenzhang Sun和哈工大的Xiang Li为共同第一作者。这篇论文是由理想Space AI团队发的,预期之后会在理想智能空间体验里有所体现,猜测之后用户可以通过理想同学与一个在说话的头像互动,会更有亲近感,如果锚向小孩子觉得很有趣的用户价值,潜在可以挖的产品应用场景还不少。
论文提出了UniAvatar的新方法,旨在通过音频输入生成具有广泛运动和照明控制的逼真说话头(talking head)视频。
UniAvatar 的核心特点是能够同时对多种运动(如头部运动、面部表情和相机运动)以及全局照明条件进行灵活控制。通过使用 FLAME 模型将运动信息渲染到单张图像上,UniAvatar 实现了像素级的运动控制,同时借助照明感知渲染和掩码交叉源采样策略,增强了对全局照明的控制能力。
此外,为了克服现有数据集在运动和照明多样性方面的局限性,研究者们还收集了两个新数据集:DH-FaceDrasMvVid-100 和 DH-FaceReliVid-200,分别涵盖了广泛的头部运动和多样化的照明条件,从而为模型训练提供了更丰富的数据支持。
UniAvatar 的另一特性是其模块化的架构设计。该方法通过独立的运动模块和照明模块分别管理运动和照明信号,允许单独或联合控制,从而实现了对生成视频的全面控制。
在实验中,UniAvatar 在多个数据集上均表现出色,尤其是在大规模运动和多样化照明条件下的生成稳定性方面显著优于现有方法。此外,UniAvatar 还支持多种控制信号的组合,能够根据音频、运动和照明条件生成高质量的视频内容。
UniAvatar 利用 FLAME 模型将多种运动信号(如头部、面部和相机运动)整合到单张图像中,并通过独立的运动模块和照明模块分别管理这些信号,从而实现对生成视频的全面控制。此外,UniAvatar 还通过掩码交叉源采样策略增强照明效果,并结合新收集的数据集提升模型在大规模运动和多样化照明条件下的适应能力。
UniAvatar 的处理过程包括以下关键步骤:
首先,通过 FLAME 模型将运动信息渲染到单张图像上,实现像素级的运动控制;
其次,利用独立的运动模块和照明模块分别提取和注入运动与照明特征,支持单独或联合控制;
最后,通过掩码交叉源采样策略增强全局照明效果,并结合去噪 U-Net 生成与参考图像一致的视频帧。
技术特点方面,UniAvatar 的模块化设计允许对多种运动信号和照明条件进行灵活控制,同时新数据集的引入有效解决了现有数据集在运动和照明多样性方面的不足。此外,UniAvatar 还支持多种控制信号的组合,能够根据音频、运动和照明条件生成高质量的视频内容。
UniAvatar 的出现为动态头像生成和视频合成领域带来了新的突破。其对运动和照明的精细控制能力使其在生成逼真、多样化的“会说话的头”视频方面显著优于现有技术,为数字内容创作、虚拟现实和人工智能驱动的视频生成提供了强大的工具。此外,通过公开新数据集,UniAvatar 还为相关领域的研究提供了丰富的资源,有望进一步推动该领域的技术发展和应用拓展。
摘要
本文提出了一种名为UniAvatar的方法,用于生成具有广泛运动和照明控制的逼真“会说话的头”视频。UniAvatar通过FLAME模型将多种运动信息渲染到单张图像上,同时实现了对全局照明的灵活控制。该方法通过独立模块分别管理运动和照明,支持单独或联合控制。实验表明,UniAvatar在运动控制和照明控制方面优于现有方法。此外,作者还收集了两个新数据集:DH-FaceDrasMvVid-100和DH-FaceReliVid-200,分别包含广泛的头部运动和多样化的照明条件,以增强模型在大规模运动和环境照明变化下的适应能力。
1. 引言
背景:利用音频输入生成逼真的头像视频是当前的研究热点,但现有方法在运动和照明控制方面存在局限性。
挑战:音频到运动的映射是多对一的,难以精确控制;现有方法依赖二维控制信号,难以模拟环境交互,导致生成不稳定。
贡献:UniAvatar首次实现了对多种运动(头部、相机、面部运动)和全局照明的同时控制,通过FLAME模型实现像素级运动控制,并通过照明感知渲染实现灵活的照明控制。
2. 相关工作
扩散模型:扩散模型在图像和视频生成领域取得了显著进展,例如Stable Diffusion模型通过UNet框架生成基于文本描述的图像。
会说话的头视频生成:现有方法通过结合音频和关键点控制来生成视频,但对运动和照明的控制能力有限。
肖像重照明:现有方法通过分解图像的光照、反照率和表面法线来实现重照明,但UniAvatar首次实现了动态视频生成中的稳定背景和环境照明控制。
3. 数据收集与筛选
现有数据集的局限性:现有数据集在头部运动和照明多样性方面存在不足,限制了模型的泛化能力。
新数据集:作者提出了两个新数据集:
DH-FaceDrasMvVid-100:包含100小时的说话视频,涵盖广泛的头部运动。
DH-FaceReliVid-200:包含200小时的视频,涵盖多种室内外照明条件。
4. 方法
4.1 模型概述
UniAvatar的目标是根据输入的肖像图像和音频序列生成说话视频,并通过头部运动、相机运动和照明条件进一步优化生成结果。
4.2 框架
UniAvatar的架构包括:
ReferenceNet:编码参考图像,保持背景一致性。
音频编码器:基于wav2vec网络提取音频特征。
运动模块和照明编码器:分别提取运动和照明信息。
去噪U-Net:整合多种条件信息,生成与参考图像一致的视频帧。
4.3 控制信号解耦
3D运动引导:通过FLAME模型将多种运动信息渲染到单张图像上,实现像素级运动控制。
照明引导:通过照明感知渲染生成全局照明条件,并通过掩码交叉源采样策略增强照明效果。
音频到运动:通过自适应层归一化机制增强面部表情的丰富性。
4.4 训练与推理
掩码交叉源采样(MCSS):通过随机选择背景图像和面部分割算法,增强照明控制和背景稳定性。
条件掩码和丢弃:通过掩码和丢弃策略解耦运动、照明和音频信息。
两阶段训练:第一阶段优化运动生成,第二阶段优化音频-视觉交叉注意力。
损失函数:结合LPIPS损失和时间步感知函数,优化生成结果。
5. 实验
5.1 实验设置
数据集:使用HDTF、CelebV-HQ、CelebV-Text等数据集进行训练和测试。
评估指标:采用PSNR、LPIPS、FID、FVD等指标评估生成视频的质量。
基线方法:与AniPortrait、Hallo、MegActor等方法进行比较。
5.2 定量结果
HDTF数据集:UniAvatar在多个指标上优于现有方法,尤其是在音频驱动和音频+视频驱动条件下。
DH-FaceDrasMvVid-100数据集:UniAvatar在大规模运动条件下表现出色,显著优于其他方法。
DH-FaceReliVid-200数据集:UniAvatar在照明控制方面优于现有方法,能够生成具有特定光照效果的视频。
5.3 定性结果
视觉比较:UniAvatar在不同控制条件下(如音频驱动、运动控制和照明控制)均表现出色,生成的视频稳定且逼真。
运动控制可视化:UniAvatar能够生成具有广泛头部、相机和面部运动的视频,结果稳定。
照明控制可视化:UniAvatar能够根据全局照明条件生成具有特定光照效果的视频。
不同肖像风格:UniAvatar能够处理油画、动漫图像等多种输入风格。
5.4 消融研究
掩码交叉源采样:与直接交叉采样和内源采样相比,MCSS策略能够更好地控制照明并保持背景稳定性。
运动注入方法:通过在空间注意力层注入运动特征,UniAvatar能够实现更精细的运动控制。
数据集效率:使用新数据集训练的UniAvatar在大规模运动和照明控制方面表现更好。
6. 局限性
在强光照条件下,可能会出现背景分割不准确的问题,导致图像边缘出现白色痕迹。
在生成佩戴眼镜等面部装饰物的人物时,结果可能不够理想。
7. 结论
UniAvatar通过整合3D运动和照明控制,提供了一种生成逼真“会说话的头”视频的全新方法。该方法在运动多样性和照明适应性方面的优势使其超越了现有技术,并为数字头像生成和视频合成领域带来了新的可能性。作者还计划公开发布新数据集,以促进相关领域的研究。
加微信,进群深度交流理想长期基本面。不是车友群。