2025-02-14 20:32 四川
2025年1月3日理想联合浙大等高校发布MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation。
其中理想为第二单位
论文链接:https://arxiv.org/abs/2501.01808v2
MoEE(Mixture of Emotion Experts)是一种新型音频驱动肖像动画框架,由理想汽车联合来自浙大等高校的研究人员共同开发,旨在通过精确的情感控制生成逼真的动态头像视频。
MoEE 的核心创新在于通过解耦六种基本情感(愤怒、厌恶、恐惧、快乐、悲伤、惊讶)并结合复合情感,实现了对单一情感和复杂情感状态的精确合成。此外,研究还引入了一个高质量的数据集——DH-FaceEmoVid-150,该数据集包含150小时的视频内容,涵盖六种基本情感和四种复合情感,为情感驱动模型的训练提供了丰富的素材。
MoEE 框架还设计了一个情感到潜空间模块(Emotion-to-Latents Module),能够将文本、音频和标签等多种模态输入映射到统一的情感潜空间,从而实现灵活的情感控制,甚至可以通过音频单独实现情感控制。通过两阶段训练过程和掩码噪声情感采样策略,MoEE在情感控制的准确性和生成视频的自然性方面表现出色。
该研究的特点在于其对情感控制的精确性和多样性的关注,尤其是在生成复杂情感状态时的能力。MoEE框架不仅在单一情感生成上表现出色,还能通过混合情感专家模块生成自然的复合情感,这在以往的研究中较为少见。
此外,研究通过引入高质量的数据集和多模态情感控制模块,显著提升了模型的灵活性和生成质量,为音频驱动肖像动画领域树立了新的标杆。
技术解读
本研究的核心思路是通过解耦基本情感并结合复合情感,利用混合情感专家(MoEE)模型和高质量的数据集DH-FaceEmoVid-150,实现音频驱动肖像动画中精确的情感控制和自然的动态头像生成。MoEE 框架通过引入情感到潜空间模块(Emotion-to-Latents Module),将多模态输入(如音频、文本、标签)映射到统一的情感潜空间,从而支持灵活的情感控制,甚至可以通过音频单独实现情感驱动。此外,该技术采用两阶段训练过程和掩码噪声情感采样策略,进一步提升情感控制的准确性和生成视频的自然性。
MoEE 模型的处理过程大致如下:
首先通过参考网络(Reference Net)和去噪U-Net模块学习肖像的视觉外观和背景信息。
随后,情感MoE模块利用全局和局部软分配机制,结合六种基本情感专家,实现对单一情感和复合情感的精确合成。情感到潜空间模块则通过多模态输入的统一映射,确保不同模态的情感控制信号能够有效驱动生成过程。
在训练阶段,模型采用掩码噪声情感采样策略,通过引入噪声数据和掩码处理,增强模型对情感条件的学习能力。
最终,MoEE框架能够在不同情感条件下生成高质量、自然且具有情感表达的动态头像视频。
加微信,进群深度交流理想长期基本面。不是车友群。