MoEE：理想汽车的混合专家模型

2025-02-14 20:32 四川

2025年1月3日理想联合浙大等高校发布MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation。

其中理想为第二单位

MoEE（Mixture of Emotion Experts）是一种新型音频驱动肖像动画框架，由理想汽车联合来自浙大等高校的研究人员共同开发，旨在通过精确的情感控制生成逼真的动态头像视频。

MoEE 的核心创新在于通过解耦六种基本情感（愤怒、厌恶、恐惧、快乐、悲伤、惊讶）并结合复合情感，实现了对单一情感和复杂情感状态的精确合成。此外，研究还引入了一个高质量的数据集——DH-FaceEmoVid-150，该数据集包含150小时的视频内容，涵盖六种基本情感和四种复合情感，为情感驱动模型的训练提供了丰富的素材。

MoEE 框架还设计了一个情感到潜空间模块（Emotion-to-Latents Module），能够将文本、音频和标签等多种模态输入映射到统一的情感潜空间，从而实现灵活的情感控制，甚至可以通过音频单独实现情感控制。通过两阶段训练过程和掩码噪声情感采样策略，MoEE在情感控制的准确性和生成视频的自然性方面表现出色。

该研究的特点在于其对情感控制的精确性和多样性的关注，尤其是在生成复杂情感状态时的能力。MoEE框架不仅在单一情感生成上表现出色，还能通过混合情感专家模块生成自然的复合情感，这在以往的研究中较为少见。

此外，研究通过引入高质量的数据集和多模态情感控制模块，显著提升了模型的灵活性和生成质量，为音频驱动肖像动画领域树立了新的标杆。

技术解读

本研究的核心思路是通过解耦基本情感并结合复合情感，利用混合情感专家（MoEE）模型和高质量的数据集DH-FaceEmoVid-150，实现音频驱动肖像动画中精确的情感控制和自然的动态头像生成。MoEE 框架通过引入情感到潜空间模块（Emotion-to-Latents Module），将多模态输入（如音频、文本、标签）映射到统一的情感潜空间，从而支持灵活的情感控制，甚至可以通过音频单独实现情感驱动。此外，该技术采用两阶段训练过程和掩码噪声情感采样策略，进一步提升情感控制的准确性和生成视频的自然性。

MoEE 模型的处理过程大致如下：

首先通过参考网络（Reference Net）和去噪U-Net模块学习肖像的视觉外观和背景信息。

随后，情感MoE模块利用全局和局部软分配机制，结合六种基本情感专家，实现对单一情感和复合情感的精确合成。情感到潜空间模块则通过多模态输入的统一映射，确保不同模态的情感控制信号能够有效驱动生成过程。

在训练阶段，模型采用掩码噪声情感采样策略，通过引入噪声数据和掩码处理，增强模型对情感条件的学习能力。

最终，MoEE框架能够在不同情感条件下生成高质量、自然且具有情感表达的动态头像视频。

加微信，进群深度交流理想长期基本面。不是车友群。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签