让你更懂AI的 2025-04-10 12:32 北京
导演失业预警?
本文由加拿大滑铁卢大学魏聪、陈文虎教授团队与 Meta GenAI 共同完成。第一作者魏聪为加拿大滑铁卢大学计算机科学系二年级博士生,导师为陈文虎教授,陈文虎教授为通讯作者。
近年来,视频生成技术在动作真实性方面取得了显著进展,但在角色驱动的叙事生成这一关键任务上仍存在不足,限制了其在自动化影视制作与动画创作中的应用潜力。
现有方法多聚焦于 Talking Head 场景,仅生成面部区域,且高度依赖辅助条件(如首帧图像或精确关键点),导致生成内容在动作幅度与连贯性方面受限,难以展现自然流畅的全身动态与丰富的对话场景。此外,已有方法通常仅支持单角色说话,无法满足多角色对话与交互的生成需求。
为此,研究团队提出了 MoCha,首个面向 Talking Characters 任务的视频生成方法,致力于仅基于语音(Speech)与文本(text)输入,直接生成完整角色的对话视频,无需依赖任何辅助信号,突破了现有技术仅限于面部区域生成(Talking Head)及动作受限的局限,为自动化叙事视频生成提供了全新解决方案。
该方法面向角色近景至中景(close shot to medium shot)的全身区域,支持一个或多个人物在多轮对话场景中的动态交互。为实现语音与视频内容的精准同步,MoCha 设计了 Speech-Video Window Attention 机制,有效对齐语音与视频的时序特征,确保角色口型与身体动作的一致性。
同时,针对大规模语音标注视频数据稀缺的问题,研究团队提出了联合训练策略,充分利用语音标注与文本标注的视频数据,显著提升了模型在多样角色动作与对话内容下的泛化能力。
此外,团队创新性地设计了结构化提示模板,引入角色标签,使 MoCha 首次实现了多角色、多轮对话的生成,能够驱动 AI 角色在上下文连贯的场景中展开具备电影叙事性的对话。
通过大量定性与定量实验,包括用户偏好调研与基准对比,研究团队验证了 MoCha 在真实感、表现力、可控性与泛化性方面的领先性能,为 AI 驱动的电影叙事生成树立了新标杆。
论文链接:
https://arxiv.org/pdf/2503.23307
Hugging face论文地址:
https://huggingface.co/papers/2503.23307
项目地址:
https://congwei1230.github.io/MoCha/
X地址:
https://x.com/CongWei1230/status/1906877381899415945
X大V转发:
https://x.com/AngryTomtweets/status/1907036631057752164
X大V转发:
https://x.com/minchoi/status/1907265748721889383
X大V转发:
https://x.com/_akhaliq/status/1906935462075236621
MoCha 能够实现基于角色对话驱动的叙事视频生成。以下为研究团队基于 MoCha 生成的视频样例,并通过简单剪辑制作成宣传视频,以展示未来自动化电影生成的可行性与潜力。
MoCha 能够生成高度准确的唇动同步效果,展现出精细的语音-视频对齐能力。
情绪可控性:MoCha 能够根据输入文本灵活控制角色情绪,自动生成符合语境的角色表情与情绪动作,同时保证 唇动同步 与 面部表情与上下文的一致性。
动作可控性:MoCha 支持通过文本提示灵活控制角色动作,生成符合语境的动态表现,同时确保 唇动同步 与 面部表情与上下文的协调性。
Zero-shot 中文对话生成(无间道台词):尽管 MoCha 未在中文语音数据上进行训练,模型仍展现出良好的跨语言泛化能力,能够生成同步较为自然的中文对话视频。
多角色对话生成:MoCha 支持多角色对话生成,能够在单角色发言时,保证所角色的动作与表现合理连贯,整体对话场景保持视觉一致性与叙事连贯性。
多角色多轮对话生成:MoCha 支持多角色、多轮对话(Turn-based Dialog)生成,能够实现镜头切换与多角色动态对话的自然衔接,突破现有方法仅支持单角色发言的局限,生成具有镜头语言与剧情连贯性的复杂对话视频。
核心方法
下图展示了 MoCha 的整体框架。
端到端训练,无需辅助条件:与现有方法(如 EMO、SONIC、Echomimicv2、Loopy 和 Hallo3)不同,这些方法通常依赖参考图像、骨骼姿态或关键点等外部控制信号,MoCha 实现了完全基于语音与文本的端到端训练,无需任何辅助条件。
这一设计有效简化了模型架构,同时显著提升了动作多样性与泛化能力。
Speech-Video Window Attention 机制:研究团队提出了一种创新性的注意力机制 —— Speech-Video Window Attention,通过局部时间条件建模有效对齐语音与视频输入。该设计显著提升了唇动同步准确率与语音-视频对齐效果。
联合语音-文本训练策略:针对大规模语音标注视频数据稀缺的问题,研究团队提出了联合训练框架,充分利用语音标注与文本标注的视频数据进行协同训练。
该策略有效提升了模型在多样化角色动作下的泛化能力,同时实现了基于自然语言提示的通用可控性,支持在无需辅助信号的前提下,对角色的表情、动作、交互以及场景环境等进行细粒度控制。
多角色对话生成与角色标签设计:MoCha 首次实现了多角色动态对话生成,突破了现有方法仅支持单角色的限制,能够生成连贯、具备镜头切换与剧情连贯性的多轮对话视频。
为此,研究团队设计了结构化提示模板,明确指定对话片段数量,并引入角色描述与标签,通过角色标签简化提示,同时保证对话清晰可控。MoCha 利用视频 Token 的自注意力机制,有效保持角色身份与场景环境的一致性,同时通过语音条件信号自动引导模型在多角色对话中的镜头切换与发言时机。
总结
总体而言,本研究首次系统性地提出了 Talking Characters 生成任务,突破传统 Talking Head 合成方法的局限,实现了面向完整角色、支持多角色动态对话的视频生成,仅需语音与文本输入即可驱动角色动画。
为解决这一挑战性任务,研究团队提出了 MoCha 框架,并在其中引入了多项关键创新,包括:用于精确音视频对齐的 Speech-Video Window Attention 机制,以及结合语音标注与文本标注数据的联合训练策略,有效提升模型的泛化能力。
此外,团队设计了结构化提示模板,实现了多角色、多轮对话的自动生成,具备上下文感知能力,为可扩展的电影级 AI 叙事生成奠定了基础。通过系统的实验评估与用户偏好研究,研究团队验证了 MoCha 在真实感、表现力与可控性等方面的优越性能,为未来生成式角色动画领域的研究与应用提供了坚实基础。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧