字节最新单图视频驱动成果X-Portrait 2：一键生成相同表情神态，效果逼真

字节跳动技术团队 2024年11月06日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

字节跳动智能创作团队推出的X-Portrait 2，是新一代单图视频驱动技术，能够将静态照片和驱动视频合成高质量视频。该技术基于先进的表情编码器模型，通过自监督学习从大量人像视频中提取表情特征，并结合生成式扩散模型，实现流畅且富有表现力的视频生成。X-Portrait 2能精准捕捉并迁移各种表情和情绪，支持跨ID、跨风格的动作迁移，适用于多种场景，如角色动画、虚拟形象等，显著提升了视频驱动技术的表现力，简化了内容创作流程。

🤔 **基于表情编码器模型：**X-Portrait 2采用先进的表情编码器模型，通过自监督学习从大量人像视频中学习ID无关的运动隐式表征，能够捕捉并迁移细微到夸张的表情和情绪，实现精准的表情动作控制。

🔄 **跨ID、跨风格动作迁移：**通过设计过滤层，X-Portrait 2能够有效过滤运动表征中的ID相关信号，即使ID图片与驱动视频中的形象和风格差异较大，也能实现跨ID、跨风格的动作迁移，适用于写实人像和卡通图像等多种场景。

🎬 **高度适应各类风格场景：**X-Portrait 2能够高度适应各种应用场景，包括现实世界中的叙事创作、角色动画、虚拟形象以及视觉特效等，为内容创作提供了一种高效便捷的方式。

💪 **优于现有技术：**与前一代X-Portrait以及Runway Act-One等业界领先方法相比，X-Portrait 2在运动表现力和ID保持性方面更加出色，能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感。

⚠️ **学术研究用途：**此工作仅以学术研究为目的，会严格规范模型的应用，防止恶意利用。

智能创作团队 2024-11-06 18:02 重庆

字节单图视频驱动技术方案X-Portrait2：情感特征丝滑迁移，高度适应各类风格场景

单图视频驱动技术为创作富有表现力、逼真的角色动画和视频片段提供了一种成本极低且高效的方法：只需一张静态照片和一段驱动视频即可生成高质量、电影级的视频。

字节跳动智能创作团队近期推出最新单图视频驱动技术X-Portrait 2，基于前一代的X-Portrait研究成果，将人像驱动的表现力提升到了一个全新的高度。

该模型不仅能保留原图的ID，还能准确捕捉并逼真迁移从细微到夸张的表情和情绪，呈现高度真实的效果，大幅简化了现有动作捕捉、角色动画和内容创作流程。

项目网页：https://byteaigc.github.io/X-Portrait2/

不同于以往依赖人脸关键点检测的单图驱动方法，X-Portrait 2构建了一个最先进的表情编码器模型，通过一种创新的端到端自监督训练框架，能够从大量人像视频中自学习ID无关的运动隐式表征。

进一步将这个编码器与强大的生成式扩散模型相结合，即可生成流畅且富有表现力的视频。

经过在大规模高质量表情视频上的训练，X-Portrait 2在运动表现力和ID保持性方面显著优于先前技术。

算法能够从驱动视频中提取不同颗粒度的表情特征（如挑眉、咬唇、吐舌、皱眉），并有效迁移到扩散模型，实现精准的表情动作控制，进而能实现驱动视频中人物情感的高保真迁移。

在训练表情编码器时，为了让编码器关注驱动视频中与表情相关的信息，X-Portrait 2较好地实现了外观和运动的解耦。

通过为模型设计过滤层，编码器能有效过滤运动表征中的ID相关信号，使得即使ID图片与驱动视频中的形象和风格差异较大，模型仍可实现跨ID、跨风格的动作迁移，涵盖写实人像和卡通图像。

这使得X-Portrait 2能高度适应各种各样的应用场景，包括现实世界中的叙事创作、角色动画、虚拟形象以及视觉特效等。

与前一代X-Portrait以及最近发布的 Runyway Act-One 等业界领先的方法相比，X-Portrait 2能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感，这些方面对于高质量的内容创作（比如动画和电影制作）至关重要。

此工作仅以学术研究为目的，会严格规范模型的应用，防止恶意利用。文中使用的图片/视频，如有侵权，请联系作者及时删除。

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签