Character.AI公司发布AvatarFX模型,允许用户上传静态图片并为其配音,生成会说话、会动的形象。该模型基于SOTA DiT-based diffusion video generation技术,能生成高质量、高保真的视频。AvatarFX专注于将静态图片动画化,与OpenAI的Sora和Google的Veo等竞品不同,为用户提供了独特的体验。然而,这种技术也带来了潜在的风险,可能被用于制作虚假视频,引发隐私和伦理问题。
🗣️ AvatarFX的核心功能是将静态图片转化为会说话、会动的形象。用户只需上传图片并选择声音,即可生成视频。
✨ AvatarFX基于SOTA DiT-based diffusion video generation模型,该模型结合音频条件优化技术,能够生成高质量、高保真的视频。
🚀 AvatarFX的优势在于其生成视频的速度和稳定性,即使在多角色、长序列或多轮对话的复杂场景下也能保持出色表现。
🖼️ 与OpenAI的Sora和Google的Veo等竞品不同,AvatarFX专注于将特定图片动画化,而非从零开始或基于文本生成视频。
⚠️ AvatarFX的应用也存在潜在风险,用户可能利用该技术制作虚假视频,涉及隐私和伦理问题。
IT之家 4 月 23 日消息,Character.AI 公司今天(4 月 23 日)在 X 平台发布推文,宣布推出 AvatarFX 模型,能够让静态图片中的人物“开口说话”。
用户只需上传一张图片并挑选一个声音,平台即可生成会说话、会移动的形象。这些形象还能展现情感,呈现出令人惊叹的真实感和流畅度。

公司表示,这得益于一种名为“SOTA DiT-based diffusion video generation model”的先进 AI 模型。该模型经过精心训练,结合音频条件优化技术,能高效生成高质量视频。IT之家附上演示视频如下:

AvatarFX 的技术亮点在于其“高保真、时间一致性”的视频生成能力。即便面对多角色、长序列或多轮对话的复杂场景,它也能保持惊人的速度和稳定性。与 OpenAI 的 Sora 和 Google 的 Veo 等竞争对手相比,AvatarFX 并非从零开始或基于文本生成视频,而是专注于将特定图片动画化。
这种独特的工作流程为用户提供了新颖体验,但也带来了潜在风险。用户可能上传名人或熟人照片,制作看似真实的虚假视频,引发隐私和伦理争议。