Character.AI 推出 AvatarFX 模型：AI 实现静转动，让图片角色开口说话

IT之家前天 09:18

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Character.AI公司发布AvatarFX模型，允许用户上传静态图片并为其配音，生成会说话、会动的形象。该模型基于SOTA DiT-based diffusion video generation技术，能生成高质量、高保真的视频。AvatarFX专注于将静态图片动画化，与OpenAI的Sora和Google的Veo等竞品不同，为用户提供了独特的体验。然而，这种技术也带来了潜在的风险，可能被用于制作虚假视频，引发隐私和伦理问题。

🗣️ AvatarFX的核心功能是将静态图片转化为会说话、会动的形象。用户只需上传图片并选择声音，即可生成视频。

✨ AvatarFX基于SOTA DiT-based diffusion video generation模型，该模型结合音频条件优化技术，能够生成高质量、高保真的视频。

🚀 AvatarFX的优势在于其生成视频的速度和稳定性，即使在多角色、长序列或多轮对话的复杂场景下也能保持出色表现。

🖼️ 与OpenAI的Sora和Google的Veo等竞品不同，AvatarFX专注于将特定图片动画化，而非从零开始或基于文本生成视频。

⚠️ AvatarFX的应用也存在潜在风险，用户可能利用该技术制作虚假视频，涉及隐私和伦理问题。

IT之家 4 月 23 日消息，Character.AI 公司今天（4 月 23 日）在 X 平台发布推文，宣布推出 AvatarFX 模型，能够让静态图片中的人物“开口说话”。

用户只需上传一张图片并挑选一个声音，平台即可生成会说话、会移动的形象。这些形象还能展现情感，呈现出令人惊叹的真实感和流畅度。

公司表示，这得益于一种名为“SOTA DiT-based diffusion video generation model”的先进 AI 模型。该模型经过精心训练，结合音频条件优化技术，能高效生成高质量视频。IT之家附上演示视频如下：

AvatarFX 的技术亮点在于其“高保真、时间一致性”的视频生成能力。即便面对多角色、长序列或多轮对话的复杂场景，它也能保持惊人的速度和稳定性。与 OpenAI 的 Sora 和 Google 的 Veo 等竞争对手相比，AvatarFX 并非从零开始或基于文本生成视频，而是专注于将特定图片动画化。

这种独特的工作流程为用户提供了新颖体验，但也带来了潜在风险。用户可能上传名人或熟人照片，制作看似真实的虚假视频，引发隐私和伦理争议。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签