IT之家 9小时前
Character.AI 突破性技术:实时 AI 角色视频互动
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Character.AI推出名为TalkingMachines的自回归扩散模型,实现了AI角色在视频通话中的逼真互动。用户只需输入图片和声音信号,模型即可生成类似FaceTime的视觉效果。该模型基于Diffusion Transformer技术,通过流匹配扩散、音频驱动的交叉注意力、稀疏因果注意力和不对称蒸馏等关键技术,使AI角色能够展现自然的表情和动作,并实时响应音频,实现逼真的口型同步。TalkingMachines支持多种风格,标志着AI角色实时互动技术的重要进展。

🗣️ TalkingMachines是Character.AI推出的自回归扩散模型,旨在提升AI角色互动真实感。用户只需提供图片和声音,即可生成类似FaceTime的实时视频互动效果。

🎨 该模型的核心技术是Diffusion Transformer(DiT),它是一种能够从随机噪声中创建详细图像的“艺术家”。Character.AI优化了这一过程,使其能够达到实时效果。

👂 TalkingMachines采用了多项关键技术,包括流匹配扩散、音频驱动的交叉注意力、稀疏因果注意力和不对称蒸馏。其中,音频驱动的交叉注意力技术让AI可以理解音频的节奏、停顿和语调,并将其转化为精确的口型、点头和眨眼。

🎬 流匹配扩散技术训练了大量动作,包括细微的面部表情和夸张的手势,确保AI角色动作的自然流畅。稀疏因果注意力技术则提高了视频帧处理的效率,而不对称蒸馏技术实现了视频的实时生成。

🎭 TalkingMachines支持多种风格,包括真实感人类、动漫和3D虚拟形象,这标志着AI角色实时互动技术在音频视觉领域的重大突破,未来可期。

IT之家 7 月 5 日消息,AI 聊天机器人平台 Character.AI 发布研究论文和视频演示,展示了名为 TalkingMachines 的自回归扩散模型,让 AI 角色互动更加逼真。

该模型尚未部署在 Character.AI 平台上,根据研究论文和视频演示,用户只需要输入一张图片和声音信号,该模型就能实现类似 FaceTime 的通话视觉互动。

该模型基于 Diffusion Transformer(DiT)技术,本质上是一种能够从随机噪声中创建详细图像的“艺术家”,并不断优化图像直至完美。Character.AI 所做的就是让这一过程变得极其迅速,达到实时效果。

TalkingMachines 模型采用了流匹配扩散(Flow-Matched Diffusion)、音频驱动的交叉注意力(Audio-Driven Cross Attention)、稀疏因果注意力(Sparse Causal Attention)和不对称蒸馏(Asymmetric Distillation)等多种关键技术。

其中流匹配扩散技术通过训练大量动作,包括细微的面部表情和更夸张的手势,确保 AI 角色动作更加自然。音频驱动的交叉注意力技术则让 AI 不仅能听到单词,还能理解音频中的节奏、停顿和语调,并将其转化为精确的口型、点头和眨眼。

稀疏因果注意力技术让 Character.AI 能够以更高效的方式处理视频帧,而不对称蒸馏技术则让视频能够实时生成,营造出类似 FaceTime 通话的效果。

Character.AI 强调,这一研究突破不仅仅是关于面部动画的,它是朝向实时互动的音频视觉 AI 角色迈出的一步。该模型支真实感人类、动漫和 3D 虚拟形象等多种风格。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Character.AI TalkingMachines AI Diffusion Transformer 实时互动
相关文章