科大讯飞研究院 04月21日 23:05
语音、视觉、数字人三合一,人机怎样回归真“交互”?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科大讯飞在2024全球1024开发者节上,重新定义了万物智联时代的多模AIUI交互标准。通过语音、视觉、数字人三位一体的融合,全面提升了人机交互的“感官”与“大脑”,实现了更自然、更智能的交互体验。文章重点介绍了极速超拟人语音交互、音视频流的实时多模态交互以及超拟人数字人的创新应用,旨在打造更具沉浸感和个性化的人机交互体验。这些技术升级使得人机交互更加流畅、情感丰富,并能适应更复杂的环境,为用户带来更智能、更个性化的服务。

🗣️ 极速超拟人语音交互:科大讯飞通过统一神经网络和多维度语音属性解耦表征训练,实现了极速超拟人语音交互。这项技术不仅提升了语音交互的速度,还能感知用户的情感,并用合适的情绪和语调进行回复,甚至可以切换不同的角色声音和性格。

👁️ 音视频流实时多模态交互:在语音交互的基础上,科大讯飞增加了视觉交互能力,实现了音视频流的实时多模态交互。通过结合视频编解码器和多模态解耦表征,超拟人交互能够更全面地感知信息,理解任务,并给出更精准的回复,例如手指绘本伴读、手指书本学语言等新的交互方式。

👧 超拟人数字人:科大讯飞发布了超拟人数字人“林思语”,该数字人拥有生动的真人形象和动作,嘴型、表情、动作与所说的话语高度匹配,增强了交互的真实感。通过大模型的多模态交互技术,实现了表情和肢体动作的动态生成,并统一了文本、语音和表情,实现了跨模态的语义一致性,使得数字人的情感表达更加真实连贯。

✨ 个性化数字人生成:科大讯飞还展示了个性化数字人生成技术,用户只需一张照片就能打造专属形象,一句语音就能实现声音复刻,并可以设置身份、性格、场景等维度的人设。通过视频基础大模型进行人像视频生成领域的多条件引导生成训练,提升了模型对输入的泛化性,加强了个性化的效果。

原创 iFLYTEK RESEARCH 2024-10-31 16:44 北京

交互一词的本意,既是互相、彼此,也有交替、交错,充满随机、流动之感,还有浓浓的人情味。

来到现代,交互一词随着技术的发展被赋予了更多的含义:计算机领域里,程序员发出指令控制程序做出反应的过程叫交互;互联网平台上,我们在各类社交平台上获取资讯与服务、与不同的用户相互交流,也是交互。我们与机器的互动也被称之为交互,从按键按钮到触屏,再从语音到视觉等更多模态。

当万物智联时代到来,人机交互的多模定义随之更新。在此次2024科大讯飞全球1024开发者上,我们重新定义了万物智联时代的多模AIUI交互标准,升级新增了多模态、超拟人、个性化,语音、视觉、数字人交互三合一,全方位丰富了人机交互的“感官”与“大脑”,人机之间回归最本真的“交互

我们是怎么做到的?


从语音到音视频流的实时多模态交互

2个月前,我们首发极速超拟人交互并正式上线讯飞星火APP,采用统一神经网络直接实现语音端到端建模基础上,融入了多维度语音属性解耦表征训练。这两大“利器”让语音交互速度变得超快,能够感知你话语里的喜怒哀乐并且用合适的情绪回复,还可以根据需要让超拟人的声音变换节奏、大小,甚至切换不同的角色声音和性格对话。

超拟人语音交互更多信息:我们是怎样打造出极速超拟人交互的?

此次的发布在语音方面增加了更多的情感和人设种类,更重要的则是拓展到了音视频流的实时交互,超拟人交互有了一双“慧眼”。

视觉交互能力,看孙悟空和奥特曼的“一出好戏”

和我们平时与世界的真实交互一样,视觉能够提供更多的信息(也是必不可少的),比如和人交谈时要“察言观色”,对环境和事件的识别离不开“所见所闻”。

视觉交互能力的实现仍然基于此前的端到端建模基础和多维度属性解耦表征训练。前者链路中的输入与输出原先只有音频的编解码器与适配器,此次则加入了视频编解码器和对应的适配器;后者在原先仅解耦语音的内容、情感、语种、音色、韵律等属性之外,又结合跨模态时空增强预训练与区分性特征建模,将图文、物体、空间、事件等表征也加入其中,进一步升级为多模态解耦表征。

边看边听、实时多模交互的实现,让超拟人交互在比较复杂的环境里能够更全面地感知信息,观察具体的背景场景、文字信息、物体的状态、人物的着装等等;同时对任务的理解也更加精准,通过语音、手势、行为、情绪等综合判断,给出我们想要了解的内容和建议、做出合适的回复。

除此之外,音视频流实时多模交互也能让图文场景的文字告别转化、直接识别,还可以创新实现手指绘本伴读、手指书本学语言等新的交互方式。


首发超拟人数字人,语义贯穿“口唇-表情-动作”生成

提起数字人,大家已经不那么陌生了。在新闻播报、银行业务办理、旅游导览咨询时,我们经常能看到2D、3D和真人类型的数字人为我们提供服务。数字人模拟了人与人之间真实的交流方式,让我们能够更从容自然地通过聊天来获取信息、完成任务。

多种AI技术集合生成数字人(齐鲁银行虚拟员工梦小鲁)

此次发布会上,靓丽可爱的数字人“林思语”形象“千呼万唤始出来”——能看能听会说之外,加上了生动的真人形象和动作,最重要的是实时交互中,数字人的嘴型、表情、动作都非常匹配所说的话语,让交互的真实感倍增。与此同时,个性化数字人的打造也有了更多选择。这背后,则是基于大模型的多模态交互技术的创新与升级。


传统数字人的表情和动作需要“预制菜”,高度依赖于提前录制的模版资源。星火超拟人数字人采用动态生成,能够根据语音的节奏、语调和语言内容实时自动生成表情和肢体动作。

这一生成过程基于多模扩散生成大模型,通过解析语音中的情感与韵律信息以及文本中的语义信息,数字人的躯干和四肢动作能够与语音内容匹配,更符合交互时的情境,增强了交互的拟人化程度,以及在动态场景中的表现力。

惊讶的表情和回复内容

我们与数字人的对话大多会持续好几轮,随着问题与回复内容的不断变化,对话过程中的情感和情绪也会随时改变。传统的数字人无法察觉并根据这些交流内容的改变,实时在表情和动作上也相应做出调整。

星火超拟人数字人则通过大模型的多模态交互技术统一了文本、语音和表情,实现跨模态的语义一致性。也就是说,超拟人数字人的情感表达会更加真实连贯,当数字人和我们的对话内容和情绪在波动时,不仅数字人的口唇能够高度同步,表情和动作上也会随之变化表现,更贴近真人的情感表达。

此外,交互中的实时性也尤为关键,“发呆”与卡顿会大大影响我们的交互体验感。我们提出动作表征抽取技术,将视频维度进行有效压缩,让语音和文化输入转化为紧凑的中间表征,实现表情和动作的快速生成,既保障了数字人互动的服务质量,也让我们愿意沉浸式和数字人一直聊下去。

发布会上还演示了个性化数字人生成,一张照片就能打造专属形象,真实度和自然度达到4.0分;一句语音就能实现声音复刻,自然度达到4.2分;再加上包含了身份、性格、场景等维度的人设设置,形、声、魂皆全;通过视频基础大模型进行人像视频生成领域的多条件引导生成训练,提升了模型对输入的泛化性,加强了个性化的效果。

与数字分身现场对话

2024科大讯飞1024全球开发者节活动期间,已经有不少观众来到科博展的科技馆内,在星火大模型体验区亲身体验了多模交互的这些最新能力。

现在在讯飞星火app创建智能体中,就可以打造专属自己的个性化数字分身;想要体验超拟人数字人,可以长按识别或扫码下方小程序申请内测,讯飞星火app也将开放体验;欢迎你成为万物智联时代人机交互的新代言人!


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人机交互 科大讯飞 多模态 数字人 人工智能
相关文章