语音、视觉、数字人三合一，人机怎样回归真“交互”？

原创 iFLYTEK RESEARCH 2024-10-31 16:44 北京

交互一词的本意，既是互相、彼此，也有交替、交错，充满随机、流动之感，还有浓浓的人情味。

来到现代，交互一词随着技术的发展被赋予了更多的含义：计算机领域里，程序员发出指令控制程序做出反应的过程叫交互；互联网平台上，我们在各类社交平台上获取资讯与服务、与不同的用户相互交流，也是交互。我们与机器的互动也被称之为交互，从按键按钮到触屏，再从语音到视觉等更多模态。

当万物智联时代到来，人机交互的多模定义随之更新。在此次2024科大讯飞全球1024开发者上，我们重新定义了万物智联时代的多模AIUI交互标准，升级新增了多模态、超拟人、个性化，语音、视觉、数字人交互三合一，全方位丰富了人机交互的“感官”与“大脑”，人机之间回归最本真的“交互”。

我们是怎么做到的？

从语音到音视频流的实时多模态交互

2个月前，我们首发极速超拟人交互并正式上线讯飞星火APP，采用统一神经网络直接实现语音端到端建模基础上，融入了多维度语音属性解耦表征训练。这两大“利器”让语音交互速度变得超快，能够感知你话语里的喜怒哀乐并且用合适的情绪回复，还可以根据需要让超拟人的声音变换节奏、大小，甚至切换不同的角色声音和性格对话。

超拟人语音交互更多信息：我们是怎样打造出极速超拟人交互的？

此次的发布在语音方面增加了更多的情感和人设种类，更重要的则是拓展到了音视频流的实时交互，超拟人交互有了一双“慧眼”。

视觉交互能力，看孙悟空和奥特曼的“一出好戏”

和我们平时与世界的真实交互一样，视觉能够提供更多的信息（也是必不可少的），比如和人交谈时要“察言观色”，对环境和事件的识别离不开“所见所闻”。

视觉交互能力的实现仍然基于此前的端到端建模基础和多维度属性解耦表征训练。前者链路中的输入与输出原先只有音频的编解码器与适配器，此次则加入了视频编解码器和对应的适配器；后者在原先仅解耦语音的内容、情感、语种、音色、韵律等属性之外，又结合跨模态时空增强预训练与区分性特征建模，将图文、物体、空间、事件等表征也加入其中，进一步升级为多模态解耦表征。

边看边听、实时多模交互的实现，让超拟人交互在比较复杂的环境里能够更全面地感知信息，观察具体的背景场景、文字信息、物体的状态、人物的着装等等；同时对任务的理解也更加精准，通过语音、手势、行为、情绪等综合判断，给出我们想要了解的内容和建议、做出合适的回复。

除此之外，音视频流实时多模交互也能让图文场景的文字告别转化、直接识别，还可以创新实现手指绘本伴读、手指书本学语言等新的交互方式。

首发超拟人数字人，语义贯穿“口唇-表情-动作”生成

提起数字人，大家已经不那么陌生了。在新闻播报、银行业务办理、旅游导览咨询时，我们经常能看到2D、3D和真人类型的数字人为我们提供服务。数字人模拟了人与人之间真实的交流方式，让我们能够更从容自然地通过聊天来获取信息、完成任务。

多种AI技术集合生成数字人（齐鲁银行虚拟员工梦小鲁）

此次发布会上，靓丽可爱的数字人“林思语”形象“千呼万唤始出来”——能看能听会说之外，加上了生动的真人形象和动作，最重要的是实时交互中，数字人的嘴型、表情、动作都非常匹配所说的话语，让交互的真实感倍增。与此同时，个性化数字人的打造也有了更多选择。这背后，则是基于大模型的多模态交互技术的创新与升级。

生成式表情动作

传统数字人的表情和动作需要“预制菜”，高度依赖于提前录制的模版资源。星火超拟人数字人采用动态生成，能够根据语音的节奏、语调和语言内容实时自动生成表情和肢体动作。

这一生成过程基于多模扩散生成大模型，通过解析语音中的情感与韵律信息以及文本中的语义信息，数字人的躯干和四肢动作能够与语音内容匹配，更符合交互时的情境，增强了交互的拟人化程度，以及在动态场景中的表现力。

惊讶的表情和回复内容

表情动作的语义贯穿

我们与数字人的对话大多会持续好几轮，随着问题与回复内容的不断变化，对话过程中的情感和情绪也会随时改变。传统的数字人无法察觉并根据这些交流内容的改变，实时在表情和动作上也相应做出调整。

星火超拟人数字人则通过大模型的多模态交互技术统一了文本、语音和表情，实现跨模态的语义一致性。也就是说，超拟人数字人的情感表达会更加真实连贯，当数字人和我们的对话内容和情绪在波动时，不仅数字人的口唇能够高度同步，表情和动作上也会随之变化表现，更贴近真人的情感表达。

此外，交互中的实时性也尤为关键，“发呆”与卡顿会大大影响我们的交互体验感。我们提出动作表征抽取技术，将视频维度进行有效压缩，让语音和文化输入转化为紧凑的中间表征，实现表情和动作的快速生成，既保障了数字人互动的服务质量，也让我们愿意沉浸式和数字人一直聊下去。

发布会上还演示了个性化数字人生成，一张照片就能打造专属形象，真实度和自然度达到4.0分；一句语音就能实现声音复刻，自然度达到4.2分；再加上包含了身份、性格、场景等维度的人设设置，形、声、魂皆全；通过视频基础大模型进行人像视频生成领域的多条件引导生成训练，提升了模型对输入的泛化性，加强了个性化的效果。

与数字分身现场对话

2024科大讯飞1024全球开发者节活动期间，已经有不少观众来到科博展的科技馆内，在星火大模型体验区亲身体验了多模交互的这些最新能力。

现在在讯飞星火app创建智能体中，就可以打造专属自己的个性化数字分身；想要体验超拟人数字人，可以长按识别或扫码下方小程序申请内测，讯飞星火app也将开放体验；欢迎你成为万物智联时代人机交互的新代言人！

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签