豆包推出实时语音大模型：号称中文对话断崖式领先、情商智商均在线

IT之家 01月20日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

豆包App最新推出实时语音大模型，并在新春版中全量开放。该模型实现了语音理解和生成一体化，端到端语音对话，在语音表现力、控制力和情绪承接方面表现出色，具备低时延和随时打断的特性。更新的实时语音通话功能，让中文对话能力大幅提升，语音真实感和情绪表现近乎人机难辨，能模仿不同声线，在逻辑思考和情绪感知上也有明显提升。此外，新功能还能精准把控语音细节，支持方言、英语对话，甚至具备部分歌曲演唱能力。其核心在于采用端到端框架，深度融合语音与文本模态进行统一建模，实现多模态输入直接到多模态输出。

🗣️豆包实时语音大模型实现了语音理解和生成的一体化，采用端到端语音对话模式，相较于传统级联模式，在语音表现力、控制力以及情绪承接方面有了显著提升，并具备低时延和对话中可随时打断的特性。

🎭豆包App的实时语音通话功能，在中文场景下的对话能力得到了大幅提升，语音的真实感和情绪表达（如喜怒哀乐）几乎达到了人机难辨的程度，能够模仿不同的声线，并且在逻辑思考和情绪感知方面也有了明显的进步。

🎤新功能可以根据场景自动调整语音的节奏、儿化音、音量和气音等细节，甚至可以跟用户“说”悄悄话。此外，该模型还掌握了部分方言与英语的对话能力，能够进行多角色模仿，甚至具备部分歌曲演唱的能力。

🧠豆包的全新语音能力基于端到端框架研发，采用原生方法深度融合语音与文本模态进行统一建模，实现了从多模态输入直接到多模态输出的效果，从而赋予AI语音对话“灵魂”。

IT之家 1 月 20 日消息，IT之家从豆包官方获悉，豆包实时语音大模型今日正式推出，并在豆包 App（版本号为 7.2.0 新春版）全量开放。

据介绍，豆包实时语音大模型实现了语音理解和生成一体化，实现了端到端语音对话。相比传统级联模式在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性，“中文对话断崖式领先，情商智商双双在线”。

同时，豆包 App 更新实时语音通话功能，面向所有用户开放。该功能基于最新豆包实时语音大模型。官方表示，豆包中文场景的对话能力更新后在语音真实感和“喜怒哀乐”的情绪表现上近乎达到“人机难辨”的 AI 交互效果，可以模仿不同声线，并且在“逻辑思考”和“情绪感知”上有明显提升。

据了解，豆包全新实时语音通话功能可以根据场景自动对节奏、儿化音、音量、气音等细节精准把控，还可跟用户“说”悄悄话。其掌握了部分方言与英语对话、多角色模仿，甚至部分歌曲演唱能力。

豆包的全新语音能力基于端到端框架研发，其使用原生方法深度融合语音与文本模态进行统一建模。最终可实现从多模态输入直接到多模态输出的效果，从而达到官方所述“赋予 AI 语音对话‘灵魂’”的效果。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签