豆包实时语音大模型正式上线！端到端语音对话情商智商双高

快科技资讯 01月20日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

字节跳动豆包团队发布了豆包实时语音大模型，该模型已在豆包App全量开放。它是一款端到端语音对话模型，在语音表现力、控制力和情绪承接方面表现出色，具备低时延和可随时打断的特性。该模型主要面向中文语境，能进行英语对话，暂不支持多语种。豆包实时语音大模型通过联合建模，具备丰富的表现力，语音表达接近真人水平，拥有强大的讲故事能力，能生动切换角色和情绪，并具备实时联网功能，可根据问题动态获取最新信息。其语音语气自然度和情绪饱满度逼近真人，对话风格更加拟人，情感理解更加深刻。

🗣️ 豆包实时语音大模型是一款端到端语音对话模型，相较于传统级联模式，在语音表现力、控制力、情绪承接方面有显著提升，并具备低时延和对话中可随时打断的特性。

🎭 该模型通过学习角色语音和情感特点，具备强大的讲故事能力，在对话或内容演绎中，可生动切换成不同角色/状态，配合不同情绪表达，增强交互趣味性和沉浸感。

🌐 豆包实时语音大模型拥有实时联网功能，能根据问题动态获取最新信息，对时效问题给出精准、及时的回应，同时其语音输出逼近真人，包括语气词、停顿思考等类人副语言特征。

🇨🇳 目前该模型主要支持中文语境，可进行英语对话，但暂不支持多语种，且中文范围内，模型也仅支持小部分方言和地方口音的理解和表达，仍有提升空间。

快科技1月20日消息，今日，字节跳动豆包大模型团队宣布，豆包实时语音大模型今日正式上线，并在豆包App全量开放，将App升级至7.2.0版本即可体验。

据介绍，豆包实时语音大模型是一款语音理解和生成一体化的模型，实现了端到端语音对话。

相比传统级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性，号称“情商智商双高”。

该模型是真正意义上的端到端语音系统，主要面向中文语境和场景（可进行英语对话，暂不支持多语种）。

豆包表示，依托于语音和语义联合建模，豆包实时语音大模型拥有丰富表现力，呈现出接近真人的语音表达水准。

通过学习角色语音和情感特点，模型具备强大讲故事能力，在对话或内容演绎中，可生动切换成不同角色/状态，配合不同情绪表达，增强交互趣味性和沉浸感。

联合建模后，模型涌现出超出预期的指令理解、声音扮演和声音控制能力。

比如，目前模型部分方言和口音，主要源自于Pretrain阶段数据泛化，而非针对性训练。

豆包实时语音大模型输出语音表现力高度逼近真人，包括类人的副语言特征（如语气词、停顿思考等），同时赋予模型实时联网功能，能根据问题，动态获取最新信息，对时效问题给到精准、及时的回应。

从豆包发布的技术展示来看，该模型语音语气自然度和情绪饱满度逼近真人，对话风格更加拟人，情感理解更加深刻，对用户的情绪做到较好承接。

豆包大模型团队也坦言，现阶段的模型主要支持中文，其他语种尚未较好支持，中文范围内，模型也仅支持小部分方言和地方口音的理解和表达。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签