快科技资讯 01月20日
豆包实时语音大模型正式上线!端到端语音对话 情商智商双高
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动豆包团队发布了豆包实时语音大模型,该模型已在豆包App全量开放。它是一款端到端语音对话模型,在语音表现力、控制力和情绪承接方面表现出色,具备低时延和可随时打断的特性。该模型主要面向中文语境,能进行英语对话,暂不支持多语种。豆包实时语音大模型通过联合建模,具备丰富的表现力,语音表达接近真人水平,拥有强大的讲故事能力,能生动切换角色和情绪,并具备实时联网功能,可根据问题动态获取最新信息。其语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻。

🗣️ 豆包实时语音大模型是一款端到端语音对话模型,相较于传统级联模式,在语音表现力、控制力、情绪承接方面有显著提升,并具备低时延和对话中可随时打断的特性。

🎭 该模型通过学习角色语音和情感特点,具备强大的讲故事能力,在对话或内容演绎中,可生动切换成不同角色/状态,配合不同情绪表达,增强交互趣味性和沉浸感。

🌐 豆包实时语音大模型拥有实时联网功能,能根据问题动态获取最新信息,对时效问题给出精准、及时的回应,同时其语音输出逼近真人,包括语气词、停顿思考等类人副语言特征。

🇨🇳 目前该模型主要支持中文语境,可进行英语对话,但暂不支持多语种,且中文范围内,模型也仅支持小部分方言和地方口音的理解和表达,仍有提升空间。

快科技1月20日消息,今日,字节跳动豆包大模型团队宣布,豆包实时语音大模型今日正式上线,并在豆包App全量开放,将App升级至7.2.0版本即可体验。

据介绍,豆包实时语音大模型是一款语音理解和生成一体化的模型,实现了端到端语音对话。

相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性,号称“情商智商双高”。

该模型是真正意义上的端到端语音系统,主要面向中文语境和场景(可进行英语对话,暂不支持多语种)。

豆包表示,依托于语音和语义联合建模,豆包实时语音大模型拥有丰富表现力,呈现出接近真人的语音表达水准。

通过学习角色语音和情感特点,模型具备强大讲故事能力,在对话或内容演绎中,可生动切换成不同角色/状态,配合不同情绪表达,增强交互趣味性和沉浸感。

联合建模后,模型涌现出超出预期的指令理解、声音扮演和声音控制能力。

比如,目前模型部分方言和口音,主要源自于Pretrain阶段数据泛化,而非针对性训练。

豆包实时语音大模型输出语音表现力高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等),同时赋予模型实时联网功能,能根据问题,动态获取最新信息,对时效问题给到精准、及时的回应。

从豆包发布的技术展示来看,该模型语音语气自然度和情绪饱满度逼近真人,对话风格更加拟人,情感理解更加深刻,对用户的情绪做到较好承接。

豆包大模型团队也坦言,现阶段的模型主要支持中文,其他语种尚未较好支持,中文范围内,模型也仅支持小部分方言和地方口音的理解和表达。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包 实时语音大模型 端到端语音 AI 语音交互
相关文章