掘金 人工智能 06月09日 17:38
太逼真!豆包 · 播客模型来了:一句话生成「苏超联赛」播客,很懂 13 太保的梗
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

火山引擎发布了豆包·播客模型,该模型基于端到端的实时语音交互技术,具备强大的文本理解和语音生成能力。通过对大量播客内容的分析和优化,豆包模型能模拟真人对话的语气、停顿和口语化表达,甚至在声音复刻方面实现了音色和情绪的匹配。该模型即将全量上线,并将在豆包PC端提供更多播客玩法,旨在降低音频创作门槛,提供更高效、个性化的信息获取方式。

🗣️ 豆包·播客模型基于端到端的实时语音交互模型,具备强大的文本理解与高表现力语音生成能力,能模拟真人对话的语气、停顿和口语化表达。

👂 为了营造逼真的双人对谈效果,团队对大量播客内容进行拆解,分析真人对话的节奏、自然度、信息密度等维度,并与专业播客创作者合作优化。

🎤 豆包·声音复刻模型不仅能复刻音色,还能根据对话上下文进行情绪匹配,甚至实现唱歌、唱Rap等能力,使声音更拟人灵动。

🚀 豆包·实时语音模型即将在火山引擎Force大会中全量上线,更多播客玩法也将在豆包PC版中陆续上线,旨在降低音频创作门槛。

💡 文章还提到,将文章“投喂”给豆包·播客模型,让其进行自我播客,展示了模型的实际应用效果。

家人们,又有好玩儿的 AI 出现了——

火山引擎发布豆包 · 播客模型!

来来来,我们直接听一段:

如何?是不是有亿点点被惊艳到了?

两个 AI 的对话不论是语气、停顿、口语化,简直跟真人没有差别。

男生 AI 在讲解故事的过程中,女生 AI 会时不时穿插 “嗯”、“没错”、“对” 这样的词儿来应和。

我们甚至拿着这个 demo 问了一圈身边的人,他们竟然清一色没有发觉这是 AI!

豆包 · 播客模型背后的技术,是基于端到端的实时语音交互模型进行的场景拓展,具备强大的文本理解与高表现力语音生成能力。

为了营造出逼真的双人对谈感觉,团队对大量播客内容进行了细致的体验拆解,分析真人对话的节奏、自然度、信息密度以及口语化表现等维度,并找了专业的播客内容创作者进行充分碰撞和优化,在后续数据生产、模型效果、评测标准上进行了细致打磨。

在端到端语音交互模型的预训练环节,字节跳动语音技术团队还添加了大量语音跟文本充分对齐的数据,让模型学习到正常人交互的模式以及在播客题材下应采用的语音播报形式。

在 SFT(Supervised Fine - Tuning)阶段,团队基于数据生产层面进行精细的内容微调,针对想要的风格进行上层调整。通过大量细致的标注,使模型能够理解如何让整个听感更像真人,从而在播客场景下激发出具体效果。

除此之外,豆包 · 声音复刻模型方面也进行了框架的升级。

以往行业内的复刻模型虽能通过少量 Prompt 输入复刻用户声音,但只能学到 “形”,难以学到 “神”。

豆包 · 声音复刻模型不仅能复刻音色,还能根据对话上下文给予更加动态的回复,在情绪层面进行匹配,甚至能够让复刻声音实现原本发音人不能实现的能力,如唱歌、唱 Rap 等,使声音更加拟人、灵动。

据了解,豆包 · 实时语音模型即将在马上到来的火山引擎 Force 大会中全量上线;更多播客的玩法也会陆续在豆包 PC 版中上线。

总而言之,火山引擎在 AI 语音上的发力,尤其是豆包 · 播客模型,不仅仅是增添了 AI 新玩法,更是可以更高效、更个性化的通过 “听” 获取信息,同时把音频创作这件事的门槛再次打了下去。

One More Thing:

最后,我们还将这篇文章 “投喂” 给了豆包 · 播客模型,让它自己对自己做了一期播客。

来听一下效果吧~

扣子空间的体验地址放下面了,目前豆包 PC 端也能体验 “网页播客” 的功能,感兴趣的小伙伴快去感受一下吧~

扣子空间地址:
space.coze.cn

欢迎在评论区留下你的想法!

—  —

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

火山引擎 豆包 播客模型 AI语音 声音复刻
相关文章