AI说书媲美真人！豆包语音大模型升级长上下文理解

量子位 02月25日

AI说书媲美真人！豆包语音大模型升级长上下文理解

豆包语音模型基于Seed-TTS框架改进，实现高表现力、自然度和语义理解的小说演播效果。它无需额外标签，端到端合成声音，已在番茄小说上线多部有声书。

🎙豆包语音模型可端到端合成声音，无需额外标签标注。

💪对Seed-TTS进行改进，提升小说演播下的语音表现力和长文本理解。

🎉以王明军、李满超声音为基础合成千部有声书，上线番茄小说。

关注前沿科技 2025-02-25 13:20 北京

打破传统语音合成链路，端到端生成

允中发自凹非寺
量子位 | 公众号 QbitAI

下面的两个有声书演播片段，你能分辨是真人还是AI合成的吗？

来自量子位音频：有声书演播片段1

来自量子位音频：有声书演播片段2

实际上这两个小说片段都是AI合成的，方案来自于豆包语音模型团队。为了逼近一流真人主播的演播效果，豆包语音模型基于原有Seed-TTS框架进一步加入上下文理解，最终实现了高表现力、高自然度、高语义理解的小说演播效果。

豆包语音模型无需额外标签，端到端合成声音

市面上很多的语音模型已经能保证足够自然的合成表现，但在音质、韵律、情感，以及多角色演绎上还有探索空间。特别是在小说演播场景下，想要媲美一流主播细腻的演播效果，要做好旁白和角色的区分演绎、角色情感的精确表达、不同角色的区分度等。

传统的小说TTS生成方式，需要提前给对话旁白、情感、角色打标签，而豆包语音模型则可以做到端到端合成，无需额外标签标注。

△传统语音模型和豆包语音模型合成链路的区别

改进Seed-TTS技术，合成语音效果媲美真人

原始Seed-TTS（技术报告：https://arxiv.org/pdf/2406.02430）是一种自回归文本到语音模型，主要分为4个主要模块：Speech Tokenizer、Autoregressive Transformer、Diffusion Model、Acoustic Vocoder。

其中Speech Tokenizer解析了参考音频信息，决定了合成音频的音色和全局风格；Autoregressive Transformer接收传入的目标文本和Speech Tokenizer的输出，进而生成出包含语义信息的Semantic Token；Diffusion Model会基于Semantic Token建模出包含语音信息的Acoustic Token；Acoustic Vocoder负责将Acoustic Token重建还原出最终的音频。

△原始Seed-TTS架构

为进一步提升小说演播下的语音表现力和长文本的理解，豆包技术团队对Seed-TTS进行了改进。

在数据上，小说音频做章节级别处理，保证了长文下的语音一致性和连贯性。

在特征上，融合TTS前端提取的音素、音调、韵律信息和原始文本，提升发音和韵律的同时，保留小说语义。

在结构上，将speech tokenizer改为speaker embedding，解除reference audio对于语音风格的限制，因而同一个发音人能在不同角色上作出更贴合人设的演绎。

最后在目标合成文本之外，额外加入了上下文的信息，从而使得模型能够感知更大范围的语义信息，旁白和角色音表现更精准到位。

经过专业评测，优化后的豆包语音模型在小说演播场景，CMOS（Comparative Mean Opinion Score，与真人打对比分的一种主观评分方式）已达一流主播的90%+效果。

△优化后的豆包语音模型结构

技术落地番茄小说，惠及听书用户

豆包语音大模型团队以王明军、李满超两位演播圈大咖的声音为基础，采用新技术合成的千部有声书，已上线番茄小说，题材覆盖了历史、悬疑、灵异、都市、脑洞、科幻等热门书目类型。

据了解，未来豆包语音模型会继续探索前沿科技与业务场景的结合，追求更极致的“听”体验。

豆包语音模型合成的小说音色效果

王明军演播试听：

来自量子位音频：凡人仙葫

来自量子位音频：禁忌之后

来自量子位音频：我在749局的那些日子

来自量子位音频：功劳太大被猜忌？我转身加入漠北

李满超演播试听：

来自量子位音频：怒卸戎装赴凰途，暴君招架不住

来自量子位音频：神医千金带亿万物资穿七零拽爆了

来自量子位音频：你科举我种田，塑料夫妻闯荒年

来自量子位音频：复沦陷

左下角点击【阅读原文】，听更多小说音色效果。

— 完 —

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包语音模型语音合成小说演播番茄小说

相关文章

正面硬刚OpenAI与谷歌？微软竟然偷偷自研出5000亿参数大模型

Neural Synthesis of Binaural Speech From Mono Audio with Alexander Richard - #514

AI News Weekly - Issue #386: Best AI Voice Generators 2024: What Scarlett Johansson's AI Dispute Taught Us - May 23rd 2024

快来感受一下，大早上震撼到我了，这也太真实了。这个视频里的声音是推上一个人用开源 TTS https://github.com/2noise/ChatTTS 生成的。 B站这里还有个作者演示...

自己尝试了一下这个 ChatTTS 语音合成项目。真的很牛批，他是有感情的，并且会自己在合适的地方添加语气词帮助衔接内容。并且和字节新上的 LLM 语音合成做了一...

Instreamatic Announces New Opportunities for Brands to Access Professional Union Talent for Highly Personalized Ads

搭了一个ChatTTS WebUI界面和api接口

sleepytales - Have AI read and write personalized bedtime stories

Toucan TTS: An MIT Licensed Text-to-Speech Advanced Toolbox with Speech Synthesis in More Than 7000 Languages