PaperWeekly 04月15日 21:52
浙大赵洲教授团队发布MegaTTS3,让AI语音更自然的新一代语音合成技术
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

浙江大学赵洲教授团队联合字节跳动发布的MegaTTS3,是一款轻量级、高质量的语音合成模型。该模型仅0.45B参数,实现了中英双语语音合成,并具备自然、可控、个性化的语音克隆能力。MegaTTS3在语音-文本稀疏对齐、生成效果可控性、效率与质量平衡方面取得重大突破,为用户带来更逼真、流畅的语音合成体验,并已在GitHub和Hugging Face上开源。

🔊 **轻量化架构与高性能:** MegaTTS3采用仅0.45B参数的轻量级架构,实现高质量语音合成,更轻量、高效,易于部署。

🗣️ **高质量语音克隆:** 能够模拟目标说话人的音色、语气和节奏,生成清晰、自然的语音,实现逼真的语音克隆效果。

🌐 **中英双语支持与口音控制:** 无缝支持中英双语文本输入,解决口音切换问题,并支持对语音属性进行强度控制和细粒度发音调整。

⚙️ **核心技术:** 采用多条件分类器自由指导(Multi-Condition CFG)实现口音调控,以及分段整流流加速(PeRFlow)技术提升语音生成速度,实现高质量语音合成。

让你更懂AI的 2025-04-15 12:40 北京

打破技术界限!

近日,浙江大学赵洲教授团队联合字节跳动,发布第三代语音合成模型 MegaTTS3,在各大专业评测数据下均展现领先水平。MegaTTS3 以仅 0.45B 参数的轻量化架构,不仅实现高质量的中英双语语音合成,还在语音克隆方面展现出自然、可控、个性化的惊人潜力。

继 Mega-TTS1 解决传统语音合成技术可控性差、跨场景适应性弱问题,Mega-TTS2 解决长语音生成稳定性与自然度、细粒度特征建模问题,此次最新发布的第三代 MegaTTS3 模型,重点在语音-文本稀疏对齐精准性,生成效果可控性,生成效率与质量的平衡性上取得了重大突破。


MegaTTS3 的提出,将 AI 语音合成技术带上了接近人类自然发音的新高度,高质量、高可控、高实时、高性价比的新一代语音合成服务将很快进入大家的日常使用中。


目前,该模型已在 GitHub 和 Hugging Face 上同步开源,吸引了众多开发者和用户的关注,发布仅数天,github stars 超 4.5k,多家知名媒体报道评测。同时,用户可以在 Demo 中体验更多 TTS 效果,感受 MegaTTS3 带来的逼真度和流畅感。


开源地址:

https://github.com/bytedance/MegaTTS3

论文地址:

https://arxiv.org/abs/2502.18924



什么是 MegaTTS3?

MegaTTS3 是一款基于轻量级扩散模型的零样本文本到语音合成系统,它基于独特的零样本语音合成能力,能依托少量提示和几秒的音频样本,快速生成高度自然、富有情感且高度模仿目标说话人的语音。

与同等规模的模型相比,MegaTTS3 在实现轻量化的同时,兼具高质量与高效能,还能进行细粒度语音控制,在情感表达上处理得更细致入微。其显著特点包括:




技术亮点

MegaTTS3 通过两大核心技术轻松复制你想要的音色。

1. 多条件分类器自由指导(Multi-Condition CFG):口音调控黑科技

demo 演示中可以看到,MegaTTS3 可以对口音强度进行控制,这其中多条件分类器自由指导起到关键作用。


2. 分段整流流加速(PeRFlow):极速生成高质量语音

MegaTTS3 靠“分段整流流”技术给模型“踩油门”。




核心架构

MegaTTS3 采用 WaveVAE 和 Latent Diffusion Transformer 双模块协同合作,创造出超高质量的语音合成效果。

1. WaveVAE 模块

WaveVAE 模块的使命是将原始语音信号压缩成紧凑的潜向量:


2. Latent Diffusion Transformer 模块

在压缩后的潜空间中,MegaTTS3 利用扩散模型进行条件生成。




实验成果与优势

MegaTTS3 前代模型的表现就很优异,在相关论文中,MegaTTS 和 MegaTTS 2的语音质量(MOS-Q)和说话人相似度(MOS-S)指标均表现出与当时顶尖模型(如 NaturalSpeech 2, Voicebox)相媲美甚至超越的性能 。


FVTTS 等研究也将 MegaTTS 系列视为 SOTA(State-of-the-Art)模型进行比较。


据论文介绍,作为升级版的 MegaTTS3,自然度、相似度双领先,在 LibriSpeech 数据集上,生成语音的自然度(CMOS)和说话人相似度(SIM-O)都是当前最优,听着就像真人说话,连细节音色都能完美还原。

大量实验数据表明,MegaTTS3 在语音清晰度、可懂度和自然度上均表现优异。



场景应用与未来展望

MegaTTS3 以其零样本语音合成能力、轻量级扩散模型和多语言支持等特点,为语音合成技术带来了全新的突破,满足了不同场景下的多样化需求,为用户带来自然流畅的听觉体验。


Demo 1 内容创作场景👇


视频创作者和博客主播可以通过 MegaTTS3 快速生成视频或博客旁白,MegaTTS3 仅需数秒音频样本,即可提供多样化的音色与韵律选择,支持中、英及多语言混合场景,有效适配全球化内容生产需求。


来自PaperWeekly音频:视频口播

Demo 2 教育应用场景👇


MegaTTS3 通过将教材及学习资料转化为有声内容,助力视障群体及有阅读障碍的用户理解文本内容。其生成的高质量有声读物,为学习者创造了更生动直观的知识获取方式,推动教育资源的无障碍化传播。


来自PaperWeekly音频:有声读物

Demo 3 智能交互场景👇


MegaTTS3 赋能智能语音助手及智能家居设备,构建亲切便捷的语音交互体验。用户可通过自然语音对话实现天气查询、音乐播放、提醒设置等功能,使智能设备真正成为兼具功能性与情感连接的生活伙伴。


来自PaperWeekly音频:天气播报

Demo 4 车载语音导航场景👇


MegaTTS3 实现了路线指引、交通信息及路况播报的语音化输出,帮助驾驶员在获取关键信息时保持注意力集中,有效提升驾驶安全性。


来自PaperWeekly音频:语音导航

*链接里还有更多官方demo:https://sditdemo.github.io/sditdemo/


作为语音交互的核心技术之一,TTS 已经在各行各业中展现出巨大的潜力。随着技术的持续迭代和社区的共同建设,我们期待 MegaTTS3 未来能带来更多惊喜,例如更便捷的零样本克隆能力、更丰富的情感和风格控制等。



结语

MegaTTS3 的问世打破了传统 TTS 技术的固有认知,以轻量级模型架构实现强大性能,重新定义了轻量级 TTS 模型的技术边界。这一突破不仅标志着语音合成技术的阶段性跨越,更为后续研究开辟了更广阔的优化空间。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MegaTTS3 语音合成 AI 开源
相关文章