和AI一起进步的 2025-05-16 11:10 云南
近日,云启天使轮项目、国内领先模型创业公司MiniMax发布了新一代文本转语音系统MiniMax Speech 02,在国际权威测评平台Artificial Analysis Speech Arena与Hugging Face TTS Arena中双双位列第一,全面超越OpenAI、ElevenLabs等主流模型。
得益于其“会学习的音色提取器”和灵活的架构设计,MiniMax在音质、表达力与生成成本方面实现了突破。本期「云启伙伴」带你了解详情。
权威双榜全球第一
该模型基于AR Transformer架构打造,具备出色的泛化能力,支持32语种、不同口音、不同情绪的语音合成,且拥有Zero-Shot的高拟人音色合成能力。
在两项全球权威语音基准测评榜单:Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 中, MiniMax Speech(在榜中对应为Speech-02-HD)超越了 OpenAI、ElevenLabs 等全球性能优异的模型,双双位列第一。
Artificial Analysis Speech Arena 评测榜单
Hugging Face TTS Arena 评测榜单
在提供更优异听感同时,MiniMax Speech 02 做到了价格更低,分别是ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一。
模型架构带来的灵活性
MiniMax公布,「会学习的音色提取器」本质上是一个人声编码器(speaker encoder),它能够将任意长度的音频片段转化为固定尺寸的条件向量,从而实现高质量、灵活的声音表达。
MiniMax认为:首先,Zero-Shot 带来超拟人的音色,只需要一段参考音频,不需与之对应的文本,最终的输出效果媲美真人,且比真人更加稳定。其次,由于 Speaker encoder 可以在训练数据集所涵盖的所有语言上进行训练,因此 MiniMax Speech 从本质上支持32种多语种,跨语言效果更优异。最后,由于speaker encoder 所实现的条件向量本身也可解耦,赋予 MiniMax Speech 下游应用扩展的灵活性,实现了任意音色灵活情感表达、基于语音描述生成音色、以及基于特定说话人的克隆增强等功能。
多语种Benchmark
32种语言高质量合成MiniMax Speech支持32种语言的合成。为评估其多语言性能,MiniMax公布了构建了一个专用测试集,并与 ElevenLabs 的 multilingual_V2 进行比较评估。
测试结果表明,在SIM(语音相似度)指标上,MiniMax Speech 02在所有语种中都优于ElevenLabs;这表明,MiniMax Speech 02 在 Zero-Shot 条件下的多语言表现力更胜一筹。此外,MiniMax Speech 02在英语、法语、意大利语和葡萄牙语等主流欧美语种上,均展现出色的准确性。相较之下,粤语、泰语、越南语、日语等一些亚洲语种上,ElevenLabs的字错率会超过10%。这充分表明Speech MiniMax在多语言适应上更加强大和可靠。
提升音色质感
我们期待MiniMax进一步提升模型的可控性与效率,能够通过AI,把多语种的声音以当地最地道的发音传向全世界,让全球每一种语言都被听见、每一种文化都被理解。
MiniMax开放平台:
https://www.minimaxi.com/platform
MiniMax开放平台海外版:
https://www.minimaxi.com/en/platform
更多技术细节、实验对比数据、以及开源的多语言测试集,欢迎阅读技术报告:
GitHub:
https://github.com/MiniMax-AI/MiniMax-
Hugging Face:
https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report