MiniMax发布新一代语音模型，斩获全球双榜第一

和AI一起进步的 2025-05-16 11:10 云南

近日，云启天使轮项目、国内领先模型创业公司MiniMax发布了新一代文本转语音系统MiniMax Speech 02，在国际权威测评平台Artificial Analysis Speech Arena与Hugging Face TTS Arena中双双位列第一，全面超越OpenAI、ElevenLabs等主流模型。

得益于其“会学习的音色提取器”和灵活的架构设计，MiniMax在音质、表达力与生成成本方面实现了突破。本期「云启伙伴」带你了解详情。

权威双榜全球第一

该模型基于AR Transformer架构打造，具备出色的泛化能力，支持32语种、不同口音、不同情绪的语音合成，且拥有Zero-Shot的高拟人音色合成能力。

在两项全球权威语音基准测评榜单：Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 中， MiniMax Speech（在榜中对应为Speech-02-HD）超越了 OpenAI、ElevenLabs 等全球性能优异的模型，双双位列第一。

Artificial Analysis Speech Arena 评测榜单

Hugging Face TTS Arena 评测榜单

在提供更优异听感同时，MiniMax Speech 02 做到了价格更低，分别是ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一。

模型架构带来的灵活性

MiniMax公布，「会学习的音色提取器」本质上是一个人声编码器（speaker encoder），它能够将任意长度的音频片段转化为固定尺寸的条件向量，从而实现高质量、灵活的声音表达。

MiniMax认为：首先，Zero-Shot 带来超拟人的音色，只需要一段参考音频，不需与之对应的文本，最终的输出效果媲美真人，且比真人更加稳定。其次，由于 Speaker encoder 可以在训练数据集所涵盖的所有语言上进行训练，因此 MiniMax Speech 从本质上支持32种多语种，跨语言效果更优异。最后，由于speaker encoder 所实现的条件向量本身也可解耦，赋予 MiniMax Speech 下游应用扩展的灵活性，实现了任意音色灵活情感表达、基于语音描述生成音色、以及基于特定说话人的克隆增强等功能。

多语种Benchmark

32种语言高质量合成

MiniMax Speech支持32种语言的合成。为评估其多语言性能，MiniMax公布了构建了一个专用测试集，并与 ElevenLabs 的 multilingual_V2 进行比较评估。

测试结果表明，在SIM（语音相似度）指标上，MiniMax Speech 02在所有语种中都优于ElevenLabs；这表明，MiniMax Speech 02 在 Zero-Shot 条件下的多语言表现力更胜一筹。此外，MiniMax Speech 02在英语、法语、意大利语和葡萄牙语等主流欧美语种上，均展现出色的准确性。相较之下，粤语、泰语、越南语、日语等一些亚洲语种上，ElevenLabs的字错率会超过10%。这充分表明Speech MiniMax在多语言适应上更加强大和可靠。

提升音色质感