云启资本 05月16日 17:41
MiniMax发布新一代语音模型,斩获全球双榜第一 | 云启伙伴
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax发布新一代文本转语音系统MiniMax Speech 02,在国际权威测评中超越OpenAI和ElevenLabs等主流模型,位列第一。该模型基于AR Transformer架构,支持32种语言、不同口音和情绪的语音合成,具备Zero-Shot高拟人音色合成能力。MiniMax Speech 02不仅听感更优异,价格也更低。其“会学习的音色提取器”能够将任意长度的音频片段转化为固定尺寸的条件向量,实现高质量的声音表达。该技术在多语种表现力上更胜一筹,并提升了音色质感。

🥇MiniMax Speech 02 在Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 两大权威榜单中均位列第一,超越OpenAI、ElevenLabs等模型,证明了其在全球领先的语音合成能力。

🗣️MiniMax Speech 02基于AR Transformer架构,支持32种语言的语音合成,并且拥有Zero-Shot的高拟人音色合成能力,只需一段参考音频即可生成媲美真人的声音,且音色更加稳定。

💰MiniMax Speech 02 在提供更优异听感的同时,价格也更低,分别是ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一,具有显著的成本优势。

🌐MiniMax Speech 的“会学习的音色提取器”本质上是一个人声编码器,支持在训练数据集所涵盖的所有语言上进行训练,从而从本质上支持32种多语种,跨语言效果更优异。

✨MiniMax Speech采用Flow-VAE将音频压缩为隐层特征,并通过Flow Matching模型来建模这一隐层特征,从而在生成语音时表达更多细节,带来更高音质、高相似度的体验。

和AI一起进步的 2025-05-16 11:10 云南

近日,云启天使轮项目、国内领先模型创业公司MiniMax发布了新一代文本转语音系统MiniMax Speech 02,在国际权威测评平台Artificial Analysis Speech Arena与Hugging Face TTS Arena中双双位列第一,全面超越OpenAI、ElevenLabs等主流模型。

得益于其“会学习的音色提取器”和灵活的架构设计,MiniMax在音质、表达力与生成成本方面实现了突破。本期「云启伙伴」带你了解详情。

权威双榜全球第一

该模型基于AR Transformer架构打造,具备出色的泛化能力,支持32语种、不同口音、不同情绪的语音合成,且拥有Zero-Shot的高拟人音色合成能力。

两项全球权威语音基准测评榜单:Artificial Analysis Speech Arena 和 Hugging Face TTS Arena 中, MiniMax Speech(在榜中对应为Speech-02-HD)超越了 OpenAI、ElevenLabs 等全球性能优异的模型,双双位列第一。

Artificial Analysis Speech Arena 评测榜单

Hugging Face TTS Arena 评测榜单

在提供更优异听感同时,MiniMax Speech 02 做到了价格更低,分别是ElevenLabs Flash V2.5 与 Mutilingual V2 的一半与四分之一。

模型架构带来的灵活性

MiniMax公布,「会学习的音色提取器」本质上是一个人声编码器(speaker encoder),它能够将任意长度的音频片段转化为固定尺寸的条件向量,从而实现高质量、灵活的声音表达。

MiniMax认为:首先,Zero-Shot 带来超拟人的音色,只需要一段参考音频,不需与之对应的文本,最终的输出效果媲美真人,且比真人更加稳定。其次,由于 Speaker encoder 可以在训练数据集所涵盖的所有语言上进行训练,因此 MiniMax Speech 从本质上支持32种多语种,跨语言效果更优异。最后,由于speaker encoder 所实现的条件向量本身也可解耦,赋予 MiniMax Speech 下游应用扩展的灵活性,实现了任意音色灵活情感表达、基于语音描述生成音色、以及基于特定说话人的克隆增强等功能。

多语种Benchmark

32种语言高质量合成

MiniMax Speech支持32种语言的合成。为评估其多语言性能,MiniMax公布了构建了一个专用测试集,并与 ElevenLabs 的 multilingual_V2 进行比较评估。

测试结果表明,在SIM(语音相似度)指标上,MiniMax Speech 02在所有语种中都优于ElevenLabs;这表明,MiniMax Speech 02 在 Zero-Shot 条件下的多语言表现力更胜一筹。此外,MiniMax Speech 02在英语、法语、意大利语和葡萄牙语等主流欧美语种上,均展现出色的准确性。相较之下,粤语、泰语、越南语、日语等一些亚洲语种上,ElevenLabs的字错率会超过10%。这充分表明Speech MiniMax在多语言适应上更加强大和可靠。

提升音色质感

为了优化生成语音的质感,MiniMax公布其采用Flow-VAE将音频压缩为隐层特征,并通过Flow Matching模型来建模这一隐层特征。两者结合,使得MiniMax Speech 02在生成语音时表达更多细节。在听感上,带来更高音质、高相似度的体验。

我们期待MiniMax进一步提升模型的可控性与效率,能够通过AI,把多语种的声音以当地最地道的发音传向全世界,让全球每一种语言都被听见、每一种文化都被理解。

MiniMax开放平台:

https://www.minimaxi.com/platform

MiniMax开放平台海外版:

https://www.minimaxi.com/en/platform

更多技术细节、实验对比数据、以及开源的多语言测试集,欢迎阅读技术报告:

  GitHub:

  https://github.com/MiniMax-AI/MiniMax-  

  Hugging Face: 

  https://huggingface.co/spaces/MiniMaxAI/MiniMax-Speech-Tech-Report

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax 语音合成 多语种 AI技术
相关文章