MiniMax 全球第一语音模型实测：孙悟空说粤语，萌妹子讲睡前故事

橘子汽水铺前天 18:24

MiniMax 全球第一语音模型实测：孙悟空说粤语，萌妹子讲睡前故事

本文介绍了MiniMax的Speech-02模型在AI语音领域的突破性进展。该模型在多个声测竞技场中超越了11 Labs和OpenAI的最新模型，尤其在粤语和普通话方面表现出色。通过多语言测试，证实了其在音色泛化、零样本自回归Transformer架构和多语言数据集方面的优势。同时，MiniMax语音模型在商业化方面具有更高的性价比，已被广泛应用于起点读书、高途等产品中。预示着AI语音技术将在内容创作、智能助手和智能硬件等领域迎来更广泛的应用。

🏆 **模型性能卓越**：MiniMax Speech-02模型在Artificial Analysis和Hugging Face TTS Arena声测竞技场拿下第一，超越11 Labs和OpenAI最新模型，尤其在普通话、日语、越南语、泰语方面表现出巨大优势。

🗣️ **音色泛化与多语言支持**：Speech 02不依赖有限的精品音色进行训练，通过模型自身的泛化能力，学会各种音色的32种语言的声音、口音和情绪，展现了强大的跨语言合成能力。

💰 **高性价比商业化应用**：MiniMax Speech 02模型价格为50美金/百万字，远低于业界最贵的200美金/百万字，凭借高性价比推动了AI语音技术的普及，已被起点读书、高途等国内外产品应用。

🤖 **技术创新：零样本自回归Transformer**：采用自回归Transformer架构，支持零样本和一样本语音克隆，仅用参考音频定义语音特征，避免文本依赖，韵律丰富灵活。

原创橘子OrangeAI 2025-05-16 09:19 北京

从 GPT4o 到 NotebookLM，真实自然的 AI 语音不知不觉已经进入了我们的生活。

从 GPT4o 到 NotebookLM，这两年 AI 语音模型正在变得越来越好。

真实自然的 AI 语音不知不觉已经进入了我们的生活。

小宇宙昨天开始内测外语播客的中文同步收听功能，背后的技术也是 AI 语音。

刚好昨天看到一个消息， MiniMax 的 Speech-02 模型，在Artificial Analysis和 Hugging Face TTS Arena 声测竞技场都拿下第一，甚至超越了 11 Labs 和 Open AI 最新的模型。

声音是个客观又主观的模态，客观的指标很好，主观的听感也未必好，所以实际的盲测是非常重要的参考标准。

模型实测：

看到这个结果之后非常好奇模型的实际效果，于是我用各种声音实测了一番。

我先用老孙的声音测试了模型的多语言表现，如果孙猴子说粤语、英语、日语、葡萄牙语是怎么样的？

中文文本：

"老孙我生来顶天立地，五百年前大闹天宫，神仙都拿我没办法！如今皈依我佛，保唐僧西天取经，妖魔鬼怪都给我乖乖让路！俺老孙有七十二般变化，火眼金睛能识破千里妖气。这金箍棒，随心变大变小，打妖除魔无人能敌！师父啊，您莫要担心，有俺老孙在，定保您平安无事到西天！那些小妖小怪，见了俺这根棒子，还不吓得魂飞魄散？嘿嘿，若是不听话，吃我一棒！"

我还对比了 11 Labs 和 MiniMax Speech 02 在不同语言下泛化的表现。

文本：「你知唔知会计部个新人以前係做模特㗎？」「真㗎？唔怪之得佢咁靓仔啦！」「IT部个戴眼镜嘅后生仔，以前係乐队主唱嚟㗎？」「吓？唔怪之得佢开会讲嘢好似Rap咁啦！」

文本：“你知道会计部门的新人曾经是模特吗？” “真的？难怪他长得这么帅！” “你知道IT部那个戴眼镜的小哥以前是乐队主唱吗？” “啊？难怪他开会发言像在说Rap！”

听完这两组，基本确定，粤语和普通话，11labs还是很拉胯，这方面MiniMax完胜。

文本："Do you know that the newcomer in the accounting department used to be a model?" "Really? No wonder he is so handsome!" "Do you know that the guy with glasses in the IT department used to be a lead singer in a band?" "Ah? No wonder he speaks in meetings like he's rapping!"

英文方面，11labs的表现有些死板，自然度方面 MiniMax 也略胜一筹。

声音的各种可能性

不同的声音在不同场合也有不同的应用。

比如，大家都知道声音的一大属性就是陪伴。

我直接放一个睡前故事给大家听吧，这个声音的自然感，就算听不懂日语，也能感受到那种可爱和温柔吧。

文本翻译：

从前，从前，在一个小村庄里，住着一只叫做“光兔”的白兔。光兔在夜晚会温柔地发光。它的光芒能给森林里的大家带来安心和温暖，因此大家都非常珍惜它。

有一天晚上，一只小老鼠迷路了，非常害怕。就在这时，光兔来了，温柔地说：“没关系，跟着我的光走吧。”小老鼠靠着光兔的光顺利地回到了自己的家。

从那以后，光兔每晚都会巡视森林，继续帮助那些需要帮助的小动物们。正因为有了善良的光兔，森林里的大家每晚都能安心地入睡。

故事讲完了。

除了睡前陪伴，在官方的 demo 里也发现了很多应用场景。

比如影视配音领域，可以合成各种特色声音，比如机器人的声音，满足科幻电影的需要。

再比如声音表演，脱口秀场景也可以完全 hold 住。

模型技术

测试完之后，对这个模型印象深刻，然后去扒了扒 Github上的技术报告，发现了 MiniMax 这次做语音模型几点不一样的地方：

音色泛化：不像其他的语音模型， Speech 02 不依靠有限的精品音色进行训练，而是通过模型自己的泛化能力，学会了各种音色的 32 个语言的声音、口音和情绪。

零样本自回归 Transformer：采用自回归 Transformer 架构，支持零样本和一样本语音克隆，零样本模式仅用参考音频定义语音特征，避免文本依赖，韵律丰富灵活、跨语言合成能力强。

数据集：使用涵盖 32 种语言的多语言语音数据集训练，通过严格的数据处理确保转录准确、保留原始噪声和保持音色一致。

语音模型有两项重要的客观评估指标，一个是 WER，错误率指标，越低越好，一个是 SIM 相似度指标，越高越好。

MiniMax Speech 02 不止是在盲测中非常强，在 WER 和 SIM 上，表现都非常亮眼，特别是在普通话、日语、越南语、泰语方面，有巨大的优势。

商业化和性价比

做 AI 语音的业内人都知道，语音模型现在还是处于非常昂贵的阶段。

业界最贵的语音模型，价格超过200美金/百万字。

而效果最好的 MiniMax Speech 02 只需要50美金/百万字，性价比拉满。

目前国内外很多产品都接入了 MiniMax 的声音模型，为用户提供的声音服务，比如起点读书、高途、香港电视台、Bubble Pal、Hedra 等，小宇宙的外文播客中文同步，也是用的 MiniMax。

语音技术的发展正在以前所未有的速度推进，有极高的性价比才能推动行业的普及，大大降低了 AI 语音能力的大规模落地门槛。

可以预见，未来无论是内容创作、智能助手，还是智能硬件，AI 语音都将成为必不可少的生产力工具。

我们已经站在了智能语音新时代的新起点。

以上就是今天橘子汽水铺的全部分享。

如果觉得有用，请点赞、收藏、关注、转发给朋友。

谢谢大家，我们下次再见。

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax AI语音语音模型多语言性价比

相关文章

必胜客开出更平价的餐厅，发出什么信号？

水果季上演物流战，菜鸟速递借“新安樱桃”入局

平替文化之后，2024年还有哪些消费新趋势？

Opera AI瀏覽器將整合Google Cloud Gemini等模型

Google’s Advanced AI Models: Gemini, PaLM, and Bard

物美张文中：物美正在进行商品折扣化进程

TaskUs and Mavenoid Join Hands To Enable AI-Powered Product Support

“真金白银”表信心！多家券商密集回购护盘，注销式回购成趋势

Show HN: 塞壬--特色美人鱼 DSL，以 4 种语言和寓言为目标

Fliki - 用人工智能语音将文字转化为视频