橘子汽水铺 前天 18:24
MiniMax 全球第一语音模型实测:孙悟空说粤语,萌妹子讲睡前故事
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了MiniMax的Speech-02模型在AI语音领域的突破性进展。该模型在多个声测竞技场中超越了11 Labs和OpenAI的最新模型,尤其在粤语和普通话方面表现出色。通过多语言测试,证实了其在音色泛化、零样本自回归Transformer架构和多语言数据集方面的优势。同时,MiniMax语音模型在商业化方面具有更高的性价比,已被广泛应用于起点读书、高途等产品中。预示着AI语音技术将在内容创作、智能助手和智能硬件等领域迎来更广泛的应用。

🏆 **模型性能卓越**:MiniMax Speech-02模型在Artificial Analysis和Hugging Face TTS Arena声测竞技场拿下第一,超越11 Labs和OpenAI最新模型,尤其在普通话、日语、越南语、泰语方面表现出巨大优势。

🗣️ **音色泛化与多语言支持**:Speech 02不依赖有限的精品音色进行训练,通过模型自身的泛化能力,学会各种音色的32种语言的声音、口音和情绪,展现了强大的跨语言合成能力。

💰 **高性价比商业化应用**:MiniMax Speech 02模型价格为50美金/百万字,远低于业界最贵的200美金/百万字,凭借高性价比推动了AI语音技术的普及,已被起点读书、高途等国内外产品应用。

🤖 **技术创新:零样本自回归Transformer**:采用自回归Transformer架构,支持零样本和一样本语音克隆,仅用参考音频定义语音特征,避免文本依赖,韵律丰富灵活。

原创 橘子OrangeAI 2025-05-16 09:19 北京

从 GPT4o 到 NotebookLM,真实自然的 AI 语音不知不觉已经进入了我们的生活。

从 GPT4o 到 NotebookLM,这两年 AI 语音模型正在变得越来越好。

真实自然的 AI 语音不知不觉已经进入了我们的生活。

小宇宙昨天开始内测外语播客的中文同步收听功能,背后的技术也是 AI 语音。

刚好昨天看到一个消息, MiniMax 的 Speech-02 模型,在Artificial Analysis和 Hugging Face TTS Arena 声测竞技场拿下第一,甚至超越了 11 Labs 和 Open AI 最新的模型。

声音是个客观又主观的模态,客观的指标很好,主观的听感也未必好,所以实际的盲测是非常重要的参考标准。

模型实测:

看到这个结果之后非常好奇模型的实际效果,于是我用各种声音实测了一番。

我先用老孙的声音测试了模型的多语言表现,如果孙猴子说粤语、英语、日语、葡萄牙语是怎么样的?

中文文本:

"老孙我生来顶天立地,五百年前大闹天宫,神仙都拿我没办法!如今皈依我佛,保唐僧西天取经,妖魔鬼怪都给我乖乖让路!俺老孙有七十二般变化,火眼金睛能识破千里妖气。这金箍棒,随心变大变小,打妖除魔无人能敌!师父啊,您莫要担心,有俺老孙在,定保您平安无事到西天!那些小妖小怪,见了俺这根棒子,还不吓得魂飞魄散?嘿嘿,若是不听话,吃我一棒!"

我还对比了 11 Labs 和 MiniMax Speech 02 在不同语言下泛化的表现。

文本:「你知唔知会计部个新人以前係做模特㗎?」 「真㗎?唔怪之得佢咁靓仔啦!」 「IT部个戴眼镜嘅后生仔,以前係乐队主唱嚟㗎?」 「吓?唔怪之得佢开会讲嘢好似Rap咁啦!」

文本:“你知道会计部门的新人曾经是模特吗?” “真的?难怪他长得这么帅!” “你知道IT部那个戴眼镜的小哥以前是乐队主唱吗?” “啊?难怪他开会发言像在说Rap!”

听完这两组,基本确定,粤语和普通话,11labs还是很拉胯,这方面MiniMax完胜。

文本:"Do you know that the newcomer in the accounting department used to be a model?" "Really? No wonder he is so handsome!" "Do you know that the guy with glasses in the IT department used to be a lead singer in a band?" "Ah? No wonder he speaks in meetings like he's rapping!"

英文方面,11labs的表现有些死板,自然度方面 MiniMax 也略胜一筹。

声音的各种可能性

不同的声音在不同场合也有不同的应用。

比如,大家都知道声音的一大属性就是陪伴。

我直接放一个睡前故事给大家听吧,这个声音的自然感,就算听不懂日语,也能感受到那种可爱和温柔吧。

文本翻译:

从前,从前,在一个小村庄里,住着一只叫做“光兔”的白兔。光兔在夜晚会温柔地发光。它的光芒能给森林里的大家带来安心和温暖,因此大家都非常珍惜它。

有一天晚上,一只小老鼠迷路了,非常害怕。就在这时,光兔来了,温柔地说:“没关系,跟着我的光走吧。”小老鼠靠着光兔的光顺利地回到了自己的家。

从那以后,光兔每晚都会巡视森林,继续帮助那些需要帮助的小动物们。正因为有了善良的光兔,森林里的大家每晚都能安心地入睡。

故事讲完了。

除了睡前陪伴,在官方的 demo 里也发现了很多应用场景。

比如影视配音领域,可以合成各种特色声音,比如机器人的声音,满足科幻电影的需要。

再比如声音表演,脱口秀场景也可以完全 hold 住。

模型技术

测试完之后,对这个模型印象深刻,然后去扒了扒 Github上的技术报告,发现了 MiniMax 这次做语音模型几点不一样的地方:

语音模型有两项重要的客观评估指标,一个是 WER,错误率指标,越低越好,一个是 SIM 相似度指标,越高越好。

MiniMax Speech 02 不止是在盲测中非常强,在 WER 和 SIM 上,表现都非常亮眼,特别是在普通话、日语、越南语、泰语方面,有巨大的优势。

商业化和性价比

做 AI 语音的业内人都知道,语音模型现在还是处于非常昂贵的阶段。

业界最贵的语音模型,价格超过200美金/百万字。

而效果最好的 MiniMax Speech 02 只需要50美金/百万字,性价比拉满。

目前国内外很多产品都接入了 MiniMax 的声音模型,为用户提供的声音服务,比如起点读书、高途、香港电视台、Bubble Pal、Hedra 等,小宇宙的外文播客中文同步,也是用的 MiniMax。

语音技术的发展正在以前所未有的速度推进,有极高的性价比才能推动行业的普及,大大降低了 AI 语音能力的大规模落地门槛。

可以预见,未来无论是内容创作、智能助手,还是智能硬件,AI 语音都将成为必不可少的生产力工具。

我们已经站在了智能语音新时代的新起点。


以上就是今天橘子汽水铺的全部分享。

如果觉得有用,请点赞、收藏、关注、转发给朋友。

谢谢大家,我们下次再见。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax AI语音 语音模型 多语言 性价比
相关文章