原创 橘子OrangeAI 2025-05-16 09:19 北京
从 GPT4o 到 NotebookLM,真实自然的 AI 语音不知不觉已经进入了我们的生活。
从 GPT4o 到 NotebookLM,这两年 AI 语音模型正在变得越来越好。
真实自然的 AI 语音不知不觉已经进入了我们的生活。
小宇宙昨天开始内测外语播客的中文同步收听功能,背后的技术也是 AI 语音。
刚好昨天看到一个消息, MiniMax 的 Speech-02 模型,在Artificial Analysis和 Hugging Face TTS Arena 声测竞技场都拿下第一,甚至超越了 11 Labs 和 Open AI 最新的模型。
声音是个客观又主观的模态,客观的指标很好,主观的听感也未必好,所以实际的盲测是非常重要的参考标准。
模型实测:
看到这个结果之后非常好奇模型的实际效果,于是我用各种声音实测了一番。
我先用老孙的声音测试了模型的多语言表现,如果孙猴子说粤语、英语、日语、葡萄牙语是怎么样的?
中文文本:
"老孙我生来顶天立地,五百年前大闹天宫,神仙都拿我没办法!如今皈依我佛,保唐僧西天取经,妖魔鬼怪都给我乖乖让路!俺老孙有七十二般变化,火眼金睛能识破千里妖气。这金箍棒,随心变大变小,打妖除魔无人能敌!师父啊,您莫要担心,有俺老孙在,定保您平安无事到西天!那些小妖小怪,见了俺这根棒子,还不吓得魂飞魄散?嘿嘿,若是不听话,吃我一棒!"
我还对比了 11 Labs 和 MiniMax Speech 02 在不同语言下泛化的表现。
文本:「你知唔知会计部个新人以前係做模特㗎?」 「真㗎?唔怪之得佢咁靓仔啦!」 「IT部个戴眼镜嘅后生仔,以前係乐队主唱嚟㗎?」 「吓?唔怪之得佢开会讲嘢好似Rap咁啦!」
文本:“你知道会计部门的新人曾经是模特吗?” “真的?难怪他长得这么帅!” “你知道IT部那个戴眼镜的小哥以前是乐队主唱吗?” “啊?难怪他开会发言像在说Rap!”
听完这两组,基本确定,粤语和普通话,11labs还是很拉胯,这方面MiniMax完胜。
文本:"Do you know that the newcomer in the accounting department used to be a model?" "Really? No wonder he is so handsome!" "Do you know that the guy with glasses in the IT department used to be a lead singer in a band?" "Ah? No wonder he speaks in meetings like he's rapping!"
英文方面,11labs的表现有些死板,自然度方面 MiniMax 也略胜一筹。
声音的各种可能性
不同的声音在不同场合也有不同的应用。
比如,大家都知道声音的一大属性就是陪伴。
我直接放一个睡前故事给大家听吧,这个声音的自然感,就算听不懂日语,也能感受到那种可爱和温柔吧。
文本翻译:
从前,从前,在一个小村庄里,住着一只叫做“光兔”的白兔。光兔在夜晚会温柔地发光。它的光芒能给森林里的大家带来安心和温暖,因此大家都非常珍惜它。
有一天晚上,一只小老鼠迷路了,非常害怕。就在这时,光兔来了,温柔地说:“没关系,跟着我的光走吧。”小老鼠靠着光兔的光顺利地回到了自己的家。
从那以后,光兔每晚都会巡视森林,继续帮助那些需要帮助的小动物们。正因为有了善良的光兔,森林里的大家每晚都能安心地入睡。
故事讲完了。
除了睡前陪伴,在官方的 demo 里也发现了很多应用场景。
比如影视配音领域,可以合成各种特色声音,比如机器人的声音,满足科幻电影的需要。
再比如声音表演,脱口秀场景也可以完全 hold 住。
模型技术
测试完之后,对这个模型印象深刻,然后去扒了扒 Github上的技术报告,发现了 MiniMax 这次做语音模型几点不一样的地方:
- 音色泛化:不像其他的语音模型, Speech 02 不依靠有限的精品音色进行训练,而是通过模型自己的泛化能力,学会了各种音色的 32 个语言的声音、口音和情绪。零样本自回归 Transformer:采用自回归 Transformer 架构,支持零样本和一样本语音克隆,零样本模式仅用参考音频定义语音特征,避免文本依赖,韵律丰富灵活、跨语言合成能力强。数据集:使用涵盖 32 种语言的多语言语音数据集训练,通过严格的数据处理确保转录准确、保留原始噪声和保持音色一致。
语音模型有两项重要的客观评估指标,一个是 WER,错误率指标,越低越好,一个是 SIM 相似度指标,越高越好。
MiniMax Speech 02 不止是在盲测中非常强,在 WER 和 SIM 上,表现都非常亮眼,特别是在普通话、日语、越南语、泰语方面,有巨大的优势。
商业化和性价比
做 AI 语音的业内人都知道,语音模型现在还是处于非常昂贵的阶段。
业界最贵的语音模型,价格超过200美金/百万字。
而效果最好的 MiniMax Speech 02 只需要50美金/百万字,性价比拉满。
目前国内外很多产品都接入了 MiniMax 的声音模型,为用户提供的声音服务,比如起点读书、高途、香港电视台、Bubble Pal、Hedra 等,小宇宙的外文播客中文同步,也是用的 MiniMax。
语音技术的发展正在以前所未有的速度推进,有极高的性价比才能推动行业的普及,大大降低了 AI 语音能力的大规模落地门槛。
可以预见,未来无论是内容创作、智能助手,还是智能硬件,AI 语音都将成为必不可少的生产力工具。
我们已经站在了智能语音新时代的新起点。
以上就是今天橘子汽水铺的全部分享。
如果觉得有用,请点赞、收藏、关注、转发给朋友。
谢谢大家,我们下次再见。