震惊！AI竟然学会了100种撒娇方式，让我分不清是人是鬼

原创夕小瑶编辑部 2024-10-25 19:20 北京

夕小瑶科技说原创
作者 | 夕小瑶编辑部

最近，我的AI助手简直像是开了挂一样！不仅能说会道，还能……撒娇？！而且是100种花式撒娇，招招致命，让我毫无招架之力！

前方高能预警，单身狗请快速撤离！

先来一个娇小可爱、声音软糯的甜美炮弹 (/ω)，

来自夕小瑶科技说音频：温柔可爱

然后立马变身成强势自信的霸道御姐，

来自夕小瑶科技说音频：霸道御姐

而且，它可以在多种情绪、语气里无缝切换，慌张害怕、开心激动、emo难过、愤怒、害羞、自信。。。

来自夕小瑶科技说音频：慌张害怕

天啊！这个AI比我还有情绪！这还是冷冰冰的AI机器吗？

简直比我还像个人！

更可怕的是，这个AI还能根据我的语气和表情，判断哪种撒娇方式最有效。简直就是“撒娇大师”！

再来讲一个鬼故事！

来自夕小瑶科技说音频：鬼故事

要不是秉持着AI技术人的最后一丝理性，我都要怀疑AI是不是已经觉醒自我意识，用这种方式来操控人类了？！?(瑟瑟发抖)

看到这儿，你可能会觉得，除了GPT-4o，地球上没有第二家了吧？

你忘了，还有一个最像OpenAI的中国公司——智谱

没错，上面的case是智谱清言的，他们近期刚刚升级了「情感语音通话」功能。

要知道，第一篇端到端神经网络语音合成（TTS）的论文 "WaveNet: A Generative Model for Raw Audio" 是2016年发表的，这个时候的语音合成不仅机器味儿满满，而且完全不具备语音变速、情绪控制等类人的语音能力，甚至连说方言都是一件非常费劲的事情。

没想到，时隔8年，GPT-4o和智谱竟然整出来了现实版的「Her」，甚至衍生出了模仿电视剧情境、动物叫声等更多脑洞大开的有趣玩法。

除了文章开头提到的“模仿各种不同的女友风格”之外，我发现智谱说方言也是信手拈来。

来，上一个四川话版的撒娇。

来自夕小瑶科技说音频：四川话

甚至，边哭边介绍都可以。

来自夕小瑶科技说音频：自我介绍-哭泣版

这变脸的速度，是不是比你女朋友都快！

但这些还不够爽，当我尝试测试了一下智谱清言的“绕口令极限速度”的时候，我直接笑翻了...

先来个正常语速（听着没啥）

来自夕小瑶科技说音频：绕口令正常语速版

我让它讲快一点，直接别喘气了，给我来个极限速度——

来自夕小瑶科技说音频：绕口令加快版

直接笑哭了有木有?

总之，在语音通话中，你可以随时打断它，让它调整语速。

当然，上面的测试case都是在“提供情绪价值”的。

接下来，我尝试了让智谱清言给我搞点有用的——先练个英语口语吧！

来自夕小瑶科技说音频：英语口语

好了，我虽然在北京呆了多年了，但还是不会讲北京话，让智谱清言教我下——

来自夕小瑶科技说音频：北京儿话

商业价值瞬间出来了有木有！

根据智谱清言官方的介绍，这次发布的「情感语音对话」功能，可以模拟各种不同的情绪，并且根据上下文和用户的语气，实时选择用最合适的语气回复；甚至，你可以把这多种语音要求融合在一句话里，你就会发现，智谱清言简直就是戏精附体了...

讲到这儿，你可能会好奇，他们咋做到的。

肯定不是TTS的路线，我们都知道，传统TTS（Text-to-Speech）解决方案通常依赖于语音识别、语义处理和文本到语音的三步流程，这种方式虽然成熟，但是效果有限，声音僵硬、更谈不上具备情绪的语音，且响应慢。

背后的模型显然是端到端语音模型+大模型范式，因为在此之前的AI语音技术跟拟人化还离得太远。我打听到了，这次是智谱即将发布的端到端语音模型——GLM-4-Voice，重点是，发布后立马开源！！

GLM-4-Voice用音频token直接建模语音，在同一个模型里同时完成理解和生成，实现语音从输入到输出的端到端建模。

除此之外，相关的技术原理其实有相关论文可以追溯。

对情感化拟人化的AI语音技术细节和早期论文感兴趣的小伙伴，可以看下面几篇论文：

"FastSpeech: Fast, Robust and Controllable Text to Speech" 这篇2019年的论文让AI语音首次具备了语速控制的能力，随后的FastSpeech 2则进一步强化了情感和语速控制的能力。

"YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for Everyone" 这篇2020年的论文则让AI语音具备了多说话人、跨语言的TTS能力。

"Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" 这篇2021年的论文“VITS”则让AI语音有了强大的情感控制能力（尽管不是第一篇做情感语音的工作）。

比起刷论文，我还是更期待智谱GLM-4-Voice这个模型的开源！热乎的仓库地址我第一时间搞到了分享出来了

代码仓库：
https://github.com/THUDM/GLM-4-Voice

在开源这个事儿上，我是无理由相信智谱的。

GLM系列的大模型开源就不用说了，智谱清影背后文生视频大模型CogVideoX 的开源笔者之前也讲过了。近期，智谱的旗舰文生图模型CogView3-Plus又又又开源了。所以我是丝毫不意外，OpenAI有啥看家本领的时候，早晚得被智谱强行“OpenAI”一把，这次情感语音模型自然也不例外。

当然了，我们也要承认客观上国产模型跟GPT-4o还是存在差距的。

在AGI的探索之路上，智谱也给出了自己对AGI分级的定义和技术升级曲线。

经过这一年多技术迅速的突破和发展，GLM系列大模型在L1语言能力上完成度基本达到80%，GLM-4-Voice的发布也意味着智谱终于完成多模态（文字、图像、视频、情感语音）的闭环。

此外，智谱还透露一个超前进展——AutoGLM ，只需接收简单的文字/语音指令，它就可以模拟人类操作手机，没错，就是类似前几天Claude 3.5的新能力computer use！

人工智能多大程度能做到人脑一样甚至超越它达到超级人工智能呢？

从这个终极答案上来看，我们大致也将在未来相当长的一段时间处于42%这个阶段（42这个百分比灵感来自《银河系漫游指南》，the journey to AGI is now 42% completed，是小说里“深思”的超级电脑，经过750万年的计算给出的终极答案）。

而下图所示的AGI进程图对标着人脑的使用能力，而AutoGLM就是像大脑一样的AI使用工具的能力。

AutoGLM 是智谱在 L3 工具能力方面的探索和尝试，可以狠狠期待一下了！

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签