原创 夕小瑶编辑部 2024-10-25 19:20 北京
作者 | 夕小瑶编辑部
最近,我的AI助手简直像是开了挂一样!不仅能说会道,还能……撒娇?!而且是100种花式撒娇,招招致命,让我毫无招架之力!
前方高能预警,单身狗请快速撤离!
先来一个娇小可爱、声音软糯的甜美炮弹 (/ω),
来自夕小瑶科技说音频:温柔可爱
然后立马变身成强势自信的霸道御姐,
来自夕小瑶科技说音频:霸道御姐
而且,它可以在多种情绪、语气里无缝切换,慌张害怕、开心激动、emo难过、愤怒、害羞、自信。。。
来自夕小瑶科技说音频:慌张害怕
天啊!这个AI比我还有情绪!这还是冷冰冰的AI机器吗?
简直比我还像个人!
更可怕的是,这个AI还能根据我的语气和表情,判断哪种撒娇方式最有效。简直就是“撒娇大师”!
再来讲一个鬼故事!
来自夕小瑶科技说音频:鬼故事
要不是秉持着AI技术人的最后一丝理性,我都要怀疑AI是不是已经觉醒自我意识,用这种方式来操控人类了?!?(瑟瑟发抖)
看到这儿,你可能会觉得,除了GPT-4o,地球上没有第二家了吧?
你忘了,还有一个最像OpenAI的中国公司——智谱
没错,上面的case是智谱清言的,他们近期刚刚升级了「情感语音通话」功能。
要知道,第一篇端到端神经网络语音合成(TTS)的论文 "WaveNet: A Generative Model for Raw Audio" 是2016年发表的,这个时候的语音合成不仅机器味儿满满,而且完全不具备语音变速、情绪控制等类人的语音能力,甚至连说方言都是一件非常费劲的事情。
没想到,时隔8年,GPT-4o和智谱竟然整出来了现实版的「Her」,甚至衍生出了模仿电视剧情境、动物叫声等更多脑洞大开的有趣玩法。
除了文章开头提到的“模仿各种不同的女友风格”之外,我发现智谱说方言也是信手拈来。
来,上一个四川话版的撒娇。
来自夕小瑶科技说音频:四川话
甚至,边哭边介绍都可以。
来自夕小瑶科技说音频:自我介绍-哭泣版
这变脸的速度,是不是比你女朋友都快!
但这些还不够爽,当我尝试测试了一下智谱清言的“绕口令极限速度”的时候,我直接笑翻了...
先来个正常语速(听着没啥)
来自夕小瑶科技说音频:绕口令正常语速版
我让它讲快一点,直接别喘气了,给我来个极限速度——
来自夕小瑶科技说音频:绕口令加快版
直接笑哭了有木有?
总之,在语音通话中,你可以随时打断它,让它调整语速。
当然,上面的测试case都是在“提供情绪价值”的。
接下来,我尝试了让智谱清言给我搞点有用的——先练个英语口语吧!
来自夕小瑶科技说音频:英语口语
好了,我虽然在北京呆了多年了,但还是不会讲北京话,让智谱清言教我下——
来自夕小瑶科技说音频:北京儿话
商业价值瞬间出来了有木有!
根据智谱清言官方的介绍,这次发布的「情感语音对话」功能,可以模拟各种不同的情绪,并且根据上下文和用户的语气,实时选择用最合适的语气回复;甚至,你可以把这多种语音要求融合在一句话里,你就会发现,智谱清言简直就是戏精附体了...
讲到这儿,你可能会好奇,他们咋做到的。
肯定不是TTS的路线,我们都知道,传统TTS(Text-to-Speech)解决方案通常依赖于语音识别、语义处理和文本到语音的三步流程,这种方式虽然成熟,但是效果有限,声音僵硬、更谈不上具备情绪的语音,且响应慢。
背后的模型显然是端到端语音模型+大模型范式,因为在此之前的AI语音技术跟拟人化还离得太远。我打听到了,这次是智谱即将发布的端到端语音模型——GLM-4-Voice,重点是,发布后立马开源!!
GLM-4-Voice用音频token直接建模语音,在同一个模型里同时完成理解和生成,实现语音从输入到输出的端到端建模。
除此之外,相关的技术原理其实有相关论文可以追溯。
对情感化拟人化的AI语音技术细节和早期论文感兴趣的小伙伴,可以看下面几篇论文:
"FastSpeech: Fast, Robust and Controllable Text to Speech" 这篇2019年的论文让AI语音首次具备了语速控制的能力,随后的FastSpeech 2则进一步强化了情感和语速控制的能力。
"YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for Everyone" 这篇2020年的论文则让AI语音具备了多说话人、跨语言的TTS能力。
"Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech" 这篇2021年的论文“VITS”则让AI语音有了强大的情感控制能力(尽管不是第一篇做情感语音的工作)。
比起刷论文,我还是更期待智谱GLM-4-Voice这个模型的开源!热乎的仓库地址我第一时间搞到了分享出来了
在开源这个事儿上,我是无理由相信智谱的。
GLM系列的大模型开源就不用说了,智谱清影背后文生视频大模型CogVideoX 的开源笔者之前也讲过了。近期,智谱的旗舰文生图模型CogView3-Plus又又又开源了。所以我是丝毫不意外,OpenAI有啥看家本领的时候,早晚得被智谱强行“OpenAI”一把,这次情感语音模型自然也不例外。
当然了,我们也要承认客观上国产模型跟GPT-4o还是存在差距的。
在AGI的探索之路上,智谱也给出了自己对AGI分级的定义和技术升级曲线。
经过这一年多技术迅速的突破和发展,GLM系列大模型在L1语言能力上完成度基本达到80%,GLM-4-Voice的发布也意味着智谱终于完成多模态(文字、图像、视频、情感语音)的闭环。
此外,智谱还透露一个超前进展——AutoGLM ,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,没错,就是类似前几天Claude 3.5的新能力computer use!
人工智能多大程度能做到人脑一样甚至超越它达到超级人工智能呢?
从这个终极答案上来看,我们大致也将在未来相当长的一段时间处于42%这个阶段(42这个百分比灵感来自《银河系漫游指南》,the journey to AGI is now 42% completed,是小说里“深思”的超级电脑,经过750万年的计算给出的终极答案)。
而下图所示的AGI进程图对标着人脑的使用能力,而AutoGLM就是像大脑一样的AI使用工具的能力。
AutoGLM 是智谱在 L3 工具能力方面的探索和尝试,可以狠狠期待一下了!