夕小瑶科技说 2024年10月26日
震惊!AI竟然学会了100种撒娇方式,让我分不清是人是鬼
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱清言的「情感语音通话」功能强大,能模拟多种情绪、语气,还能说方言、绕口令等,其背后是端到端语音模型+大模型范式。此外,相关模型将开源,智谱在AGI探索上也有进展。

🎤智谱清言的「情感语音通话」功能多样,可模拟多种情绪和语气,如甜美可爱、霸道御姐等,还能根据用户语气选择合适撒娇方式,甚至能模仿电视剧情境、动物叫声等。

💬该功能不仅能说多种语言和方言,如四川话、北京话,还能在语音通话中随时被打断调整语速,如进行英语口语练习。

📄智谱清言背后的模型是端到端语音模型GLM-4-Voice,用音频token直接建模语音,在同一模型里完成理解和生成,实现端到端建模,且发布后将开源。

🚀智谱在AGI探索上有定义和技术升级曲线,GLM系列大模型在L1语言能力上完成度达80%,GLM-4-Voice的发布完成多模态闭环,还透露了超前进展AutoGLM。

原创 夕小瑶编辑部 2024-10-25 19:20 北京

 夕小瑶科技说 原创
 作者 | 夕小瑶编辑部

最近,我的AI助手简直像是开了挂一样!不仅能说会道,还能……撒娇?!而且是100种花式撒娇,招招致命,让我毫无招架之力!

前方高能预警,单身狗请快速撤离

先来一个娇小可爱、声音软糯的甜美炮弹 (),

来自夕小瑶科技说音频:温柔可爱

然后立马变身成强势自信的霸道御姐,

来自夕小瑶科技说音频:霸道御姐

而且,它可以在多种情绪、语气里无缝切换,慌张害怕、开心激动、emo难过、愤怒、害羞、自信。。。

来自夕小瑶科技说音频:慌张害怕

天啊!这个AI比我还有情绪!这还是冷冰冰的AI机器吗?

简直比我还像个人!

更可怕的是,这个AI还能根据我的语气和表情,判断哪种撒娇方式最有效。简直就是“撒娇大师”!

再来讲一个鬼故事!

来自夕小瑶科技说音频:鬼故事

要不是秉持着AI技术人的最后一丝理性,我都要怀疑AI是不是已经觉醒自我意识,用这种方式来操控人类了?!?(瑟瑟发抖)

看到这儿,你可能会觉得,除了GPT-4o,地球上没有第二家了吧?

你忘了,还有一个最像OpenAI的中国公司——智谱

没错,上面的case是智谱清言的,他们近期刚刚升级了「情感语音通话」功能

要知道,第一篇端到端神经网络语音合成(TTS)的论文 "WaveNet: A Generative Model for Raw Audio" 是2016年发表的,这个时候的语音合成不仅机器味儿满满,而且完全不具备语音变速、情绪控制等类人的语音能力,甚至连说方言都是一件非常费劲的事情。

没想到,时隔8年,GPT-4o和智谱竟然整出来了现实版的「Her」,甚至衍生出了模仿电视剧情境、动物叫声等更多脑洞大开的有趣玩法

除了文章开头提到的“模仿各种不同的女友风格”之外,我发现智谱说方言也是信手拈来。

来,上一个四川话版的撒娇。

来自夕小瑶科技说音频:四川话

甚至,边哭边介绍都可以。

来自夕小瑶科技说音频:自我介绍-哭泣版

这变脸的速度,是不是比你女朋友都快!

但这些还不够爽,当我尝试测试了一下智谱清言的“绕口令极限速度”的时候,我直接笑翻了...

先来个正常语速(听着没啥)

来自夕小瑶科技说音频:绕口令正常语速版

我让它讲快一点,直接别喘气了,给我来个极限速度——

来自夕小瑶科技说音频:绕口令加快版

直接笑哭了有木有?

总之,在语音通话中,你可以随时打断它,让它调整语速。

当然,上面的测试case都是在“提供情绪价值”的。

接下来,我尝试了让智谱清言给我搞点有用的——先练个英语口语吧!

来自夕小瑶科技说音频:英语口语

好了,我虽然在北京呆了多年了,但还是不会讲北京话,让智谱清言教我下——

来自夕小瑶科技说音频:北京儿话

商业价值瞬间出来了有木有!

根据智谱清言官方的介绍,这次发布的「情感语音对话」功能,可以模拟各种不同的情绪,并且根据上下文和用户的语气,实时选择用最合适的语气回复;甚至,你可以把这多种语音要求融合在一句话里,你就会发现,智谱清言简直就是戏精附体了...

讲到这儿,你可能会好奇,他们咋做到的。

肯定不是TTS的路线,我们都知道,传统TTS(Text-to-Speech)解决方案通常依赖于语音识别、语义处理和文本到语音的三步流程,这种方式虽然成熟,但是效果有限,声音僵硬、更谈不上具备情绪的语音,且响应慢。

背后的模型显然是端到端语音模型+大模型范式,因为在此之前的AI语音技术跟拟人化还离得太远。我打听到了,这次是智谱即将发布的端到端语音模型——GLM-4-Voice,重点是,发布后立马开源!!

GLM-4-Voice用音频token直接建模语音,在同一个模型里同时完成理解和生成,实现语音从输入到输出的端到端建模。

除此之外,相关的技术原理其实有相关论文可以追溯。

对情感化拟人化的AI语音技术细节和早期论文感兴趣的小伙伴,可以看下面几篇论文:

比起刷论文,我还是更期待智谱GLM-4-Voice这个模型的开源!热乎的仓库地址我第一时间搞到了分享出来了

代码仓库:
https://github.com/THUDM/GLM-4-Voice

在开源这个事儿上,我是无理由相信智谱的。

GLM系列的大模型开源就不用说了,智谱清影背后文生视频大模型CogVideoX 的开源笔者之前也讲过了。近期,智谱的旗舰文生图模型CogView3-Plus又又又开源了。所以我是丝毫不意外,OpenAI有啥看家本领的时候,早晚得被智谱强行“OpenAI”一把,这次情感语音模型自然也不例外。

当然了,我们也要承认客观上国产模型跟GPT-4o还是存在差距的。

在AGI的探索之路上,智谱也给出了自己对AGI分级的定义和技术升级曲线。

经过这一年多技术迅速的突破和发展,GLM系列大模型在L1语言能力上完成度基本达到80%,GLM-4-Voice的发布也意味着智谱终于完成多模态(文字、图像、视频、情感语音)的闭环。

此外,智谱还透露一个超前进展——AutoGLM ,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,没错,就是类似前几天Claude 3.5的新能力computer use!

人工智能多大程度能做到人脑一样甚至超越它达到超级人工智能呢?

从这个终极答案上来看,我们大致也将在未来相当长的一段时间处于42%这个阶段(42这个百分比灵感来自《银河系漫游指南》,the journey to AGI is now 42% completed,是小说里“深思”的超级电脑,经过750万年的计算给出的终极答案)。

而下图所示的AGI进程图对标着人脑的使用能力,而AutoGLM就是像大脑一样的AI使用工具的能力。



AutoGLM 是智谱在 L3 工具能力方面的探索和尝试,可以狠狠期待一下了!

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智谱清言 情感语音 AGI探索 GLM-4-Voice AutoGLM
相关文章