36kr 2024年09月30日
揭秘AI伪造小杨哥录音:最低零成本,只需三秒钟
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,小杨哥事件中出现的AI合成录音引发了广泛关注,该事件再次将AI技术推向了舆论的风口浪尖。AI合成录音,本质上是一种Deepfake技术,利用深度学习算法模拟和伪造音视频内容。尽管技术本身中立,但其应用存在风险,例如被用于诈骗等违法行为。业界专家认为,需要系统性的规范和有效执行,才能管控AI合成录音的应用风险。

👨‍💻 **AI合成录音技术:Deepfake的应用** AI合成录音技术可以被理解为Deepfake的一种形式,通过深度学习算法,实现对声音的模拟和伪造。这项技术在生产效率提升方面具有巨大潜力,但同时也存在被用于违法活动的风险。

🛡️ **识别AI合成录音的挑战** 尽管技术层面存在识别AI合成录音的可能性,例如在音频中添加特征标记,但目前这项技术尚未普及,主要原因是成本问题。现阶段,每个音视频模型的预训练阶段以及后续开发新模型的成本对于AI企业来说仍然较大。

💰 **AI合成音视频产业发展趋势** AI合成音视频技术已日趋成熟,并已发展成为一个完整的产业。这项技术不仅可以用于造假,还可以用于影视制作、数字人等领域,例如在电影《流浪地球2》中,刘德华饰演的角色就利用了AI技术。

⚠️ **管控应用风险,保护AI技术** 面对AI合成录音带来的风险,需要加强监管,制定相关法律法规,并建立有效的识别和防范机制,以确保AI技术的健康发展。同时,也需要提高公众对AI合成技术风险的认知,避免被不法分子利用。

小杨哥事件中曝出来那段“卢文庆录音”,先是内容尺度之大引起舆论哗然,接着又被查明全部是AI伪造。

一来二去,AI技术再次被推上了风口浪尖。

图/言域科技官方回复

先不论技术好与坏,本质上,AI合成录音可以被理解为一种Deepfake,即利用深度学习算法,实现音视频的模拟和伪造,也就是通过人工智能技术中的深度学习模型,将人的声音、面部表情及身体动作拼接,合成为非常逼真的虚假内容 。

技术层面来说,它是中性的,类似的方式除了语音模拟,还包括AI换脸、人脸合成、视频生成等,统称为深度伪造。

但,中性的技术,架不住使用者图谋不轨。

蓝媒汇咨询了国内头部AI数字人公司风平智能创始人兼CEO林洪祥,对于这类事件,林洪祥坦言,AI带来的生产效率提升是全方面的,但在“应用”扩展起来的中途,违规事件想要完全隔绝,恐怕需要系统性的规范并有效执行。

依照行业目前的技术水平,用户只需要找几分钟的零散素材作为AI的学习样本,就能迅速克隆出完整的AI人声。而录音中的一些说话的顿挫、情绪语调,完全是可以通过技术手段去增减、调整的。

并且,落到实际应用环节,复制一套AI人声的成本“现在已经不高了”,市面上的应用很多都会给一些免费的入口,以涉事模型为例,Reecho睿声模型提供了免费的声音克隆服务,更为专业的版本则另需付费。

把从网上截取的一段卢老板直播转成音频导入,短短几秒钟后,卢老板的AI声音就克隆了出来。

再仿照原事件中情绪和文本都非常离谱的一段录音,作为脚本导入模型,一段卢文庆锐评马斯克的录音,就做完了。

“小马他俩走了,是吧。我跟你们说,我想让谁火就让谁火,懂吗。我认识的CEO多了去了,我捧谁不是捧。别给我提马斯克,不好使,知道不,不好使,我们喝酒也是不好使,他是个啥,没有三只羊,谁来给他卖货,懂不懂这个道理。”

坦白讲,如果那种AI诈骗电话听多了,或者对人声敏感,其实还能听出来AI音频有种“机器感”——语调从始至终都过于稳定,人情绪激动的时候绝不会这样。但这只是最基础的普通版模型、瞬时克隆功能。如果有更充足的语料、选择专业克隆功能,效果会更“真实”。

那么,AI合成的音视频,有可能像测谎仪那样比较直观通过数据分辨真伪吗?

在技术层面,是可行的。林洪祥介绍称,除使用者本人授权外,现在AI数字人行业内也确实有相关标准正在建设中,要求各种AI生成的内容都加上专门的可识别“特征标记”。

这个标签,不是简单的在角落里加个“由XX AI生成”水印,以AI合成声音为例,它会在人说话声音的频段之外,添加额外的噪声频段,甚至在可见音的范围内,添加一定的特征频段。

这个特征频率可由机器识别,如果需要做鉴定,交由设备抽取这些频段,理论上即可判定真伪。

但目前,愿意将这项功能普及的企业并不会太多,限制因素无他,主要还是多一道手续产生的成本——尽管单次使用模型的成本并不高,但每个音视频模型预训练阶段的投入,以及阶段性产出后开发下一代音视频模型所产生的成本,对于现阶段的AI企业仍有较大压力。

目前,AI音视频行业尚在早期,推广阶段如何获客的同时覆盖成本,是从业者绕不开的话题。

但上述这些,显然都不是图谋不轨的不法分子会考虑的事,烟花还是炸弹关键看火药怎么用。

半年多前,香港警方披露了一起涉案金额高达2亿港元的诈骗案。案件中,某跨国公司香港分部的职员接到总部CFO通知,称总部正在计划一个“秘密交易”,需要将公司资金转到几个香港本地的账户中待用。

而后,员工受邀参加总部发起的“多人视频会议”,并按照会议要求先后将2亿港元分别转账15次,分别转到了5个银行账户内。

图源/央视新闻

实际上,这场多人视频会议,除了该分部职员外,其他“人”都是诈骗分子利用公开音视频切片合成的AI形象,再用视频电话会议的形式换脸换声音,诈骗团队直接变成高管团队发号施令。

香港案件中,不法分子是相当于是用AI换脸+AI变声器真人出镜,而小杨哥这次的AI伪造录音,则是完全由大模型学习三只羊公司卢文庆相关音频素材后,合成语调、情绪都趋近于真人的整段音频。流程,就是这么简单——AI合成音视频,已经是一项成熟的技术,相关产品,也已发展成为完整产业。

但,AI合成音视频的主流,绝非造假。流浪地球第二部的剧情内,刘德华饰演的图恒宇以数字生命的形式复活了丫丫,而在剧情外,已故的知名影星吴孟达,也在借由 AI 现身银幕。

所以,以后如果再出类似小杨哥录音事件,讨论技术有罪还是无罪之前,还是尽量先把人控制住。

管管人性,救救AI。

本文来自微信公众号“AI蓝媒汇”,作者:陶然,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI合成录音 Deepfake AI技术应用 监管风险 AI产业发展
相关文章