揭秘AI伪造小杨哥录音：最低零成本，只需三秒钟

小杨哥事件中曝出来那段“卢文庆录音”，先是内容尺度之大引起舆论哗然，接着又被查明全部是AI伪造。

一来二去，AI技术再次被推上了风口浪尖。

图/言域科技官方回复

先不论技术好与坏，本质上，AI合成录音可以被理解为一种Deepfake，即利用深度学习算法，实现音视频的模拟和伪造，也就是通过人工智能技术中的深度学习模型，将人的声音、面部表情及身体动作拼接，合成为非常逼真的虚假内容。

技术层面来说，它是中性的，类似的方式除了语音模拟，还包括AI换脸、人脸合成、视频生成等，统称为深度伪造。

但，中性的技术，架不住使用者图谋不轨。

蓝媒汇咨询了国内头部AI数字人公司风平智能创始人兼CEO林洪祥，对于这类事件，林洪祥坦言，AI带来的生产效率提升是全方面的，但在“应用”扩展起来的中途，违规事件想要完全隔绝，恐怕需要系统性的规范并有效执行。

依照行业目前的技术水平，用户只需要找几分钟的零散素材作为AI的学习样本，就能迅速克隆出完整的AI人声。而录音中的一些说话的顿挫、情绪语调，完全是可以通过技术手段去增减、调整的。

并且，落到实际应用环节，复制一套AI人声的成本“现在已经不高了”，市面上的应用很多都会给一些免费的入口，以涉事模型为例，Reecho睿声模型提供了免费的声音克隆服务，更为专业的版本则另需付费。

把从网上截取的一段卢老板直播转成音频导入，短短几秒钟后，卢老板的AI声音就克隆了出来。

再仿照原事件中情绪和文本都非常离谱的一段录音，作为脚本导入模型，一段卢文庆锐评马斯克的录音，就做完了。

“小马他俩走了，是吧。我跟你们说，我想让谁火就让谁火，懂吗。我认识的CEO多了去了，我捧谁不是捧。别给我提马斯克，不好使，知道不，不好使，我们喝酒也是不好使，他是个啥，没有三只羊，谁来给他卖货，懂不懂这个道理。”

坦白讲，如果那种AI诈骗电话听多了，或者对人声敏感，其实还能听出来AI音频有种“机器感”——语调从始至终都过于稳定，人情绪激动的时候绝不会这样。但这只是最基础的普通版模型、瞬时克隆功能。如果有更充足的语料、选择专业克隆功能，效果会更“真实”。

那么，AI合成的音视频，有可能像测谎仪那样比较直观通过数据分辨真伪吗？

在技术层面，是可行的。林洪祥介绍称，除使用者本人授权外，现在AI数字人行业内也确实有相关标准正在建设中，要求各种AI生成的内容都加上专门的可识别“特征标记”。

这个标签，不是简单的在角落里加个“由XX AI生成”水印，以AI合成声音为例，它会在人说话声音的频段之外，添加额外的噪声频段，甚至在可见音的范围内，添加一定的特征频段。

这个特征频率可由机器识别，如果需要做鉴定，交由设备抽取这些频段，理论上即可判定真伪。

但目前，愿意将这项功能普及的企业并不会太多，限制因素无他，主要还是多一道手续产生的成本——尽管单次使用模型的成本并不高，但每个音视频模型预训练阶段的投入，以及阶段性产出后开发下一代音视频模型所产生的成本，对于现阶段的AI企业仍有较大压力。

目前，AI音视频行业尚在早期，推广阶段如何获客的同时覆盖成本，是从业者绕不开的话题。

但上述这些，显然都不是图谋不轨的不法分子会考虑的事，烟花还是炸弹关键看火药怎么用。

半年多前，香港警方披露了一起涉案金额高达2亿港元的诈骗案。案件中，某跨国公司香港分部的职员接到总部CFO通知，称总部正在计划一个“秘密交易”，需要将公司资金转到几个香港本地的账户中待用。

而后，员工受邀参加总部发起的“多人视频会议”，并按照会议要求先后将2亿港元分别转账15次，分别转到了5个银行账户内。

图源/央视新闻

实际上，这场多人视频会议，除了该分部职员外，其他“人”都是诈骗分子利用公开音视频切片合成的AI形象，再用视频电话会议的形式换脸换声音，诈骗团队直接变成高管团队发号施令。

香港案件中，不法分子是相当于是用AI换脸+AI变声器真人出镜，而小杨哥这次的AI伪造录音，则是完全由大模型学习三只羊公司卢文庆相关音频素材后，合成语调、情绪都趋近于真人的整段音频。流程，就是这么简单——AI合成音视频，已经是一项成熟的技术，相关产品，也已发展成为完整产业。

但，AI合成音视频的主流，绝非造假。流浪地球第二部的剧情内，刘德华饰演的图恒宇以数字生命的形式复活了丫丫，而在剧情外，已故的知名影星吴孟达，也在借由 AI 现身银幕。

所以，以后如果再出类似小杨哥录音事件，讨论技术有罪还是无罪之前，还是尽量先把人控制住。

管管人性，救救AI。

本文来自微信公众号“AI蓝媒汇”，作者：陶然，36氪经授权发布。

Fish AI Reader