差评 2024年09月29日
三只羊“财色录音”是假的,但背后技术是真的恐怖。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,三只羊公司因疑似高管录音事件引发热议,引发了关于AI语音合成技术的讨论。事件中,疑似录音被证实为AI生成,引发了关于AI语音合成技术应用的思考。本文探讨了目前AI语音合成技术的成熟程度,以及其在不同场景下的应用,并分析了AI语音合成技术带来的安全问题和防范措施。

👨‍💻 AI语音合成技术已经相当成熟,可以通过上传少量语音样本,快速克隆一个人的音色,甚至模仿语气、声调等细节。 常见的AI语音合成技术包括TTS(Text To Speech)和SVC&RVC(Singing Voice Conversion & Retrieval-based-Voice-Conversion)。 TTS技术将文本转化为语音,广泛应用于数字人、有声书、视频配音等领域。 SVC&RVC技术则将音频实时转换成AI训练的音色,应用于直播变声、唱歌等场景。

⚠️ AI语音合成技术带来的安全风险不容忽视,例如,利用AI合成语音进行诈骗,以及传播虚假信息等。 近年来,AI语音合成技术被用于各种违法犯罪活动,例如,伪造声音进行诈骗,以及传播虚假信息等。 为了防止AI语音合成技术被滥用,需要采取相应的防范措施,例如,对AI生成的音频进行标记,以及开发识别伪造语音的技术。

💡 未来,随着AI技术的不断发展,AI语音合成技术将更加逼真,应用场景也将更加广泛。 为了应对AI语音合成技术带来的挑战,需要加强对相关技术的监管,以及开发更加有效的防范措施,确保AI技术的健康发展。 同时,也要引导公众提高对AI语音合成技术的认知,避免被虚假信息所误导。

🚀 随着AI技术的不断发展,未来AI语音合成技术将更加逼真,应用场景也将更加广泛,这将给社会带来巨大的影响,但也需要我们谨慎对待,加强对AI技术的监管,确保其健康发展。

原创 差评君 2024-09-29 00:00 浙江

别光想着说 “ 技术无罪 ” ,上个这么喊的人已经蹲了好多年,现在都出来了。



要说这段时间哪家公司风头正盛,那非三只羊莫属,隔三差五就要上一回新闻,还是法制栏目的那种。


这不前几天,月饼门的事件还没过去,又来了个录音门。


事情是这样的, 9 月 20 号的时候网上突然流传出了一段,疑似三只羊高管卢某的录音。


 录音里涉及到了多位三只羊的女主播,具体内容咱在这就不多做讨论了,但确实很炸裂。。。


录音爆出来后,就在网上迅速引起了一波热度。有人说这段录音纯纯是男的喝多了吹的牛逼,但讨论的风向很快又变成了这玩意儿,到底是不是 AI 生成的,甚至还钓出来不少所谓的 AI 行家,开始一顿分析。


结果没两天,警方的通报就出来了:都散散吧,是 AI 干的。


而这次事件的另外一位主角, Reecho 睿声公司也终于浮出了水面,锤了自己的用户一把。


有意思的是,即使是官方都出面了,但还是有网友觉得卢某是 “ 酒后吐真言 ” ,通报也不过是把锅,甩给了没法儿自证的 AI 。


但不管咋说,人官方调查通报都出来了,你信也好不信也罢,这事儿就这么定调了。


 不过以差评君对 AI 语音的了解,像三只羊录音门这种情况,的确是有可能的。主要是现阶段的 AI 语音技术,确实已经挺成熟的了。


因为我们只需要上传一两句话,剩下的直接甩给 AI 就行,分分钟就能克隆一个人的音色。


这么说吧,现在 AI 语音合成里比较常见、开源项目也比较多的,就数 TTS 、 SVC&RVC 两大类技术。


所谓 TTS ,简单来说就是 Text To Speech ,把文本转化成语音。像很多 AI 数字人、有声书、视频配音,大伙儿刷抖音经常听到的 “ 注意看,这个男人叫小帅 ” ,还有剪映素材库里那些 TVB 女声、广西表哥。。。基本都是 TTS 干的。


 像这次三只羊录音门牵扯到的 Reecho 睿声,也是一个 TTS 模型的生成网站。咱们其实也在他们网站上,克隆过差评君的声优蛋蛋的声音,大伙儿可以听听看到底像不像。


上来先用《 意大利面拌 42 号混凝土 》的 “ 名篇节选 ” 整一波,你别说,你还真别说。音色的复刻程度能有个 80%-90% ,而且说话的语气也贼像,不仔细听还以为在做什么正经科普。


我们本来还想借着 AI 差评君给大伙儿送一波福利,但没想到这个 AI 小小翻车了一下, 10 台 iPhone 16 说成了 “ 一零台 iPhone sixteen” 。穿帮的实在是太明显了,这福利想送都送不出去呀,可惜可惜。


 借 AI 的口,你甚至还能听到差评君管广大差友们借钱。就连国庆节自愿加班 7 天,还不要加班费这种话,从这位 “AI 差评君 ” 的嘴里说出来,你也能听出心甘情愿的味道。


除此之外,人家那个声音市场里还可以自己选训练好的声音 AI ,不仅有我们的好朋友影视飓风 Tim ,甚至还有主播电棍,坤哥和派蒙,就连五星评论家麦克阿瑟也能拿来用。


来自差评X.PIN音频:影视飓风Tim


有一说一,这种程度的克隆已经相当逼真了,所以现在回头看三只羊录音门,好像 AI 参与的可信度又高了一点。而有些朋友可能还觉得,那这个 AI 怎么就能把那种醉意、含糊不清的话都模拟出来呢?


这就得说到 SVC&RVC 了。这里面 SVC ( Singing Voice Conversion )是用来唱歌的,而 RVC ( Retrieval-based-Voice-Conversion )的场景多用在直播,这俩都是实时把语音转换成 AI 训练的音色,俗称变声器。


由于输入的是音频,所以它就能把一个人的声音转化的更真实,甚至连语气、声调这些东西都可以转化得很自然。如果是歌声转换,甚至还能模仿音色和唱腔。


像 GitHub 上有个叫 So-Vits-SVC 的开源项目,就一手打造了AI 孙燕姿、唱《 泪桥 》比原唱伍佰还好听的陶喆。


类似的开源项目还有很多,而且都很好上手。举个例子, b 站的大佬 “ 花儿不哭 ” 今年就上线了一个开源模型 GPT-SoVITs ,下载好直接拿语音喂就行了。


 你要懒的自己训练,那还可以在魔搭社区用 “xz 乔希 ” 的项目直接开玩;甚至剪映和必剪这些剪辑软件里都已经用上了自家的 AI 语音,除了那些营销号语音你也可以生成自己的。


乃至于随便找个工具集合网站一搜,多得是可以直接上手用的产品。


我们之前用 “ 花儿不哭 ” 开源的 RVC 实时变声算法,也做过一个差评君变声器。


甚至还专门做了一个非常差评的初始界面。


至于效果大伙儿自个儿品吧,我打包票,这绝对不是隔壁差评君的声优蛋蛋录的。


来自差评X.PIN音频:AI差评君


而且当时我们还专门给变声器做了个硬件外挂,现在还搁办公室里呢。


人在这边对着麦说话,音响那边实时就能把声音变成蛋蛋的。


看起来挺牛逼是吧,不过这玩意也不是突然就这么先进了。


主要语音生成这一块确实低调,你就说这几年这些 AI 的宣传,一个个都好像是奔着炸裂全宇宙去的。三天两头画大饼,谁还惦记语音生成是怎么个情况。


关注的人少,再加上技术积累也多,那可不就是闷声发大财嘛。只不过现在突然出圈了,大家才感觉到惊奇。


 说到底还是 AI 时代这些东西的门槛都降低了,你想 cos 哪个人的声线都相当方便。


不过实话,技术进步是一回事儿,但就事论事地说,用这玩意儿来违法犯罪的案例,并不在少数。


也不是咱制造啥恐慌,新华网去年九月就报道过了相关的诈骗手段,你想想家里年纪大的老人,要是接到跟你说话声音一模一样的诈骗电话,说你遇到了危险,会不会把棺材本都给骗子骗走?


不止国内,这事在国外照样有,就连美国知名密码管理工具公司 LastPass 的 CEO ,都被伪造声音拿去诈骗了。


尽管现在已经有不少机构在琢磨怎么处理安全问题,探索怎么识别伪造语音等证据,比如有研究表明,目前可以通过算法声纹认证和语音取证等办法,对 AI 合成语音进行鉴别。


 但这些更多还是在找 AI 语音上的 bug 来鉴定的,就好像数手指和穿模来鉴定 AI 图片一样,只要模型一升级,这些办法可能就也没辙了。


不过差评君觉得,要从根本上解决问题,就还得从生成式模型本身出发。


 给 AI 生成的图片、音视频也打上类似水印的标记,同时设备和软件也能够检索到这些标签,提醒大家这些内容并非真实。


像是谷歌就已经开始研究在 AI 生成的音频声谱上,添加能被视觉化的特定标记,这样既不会影响用户听感也方便识别。


总的来说,在生成式 AI 的影响下,以后眼见不一定为实,耳听也可能为虚。归根结底技术在发展的同时,防范技术滥用的对策也必须做好。


别光想着说 “ 技术无罪 ” ,上个这么喊的人已经蹲了好多年,现在都出来了。


 不过对三只羊来说,虽然始作俑者已经被抓,但这人靠 AI 推在他们身上这把劲,估计影响还会持续挺久,至于后续怎么发展,我们还是再等等看吧。



撰文:西西 & 纳西

编辑:江江 & 面线

美编:萱萱


图片、资料来源

安全内参:生成式伪造语音安全问题与解决方案

腾讯云:CNN卷积神经网络原理详解

PassingAI:卷积神经网络在音频处理中的应用有哪些?

云技术和洞察:AIGC音频处理

魔搭社区:so-vits-svc

Reecho睿声、新华网,微博、bilibili、部分图源网络


跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 语音合成 三只羊 语音克隆 安全风险 技术伦理
相关文章