文章探讨了验证码的演变及其带来的问题。最初用于区分人类和机器的验证码,如今却变得复杂,甚至让人类难以通过。随着AI技术的进步,验证码的安全性受到挑战,同时,用户在解决验证码的过程中,无形中贡献了个人数据,被用于训练AI模型。文章揭示了验证码背后的人工智能攻防战,以及数据隐私和用户体验之间的矛盾。
🤔 验证码的复杂化:为了对抗AI,验证码变得越来越复杂,从扭曲字符到图像识别,再到行为验证,但几乎都被AI破解。用户在解决验证码时花费的时间成本增加,体验下降。
🤖 AI的“胜利”:AI在破解验证码的速度和准确率上全面超越人类,导致验证码的防御效果大打折扣。同时,部分验证码通过“AI对抗AI”的逻辑进行技术升级,但并未完全解决问题。
💰 数据的价值与争议:用户在解决验证码的过程中,实际上为AI提供了训练数据。谷歌等公司利用验证码数据,训练AI模型,甚至节省了巨额的人工成本。这种模式引发了对用户数据隐私和权益的担忧。
对齐Lab 2025-06-20 16:55 上海

澎湃新闻记者 杜海燕 卫瑶 实习生 张奕宁人类发明来防AI的验证码,复杂到连人类自己都招架不住。“验证码里点选画面中的文字歪歪扭扭的,辨认起来还挺费劲的,如果这时后面的车还按喇叭或者闪灯催我,就更加着急不安了。”陈祥在商场停车场付费准备离开时,跳出的验证码让他有点崩溃。被验证码逼疯的用户不是个例。网友@_Kiku温和的白开水:“评论一次验证一次,我真的受够了。”网友@_吃一颗荔枝吗_:“这个验证码,真的生怕有人能点对了。”我们尝试测试了各大网站和APP,发现现在的验证码变得越来越复杂了,考验的内容也五花八门。早在2010年,一项来自美国斯坦福大学的大规模用户研究显示,普通用户平均需要9.8秒才能解决一个图像验证码,完成一个语音验证码则要花上28.4秒。到了2024年,一项关于用户对验证码的感知研究显示,在近150位被调查的互联网用户中,只有35%的用户总能一次性顺利通过验证码。而46%的用户会在验证码多次失败后放弃使用网站。拦截AI的验证码,如今频繁考倒了人类。验证码为什么越来越复杂?绝大多数验证码,AI都能破解了“验证码底层的难度假设是基于一个人工智能问题”,路易斯·冯·安说道。这位语言学习类APP多邻国的创始人,在2000年,为了帮助雅虎摆脱垃圾邮件的攻击,与团队一起设计出一套系统:通过扭曲字符来区分人类与机器。 这,便是验证码(CAPTCHA)的雏形。恐怕连路易斯·冯·安也想不到,此后20年,验证码与AI的“攻防战”竟会如此焦灼。从扭曲字符到点击图像、从简单算数题到滑块拼图,再到近几年的行为验证....... 可无论验证码怎么变,几乎都没扛过几年就被破解了。同时,在2023年的一项研究中指出:无论是文本验证码、图像识别、点击任务,还是滑动拼图, AI在破解速度和准确率上,都全面碾压人类。例如,在处理文本类验证码任务时,人类耗时15.3s,最高正确率为84%;而机器人仅需0.9s,最高正确率便达99.8%。2024年7月一名网友在微博发帖感叹:“随着AI变得越来越聪明,未来的验证码可能会复杂到大部分人类都答不出来。”对此,当前部分验证码通过采用 “AI对抗AI” 的逻辑实现了技术升级;也有一部分验证码的底层逻辑发生了转变,从过去的“看你有几分像机器”转向如今的“看你有几分像人”。例如,Google于2018年推出无感验证,reCAPTCHA V3,相对于之前的版本,V3完全不用用户接受测试,无需任何主动操作,而是通过用户上网的行为数据(如鼠标移动、滚动、点击、停留时间等)来判断访问者是否为人类。但是,验证码变得更加友好了,用户却让渡了个人数据。对抗AI的验证码,也在无形中训练了AI路易斯·冯·安曾算过一笔账:全体人类每天约耗费50万小时在输验证码上,而一个人80岁的人生总时长也不过约70万小时。为了让这些时间变得有价值,路易斯·冯·安在2007年创建了reCAPTCHA。旨在借助验证码形式来弥补光学字符识别(OCR)技术缺陷,并助力《纽约时报》完成了自1851年以来1300万篇文章的数字化。2009年,谷歌以大约2780万美元的价格收购了reCAPTCHA,开始为Google图书和Google新闻档案搜索等大型文本扫描项目提供支持。此后,谷歌进一步拓展技术应用场景:依托谷歌街景的图像资源,让用户识别门牌号等标识信息,相关数据也被用于训练Waymo自动驾驶技术等AI模型。法国《巴黎人报》报道称,谷歌的算盘打得很精:既能借此增强其搜索引擎所收录网站的安全性,又让全球用户免费贡献了“劳动力”。美国加州大学欧文分校的研究人员初步估算,在2009年之后的13年里,用户在输入谷歌验证码上,共计消耗了8.19亿小时。按美国联邦最低工资7.5美元/时计算,这相当于谷歌省下了至少61亿美元的工资。而此次估算值,据研究人员称,也仅仅是较为保守的下限。不仅如此,还有一些公司和研究机构公开了带有人工标注的验证码图像数据集,专门供开发者和研究人员训练、测试AI模型。比如,GTS.AI提供了一个包含上万张Google reCAPTCHA V2图像的数据集,其中超过500张经过人工标注,专门用于训练像YOLO这样的物体检测模型。图片来源:GTS.AI 官网就国内而言,也存在借助验证码来训练AI的例子。腾讯与深圳大学曾在2021年联合推出"MedCAPTCHA医学图像验证码",通过验证码形式将临床上真实的脱敏医学图像开放给公众标注。而这些被标注的数据也成为机器学习的训练样本,推动AI在医疗领域的应用发展。图片来源:深圳市科技创新委员会20年前,路易斯·冯·安认为,验证码与AI的发展会是一种“双赢”局面:如果验证码没有被攻破,则有效地保障了网站的安全;反之,则意味着人工智能领域取得了进步。但如今,在这场人与机器的博弈中,人的意愿在哪里体现?这真的是一举多得的好事吗?澎湃新闻记者孔家兴对本文亦有贡献。参考文献