Cnbeta 03月21日
开源/自有软件基础设施正在被AI破坏 大约97%的请求/流量都是爬虫而非真人
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

开源项目网站面临AI爬虫的大量访问,消耗服务器资源。GNOME等项目受影响,使用工作流证明系统拦截,仍有困难。AI公司抓取数据训练模型,网站损失惨重。

🌐开源项目网站可公开访问,需服务器和带宽支撑。

🕷️GNOME等项目大部分流量来自AI爬虫,非真人访问。

🛡️GNOME使用Anubi系统拦截AI爬虫,可能误伤用户。

😩网站识别和拦截爬虫困难,浪费资源且损失惨重。

开源 / 自由软件的官方网站或源代码托管通常都是可以公开访问的,但提供公开访问是需要服务器和带宽支撑的,正常情况下真实用户访问不会给服务器带来多少压力。知名桌面环境 GNOME 管理员分享了关于服务器流量的分析数据,数据表明在 2.5 小时内 GNOME 收到 81000 个请求,其中只有 3% 通过 Anubi 的工作量证明,这意味着剩余 97% 都是爬虫而非真人访问。

这些爬虫通常不会遵守 robots.txt 协议,并且人工智能公司的爬虫拥有大量 IP 地址,这些公司通过这些 IP 地址并发向开源项目网站发出请求赚取网站或项目数据。

为了应对这些爬虫消耗服务器硬件资源和网络带宽,GNOME 不得不使用名为 Anubi 的工作流证明系统用来拦截 AI 爬虫程序,有时候这可能还会误伤真实访问的用户。

GNOME 并不是唯一遭受 AI 爬虫类似 DDoS 攻击般疯狂抓取的项目,KDE、Fedora、LWN、Frame Software 等也都在面临同样的问题:其网站和基础设施绝大部分流量都来自 AI 爬虫。

应对这种攻击并没有太好的办法,管理员正在浪费大量时间、金钱和资源来抵御这些饥饿的 AI 大军 — 人工智能公司都在疯狂抓取数据用来训练模型。

此前包括 OpenAI ChatGPT 和字节跳动的 Bytespider 都被发现高频抓取网站导致网站近乎瘫痪,这些爬虫有时候不遵守 robots.txt 协议,有时候则是并发海量请求导致服务器瘫痪。

对这些 AI 公司来说这不会有任何损失,但被高频抓取的网站就遭殃了,浪费服务器资源的同时还必须想法设法识别和拦截这些爬虫,最后只有网站损失惨重。

另外大多数已知的爬虫例如 GPTBot 还比较容易通过 UA 进行拦截,还有大量的爬虫不会公布自己的名称,而是模拟智能手机用户进行访问,这种情况下靠 UA 识别和拦截非常麻烦。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

开源项目 AI爬虫 服务器资源 拦截措施
相关文章