Cnbeta 01月12日
人体3D模型网站遭OpenAI爬虫疯狂抓取引起瘫痪 类似某种DDoS攻击
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,乌克兰网站Trilegangers因未正确设置robots.txt文件,遭OpenAI的GPTBot爬虫高频抓取,导致服务器瘫痪。尽管该网站已声明禁止未授权抓取,但GPTBot仍以600多个IP地址发起大量请求,致使服务器流量过载。此事件凸显了AI爬虫对网站的潜在威胁,以及正确设置robots.txt文件的重要性。同时,这也引发了关于数据抓取和AI训练的法律和道德讨论,即使没有robots.txt,未经授权抓取数据用于AI训练也可能违法。

🤖 AI爬虫正取代传统搜索引擎爬虫,成为互联网上抓取频率最高的爬虫,若网站未规范设置robots.txt文件,可能导致服务器瘫痪。

🌐 乌克兰网站Trilegangers因未设置robots.txt文件,遭OpenAI的GPTBot爬虫以600多个IP地址发起高频请求,导致网站瘫痪,类似DDoS攻击。

⚖️ 即使网站未设置robots.txt,AI公司抓取数据用于训练也可能违法,因为Trilegangers已声明禁止未经授权使用其数据,且爬虫行为导致网站服务器费用增加。

🛡️ Trilegangers已通过设置robots.txt文件并使用Cloudflare阻止包括GPTBot在内的爬虫抓取,以解决问题,这突显了robots.txt文件在网站保护中的重要作用。

搜索引擎或其他爬虫高频次抓取网站导致服务器瘫痪的案例并不少见,包括蓝点网在内的多个网站都曾遇到过这类爬虫引起网站无法正常访问。现在人工智能公司的爬虫替代搜索引擎成为整个互联网上抓取频率最高的爬虫,对某些网站来说如果没有规范设置 robots.txt 文件进行阻止那可能就会出现服务器瘫痪的情况。

例如最新的案例是乌克兰网站 Trilegangers,该网站提供海量的人体 3D 模型数据供 3D 艺术家、视频游戏开发商以及任何需要以数字方式重新真实人类特征的人购买。

尽管该网站已经在使用协议里注明未经授权禁止抓取和使用网站的所有数据,但 Trilegangers 并未正确设置 robots.txt 文件阻止包括 GPTBot 在内的爬虫。

本周六该网站瘫痪并且症状类似于 DDoS 分布式拒绝服务攻击,经过检查后发现罪魁祸首是 OpenAI 用于抓取数据训练人工智能的 GPTBot 爬虫。

Trilegangers 工作人员检查服务器日志后发现,OpenAI 派出的 GPTBot 爬虫以 600 多个不同的 IP 地址发起数以万计的请求,这些并发请求直接让服务器无法处理流量导致瘫痪。

根据 OpenAI 公布的爬虫说明,如果网站不想被 GBTBot 爬虫抓取内容,则需要在 robots.txt 里使用规范命令进行阻止,Trilegangers 网站并未设置该文件。

robots.txt 属于行业的约定俗成并非法律规范,但即便没有设置 robots.txt 文件,GPTBot 抓取数据再由 OpenAI 使用数据训练 AI 也是违法行为,因为 Trilegangers 网站本身已经禁止未经授权的使用。

另一方面 Trilegangers 使用 AWS 的服务器,由于 GPTBot 的疯狂抓取导致消耗的带宽和流量也在增加,因此 Trilegangers 也需要支付更高的服务器费用。

目前 Trilegangers 已经设置正确的 robots.txt 文件并通过 Cloudflare 阻止 GPTBot 和其他爬虫包括字节跳动的 Bytespider 爬虫的抓取,这应该可以临时解决问题。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI爬虫 robots.txt 网站瘫痪 数据抓取 OpenAI
相关文章