蓝点网 2024年07月25日
知名维修网站iFixit抱怨Claude发起DDoS攻击 1天访问数百万次抓取数据训练AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

人工智能开发商 Anthropic 开发的人工智能应用程序 Claude 的爬虫对 iFixit 网站进行了大量抓取,导致 iFixit 网站服务器负载过重,网站管理员在社交媒体上表达了不满。iFixit 称,Claude 的爬虫每分钟对网站发起数以千计的访问,消耗了大量的服务器 CPU 资源和网络带宽。Anthropic 则回应称,他们使用各种数据源进行模型开发,抓取是行业标准,但会尽量降低干扰。

🤖 Claude 爬虫对 iFixit 网站进行了大规模抓取,导致网站服务器负载过重。iFixit 网站管理员在社交媒体上表达了不满,指责 Claude 爬虫每分钟对网站发起数以千计的访问,消耗了大量的服务器 CPU 资源和网络带宽。

💻 Anthropic 则回应称,他们使用各种数据源进行模型开发,抓取是行业标准,但会尽量降低干扰。他们表示,他们的抓取不应具有侵扰性和破坏性,会适当情况下尊重抓取延迟,将干扰降到最低。

🛡️ iFixit 网站可以通过在 robots.txt 文件中添加以下内容来屏蔽 Claude 爬虫: User-agent: ClaudeBot Disallow: / 或者通过 Nginx 使用正则表达式匹配 ClaudeBot 爬虫,如果 ClaudeBot 爬虫未遵守 robots.txt 协议继续抓取,那可以直接拦截。

🌐 为了避免爬虫无法抓取 robots.txt 文件建议站长先更新 robots.txt,几天后如果在网站日志里仍然能看到 ClaudeBot 抓取非 robots.txt 文件的记录,那就代表未遵守协议,可以直接通过 Nginx 返回 HTTP 444 丢弃连接降低服务器负载。

Claude 是人工智能开发商 Anthropic 开发的人工智能应用程序,和大多数人工智能开发商一样,Anthropic 派出的爬虫每天会在互联网上检索并抓取海量内容用来训练人工智能模型。

iFixit 是业界知名的拆解维修网站,该网站有诸多文字和图片类的拆解文章,于是 Anthropic 派出的爬虫也对 iFixit 发起了疯狂的抓取。

该网站管理员在 X/Twitter 上抱怨称:我知道你渴望数据,Claude 真的很聪明,但你真的需要在 24 小时内对我们的服务器进行一百万次攻击吗?你不仅不付费就窃取了我们的内容,还占用了我们的开发运营资源,这太不酷了。

网站日志显示 ClaudeBot 每分钟对 iFixit 发起数以千计的访问,这会 iFixit 服务器产生的负面影响,因为这种抓取不仅会消耗服务器 CPU 资源还会消耗网络带宽,任何一个网站都不愿意看到这种情况。

iFixit 在接受 404media 采访时称:

我们是世界上最大的维修信息数据库,如果他们未经允许就把所有信息都拿走、导致我们服务器瘫痪。iFixit 目前拥有数百万个链接,包括各种维修指南、维修修订历史、博客、新闻帖子、研究、论坛、社区贡献的维修指南以及问答等。

对于抱怨 Anthropic 的支持团队并未道歉并且给出了如下回应:

按照行业标准 Anthropic 使用各种数据源进行模型开发,例如通过网络爬虫收集的互联网上的公开数据。我们的抓取不应该具有侵扰性和破坏性,我们的目标是适当的情况下尊重抓取延迟将干扰降到最低。

对网站来说最简单的方式就是直接屏蔽 Claude 爬虫,蓝点网也同样面临 Claude 爬虫的 DDoS 攻击,该爬虫确实会以每分钟几千次的频率进行抓取,这对蓝点网服务器产生了影响所以我们早早就屏蔽了 Claude 爬虫。

要屏蔽的话可以在 robots.txt 里添加以下内容:

User-agent: ClaudeBot
Disallow: /

当然为了保险起见我们还在 Nginx 上使用了正则表达式匹配 ClaudeBot 爬虫,如果 ClaudeBot 爬虫未遵守 robots.txt 协议继续抓取,那可以直接拦截。

为了避免爬虫无法抓取 robots.txt 文件建议站长先更新 robots.txt,几天后如果在网站日志里仍然能看到 ClaudeBot 抓取非 robots.txt 文件的记录,那就代表未遵守协议,可以直接通过 Nginx 返回 HTTP 444 丢弃连接降低服务器负载。

感谢蓝点网网友 颜黎明 分享的消息

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude 爬虫 iFixit 服务器 数据抓取 robots.txt
相关文章