Cnbeta 03月23日
Cloudflare 正在将AI网络爬虫引入“人工智能迷宫”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cloudflare推出了AI Labyrinth,这是一个免费工具,旨在对抗未经授权的AI数据抓取。该工具通过诱导恶意爬虫访问AI生成的诱饵页面,减缓并混淆其行为。文章指出,尽管互联网长期使用robots.txt协议控制抓取,但AI公司常忽视此规则。AI Labyrinth不拦截机器人,而是引导它们处理与网站无关的数据,充当“下一代蜜罐”,帮助识别恶意机器人。Cloudflare计划构建一个庞大的链接网络,使机器人难以辨别真伪。

🌐 Cloudflare推出AI Labyrinth,用于对抗未经许可的AI数据抓取。该工具针对的是那些忽视robots.txt协议的AI公司,例如Anthropic和Perplexity AI。

🤖 AI Labyrinth通过创建AI生成的诱饵页面,将爬虫引诱至虚假链接,从而减缓、混淆并浪费恶意爬虫的资源。这些页面包含真实且与科学事实相关的内容,但与被抓取的网站无关。

🛡️ 该工具不拦截机器人,而是充当“下一代蜜罐”,吸引AI爬虫不断跟踪虚假页面,帮助Cloudflare识别恶意机器人,并检测新的机器人模式和签名。这些链接对人类访问者不可见。

⚙️ 网站管理员可以通过Cloudflare仪表板的“机器人管理”部分启用AI Labyrinth。Cloudflare计划构建一个庞大的链接URL网络,让机器人难以辨别真伪。

全球最大的网络基础设施公司之一 Cloudflare 宣布推出 AI Labyrinth,这是一款新工具,用于对抗未经许可从网站上抓取 AI 训练数据的网络爬虫。该公司在一篇博客文章中表示,当检测到“不当的机器人行为”时,这款免费的可选工具会将爬虫引诱到 AI 生成的诱饵页面的链接路径上,这些页面会“减慢、混淆并浪费”那些恶意行为者的资源。

互联网长期以来一直使用基于 robots.txt 的荣誉系统方式来控制抓取,这是一个文本文件,用于授予或拒绝爬虫程序的权限,但人工智能公司(甚至是Anthropic和Perplexity AI等知名公司)被指责忽视了它。Cloudflare 写道,它每天会收到超过 500 亿个网络爬虫请求,尽管它有工具来发现和阻止恶意请求,但这往往会促使攻击者在“永无止境的军备竞赛”中改变策略。

Cloudflare 表示,AI Labyrinth 不会拦截机器人,而是通过让它们处理与特定网站的实际数据无关的数据来进行反击。该公司表示,它还可以充当“下一代蜜罐”,吸引人工智能爬虫不断跟踪虚假页面的链接,而普通人则不会这样做。它表示,这使得 Cloudflare 的恶意行为者列表中更容易识别恶意机器人,以及识别它原本无法检测到的“新机器人模式和签名”。根据该帖子,这些链接不对人类访问者可见。

您可以在 Cloudflare 的博客上阅读有关 AI Labyrinth 如何工作的更多信息:

https://blog.cloudflare.com/ai-labyrinth/

这里有来自该帖子的更多详细信息:

我们发现,先生成一组多样化的主题,然后为每个主题创建内容,可以产生更加多样化和令人信服的结果。对我们来说,重要的是不要生成不准确的内容,以免助长互联网上错误信息的传播,因此我们生成的内容是真实的并且与科学事实相关,只是与被抓取的网站不相关或不是专有的。

网站管理员可以选择使用 AI Labyrinth,方法是导航到其站点 Cloudflare 仪表板设置的“机器人管理”部分并启用它。该公司表示,这“只是使用生成式 AI 阻止机器人的第一次迭代”。

Cloudflare计划创建“整个链接 URL 网络”,机器人最终进入其中时将很难判断为假的。正如Ars Technica指出的那样,AI Labyrinth 听起来类似于 Nepenthes,后者是一种旨在让爬虫在 AI 生成的垃圾数据地狱中“数月”处于搁置状态的工具。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cloudflare AI Labyrinth 网络爬虫 数据抓取 AI安全
相关文章