Cloudflare公开批评Perplexity的抓取策略后一些人开始为其辩护

当 Cloudflare 周一指责人工智能搜索引擎 Perplexity偷偷抓取网站数据，同时忽略网站阻止它的具体方法时，也有许多人为 Perplexity 辩护。他们认为，Perplexity 违背网站所有者意愿访问网站的行为虽然存在争议，但却是可以接受的。随着人工智能代理在互联网上的泛滥，这场争议必将愈演愈烈：代表用户访问网站的代理应该被视为机器人吗？还是应该被视为提出相同请求的人类？

Cloudflare 以向数百万个网站提供反机器人爬虫和其他网络安全服务而闻名。本质上，Cloudflare 的测试用例包括：创建一个新网站，使用一个从未被任何机器人爬虫爬过的新域名；设置一个 robots.txt 文件，专门屏蔽 Perplexity 已知的 AI 爬虫程序；然后向 Perplexity 询问该网站的内容。Perplexity 回答了这个问题。

Cloudflare 的研究人员发现，当该 AI 搜索引擎的网络爬虫本身被屏蔽时，它使用了“一个旨在模仿 macOS 上 Google Chrome 的通用浏览器”。Cloudflare 首席执行官 Matthew Prince在 X 上发布了这项研究，并写道：“一些所谓的‘信誉良好’的 AI 公司的行为更像朝鲜黑客。是时候点名批评他们，并对他们进行严厉封杀了。”

但许多人不同意普林斯的评估，认为这并非真正的不良行为。在X和Hacker News等网站上为 Perplexity 辩护的人指出，Cloudflare 记录的似乎是，当用户询问特定网站时，AI 会访问该网站。

“如果我作为人类请求一个网站，那么我就应该看到其内容，” Hacker News上的一位用户写道，并补充道，“为什么代表我访问该网站的大语言模型会与我的 Firefox 网络浏览器属于不同的法律类别？”

Perplexity 的一位发言人此前曾否认这些机器人是该公司的，并称 Cloudflare 的博客文章是 Cloudflare 的推销手段。然而，周二，Perplexity又发布了一篇博文为自己辩护（总体上是对 Cloudflare 的攻击），声称这种行为是该公司偶尔使用的第三方服务造成的。

但 Perplexity 帖子的核心内容与其在线辩护者一样值得关注，帖子写道：“自动抓取和用户驱动抓取之间的区别不仅仅是技术层面的，而在于谁能够访问开放网络上的信息。这场争议表明，Cloudflare 的系统从根本上不足以区分合法的人工智能助手和真正的威胁。”

Perplexity 的指控也并不完全公平。Prince 和 Cloudflare 批评 Perplexity 的方法时，提出一个论点是 OpenAI 的做法与 Perplexity 不同。

Cloudflare 写道： “OpenAI 是一家遵循这些最佳实践的领先人工智能公司的典范。他们尊重 robots.txt 文件，不会试图规避 robots.txt 指令或网络级别的阻止。ChatGPT Agent 使用新提出的开放标准 Web Bot Auth 对 http 请求进行签名。”

Web Bot Auth是 Cloudflare 支持的标准，由互联网工程任务组开发，希望创建一种用于识别 AI 代理网络请求的加密方法。

这场争论正值机器人活动重塑互联网之际。正如 TechCrunch 此前报道，机器人试图抓取大量内容来训练人工智能模型，这已成为一种威胁，尤其对小型网站而言。

根据 Imperva 上个月发布的《恶意机器人报告》，互联网历史上机器人活动首次超过人类在线活动，其中人工智能流量占比超过 50%。其中大部分活动来自 LLM。但报告还发现，恶意机器人目前占所有互联网流量的 37%。这些活动包括从持续抓取数据到未经授权的登录尝试等各种行为。

在大语言模型（LLM）出现之前，互联网普遍认为网站可以而且应该屏蔽大多数机器人活动，因为这些机器人活动经常使用验证码和其他服务（例如 Cloudflare）。网站也有明确的动机与特定的良性行为者（例如 Googlebot）合作，通过 robots.txt 指导 Googlebot 哪些内容不该被索引。Google 索引了互联网，而互联网又将流量发送到网站。

如今，大语言模型（LLM）正在吞噬越来越多的流量。Gartner 预测，到 2026 年，搜索引擎流量将下降 25%。目前，人们倾向于在 LLM 对网站最有价值的时候点击这些链接，也就是他们准备进行交易的时候。

但如果人类像科技行业预测的那样，会主动寻求代理——帮我们安排旅行、预订晚餐、购物——那么网站屏蔽这些代理是否会损害他们的商业利益呢？X 上的辩论完美地诠释了这一困境：

“我希望 Perplexity 在我向它发出请求/任务时，能够代表我访问任何公开内容！”有人在 Cloudflare 谴责 Perplexity 的言论中写道。

“如果网站所有者不想要怎么办？他们只是想让你直接访问他们的主页，看看他们的东西。”另一位用户反驳道，并指出创建内容的网站所有者想要的是流量和潜在的广告收入，而不是让 Perplexity 拿走。

“这就是为什么我认为‘代理浏览’无法真正发挥作用——这个问题比人们想象的要难得多。大多数网站所有者会直接屏蔽，”第三位预测道。

相关文章:

Perplexity被指控抓取明确阻止AI抓取的网站

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签