Cloudflare 称 Perplexity 绕过限制，抓取明令禁止 AI 抓取的网站

IT之家前天 17:05

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Cloudflare 发布报告，指控 AI 初创公司 Perplexity 违反网站 robots.txt 文件及拦截规则，通过改变身份标识规避禁令，大规模抓取内容。Perplexity 否认指控，称 Cloudflare 是销售噱头，且被指控的机器人并非其所有。Cloudflare 表示客户投诉证实了 Perplexity 的抓取行为，已采取技术措施拦截。这已非 Perplexity 首次面临内容抄袭指控。

📊 Cloudflare 指控 AI 公司 Perplexity 存在规避网站抓取禁令的行为。报告指出，Perplexity 在网站明确标注禁止 AI 抓取的情况下，通过修改身份标识（UA 和 ASN 信息），更换网络地址等方式，绕过了 Cloudflare 的拦截规则，并抓取了大量内容。

🚫 Perplexity 被指控忽略了网站的 robots.txt 文件，该文件本应告知搜索引擎和 AI 公司哪些页面可以被索引。此外，Perplexity 还针对其已知的爬虫设置的拦截规则进行了规避，其抓取行为涉及数万个域名和每天数百万次请求。

❓ Perplexity 发言人 Jesse Dwyer 对 Cloudflare 的指控予以否认，称其报告是“销售噱头”，并声称截图中显示“没有内容被访问”。Dwyer 进一步表示，Cloudflare 提到的机器人“甚至不是我们的”。

🔍 Cloudflare 的调查源于客户投诉，这些客户已在 robots.txt 文件中添加了专门拦截 Perplexity 已知爬虫的规则，但仍发现其内容被抓取。Cloudflare 经过测试确认了这些客户的遭遇属实。

🛡️ 作为回应，Cloudflare 已将 Perplexity 的爬虫移出认证名单，并采取了新的技术手段来拦截其抓取行为。需要注意的是，Perplexity 此前也曾面临类似内容抄袭的指控。

IT之家 8 月 5 日消息，当地时间周一，Cloudflare 发布了一份报告，指控 AI 初创公司 Perplexity 在网站已明确标注禁止 AI 抓取的情况下仍进行抓取，并通过改变身份标识规避拦截规则。

报告显示，Perplexity 忽略网站 robots.txt 文件（用于告知搜索引擎和 AI 公司哪些页面可供索引）及针对其已知爬虫的拦截规则，调整 UA 和 ASN 信息，通过更换身份和网络地址等手段绕过屏蔽并抓取大量内容。

Cloudflare 称，他们通过“机器学习与网络信号相结合”的方式，识别出了 Perplexity 爬虫的特征，其行为涉及“数万个域名，每天数百万次请求”。

针对指控，Perplexity 发言人 Jesse Dwyer 表示：Cloudflare 的博文是“销售噱头”，并表示文中截图“显示没有内容被访问”。在后续邮件中，Dwyer 进一步否认，称 Cloudflare 提到的机器人“甚至不是我们的”。

Cloudflare 表示，其调查源于客户投诉 —— 部分客户已在 robots 文件中添加规则并专门拦截 Perplexity 的已知爬虫，但仍遭其抓取。Cloudflare 测试后确认属实。

作为回应，Cloudflare 已将 Perplexity 的爬虫移出认证名单（用于标识合法爬虫），并添加新的技术拦截其行为。

IT之家注意到，这并非 Perplexity 首次面临此类指控。去年《Wired》等媒体也曾指控 Perplexity 抄袭其内容；首席执行官 Aravind Srinivas 在 Disrupt 2024 大会上面对媒体问询却不敢回答。

参考资料：

《Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives》

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签