Cnbeta 10小时前
Cloudflare公开批评Perplexity的抓取策略后 一些人开始为其辩护
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cloudflare指责AI搜索引擎Perplexity绕过网站屏蔽机制抓取数据,引发了关于AI代理是否应被视为机器人或人类的广泛讨论。Perplexity辩称其行为合理,并将争议归咎于Cloudflare系统对合法AI助手与威胁的区分能力不足。此事件正值机器人活动重塑互联网之际,AI流量激增,对网站数据抓取构成严峻挑战。文章探讨了AI代理访问网站的法律和商业伦理界限,以及网站所有者在面对AI代理泛滥时的潜在商业利益冲突。

🎯 AI代理的身份界定模糊:Cloudflare指责Perplexity在被明确屏蔽后,仍通过模仿普通浏览器抓取网站数据。支持Perplexity的观点认为,代表用户访问网站的AI代理与人类浏览器行为无异,应享有同等待遇,这挑战了传统的机器人识别和屏蔽机制。

⚖️ 商业模式与用户体验的冲突:Perplexity声称其行为是访问开放网络信息的一部分,而Cloudflare则认为AI公司应遵守robots.txt等规则,并以OpenAI为例,强调合规性。此次争议暴露了AI抓取数据以训练模型与网站所有者期望的流量和广告收入之间的潜在矛盾。

🌐 机器人活动对互联网生态的影响:报告显示,互联网流量中机器人活动已超过人类活动,其中AI流量占比显著。这不仅影响网站的数据抓取,也可能改变未来的搜索引擎流量格局,迫使网站所有者重新评估对AI代理的开放程度。

💡 开放网络与内容所有权的平衡:文章探讨了在AI代理日益普及的背景下,网站所有者是否应该屏蔽这些代理,以及这种做法是否会损害其商业利益。用户希望AI能代表他们访问公开内容,而网站所有者则希望通过直接流量获得收益,这种两难局面亟待解决。

当 Cloudflare 周一指责人工智能搜索引擎 Perplexity偷偷抓取网站数据,同时忽略网站阻止它的具体方法时,也有许多人为 Perplexity 辩护。他们认为,Perplexity 违背网站所有者意愿访问网站的行为虽然存在争议,但却是可以接受的。随着人工智能代理在互联网上的泛滥,这场争议必将愈演愈烈:代表用户访问网站的代理应该被视为机器人吗?还是应该被视为提出相同请求的人类?

Cloudflare 以向数百万个网站提供反机器人爬虫和其他网络安全服务而闻名。本质上,Cloudflare 的测试用例包括:创建一个新网站,使用一个从未被任何机器人爬虫爬过的新域名;设置一个 robots.txt 文件,专门屏蔽 Perplexity 已知的 AI 爬虫程序;然后向 Perplexity 询问该网站的内容。Perplexity 回答了这个问题。

Cloudflare 的研究人员发现,当该 AI 搜索引擎的网络爬虫本身被屏蔽时,它使用了“一个旨在模仿 macOS 上 Google Chrome 的通用浏览器”。Cloudflare 首席执行官 Matthew Prince在 X 上发布了这项研究,并写道:“一些所谓的‘信誉良好’的 AI 公司的行为更像朝鲜黑客。是时候点名批评他们,并对他们进行严厉封杀了。”

但许多人不同意普林斯的评估,认为这并非真正的不良行为。在XHacker News等网站上为 Perplexity 辩护的人指出,Cloudflare 记录的似乎是,当用户询问特定网站时,AI 会访问该网站。 

“如果我作为人类请求一个网站,那么我就应该看到其内容,” Hacker News上的一位用户写道,并补充道,“为什么代表我访问该网站的大语言模型会与我的 Firefox 网络浏览器属于不同的法律类别?”

Perplexity 的一位发言人此前曾否认这些机器人是该公司的,并称 Cloudflare 的博客文章是 Cloudflare 的推销手段。然而,周二,Perplexity又发布了一篇博文为自己辩护(总体上是对 Cloudflare 的攻击),声称这种行为是该公司偶尔使用的第三方服务造成的。

但 Perplexity 帖子的核心内容与其在线辩护者一样值得关注,帖子写道:“自动抓取和用户驱动抓取之间的区别不仅仅是技术层面的,而在于谁能够访问开放网络上的信息。这场争议表明,Cloudflare 的系统从根本上不足以区分合法的人工智能助手和真正的威胁。”

Perplexity 的指控也并不完全公平。Prince 和 Cloudflare 批评 Perplexity 的方法时,提出一个论点是 OpenAI 的做法与 Perplexity 不同。

Cloudflare 写道: “OpenAI 是一家遵循这些最佳实践的领先人工智能公司的典范。他们尊重 robots.txt 文件,不会试图规避 robots.txt 指令或网络级别的阻止。ChatGPT Agent 使用新提出的开放标准 Web Bot Auth 对 http 请求进行签名。”  

Web Bot Auth是 Cloudflare 支持的标准,由互联网工程任务组开发,希望创建一种用于识别 AI 代理网络请求的加密方法。

这场争论正值机器人活动重塑互联网之际。正如 TechCrunch 此前报道,机器人试图抓取大量内容来训练人工智能模型,这已成为一种威胁,尤其对小型网站而言。 

根据 Imperva 上个月发布的《恶意机器人报告》,互联网历史上机器人活动首次超过人类在线活动,其中人工智能流量占比超过 50%。其中大部分活动来自 LLM。但报告还发现,恶意机器人目前占所有互联网流量的 37%。这些活动包括从持续抓取数据到未经授权的登录尝试等各种行为。

在大语言模型(LLM)出现之前,互联网普遍认为网站可以而且应该屏蔽大多数机器人活动,因为这些机器人活动经常使用验证码和其他服务(例如 Cloudflare)。网站也有明确的动机与特定的良性行为者(例如 Googlebot)合作,通过 robots.txt 指导 Googlebot 哪些内容不该被索引。Google 索引了互联网,而互联网又将流量发送到网站。

如今,大语言模型(LLM)正在吞噬越来越多的流量。Gartner 预测,到 2026 年,搜索引擎流量将下降 25%。目前,人们倾向于在 LLM 对网站最有价值的时候点击这些链接,也就是他们准备进行交易的时候。

但如果人类像科技行业预测的那样,会主动寻求代理——帮我们安排旅行、预订晚餐、购物——那么网站屏蔽这些代理是否会损害他们的商业利益呢?X 上的辩论完美地诠释了这一困境:

“我希望 Perplexity 在我向它发出请求/任务时,能够代表我访问任何公开内容!”有人在 Cloudflare 谴责 Perplexity 的言论中写道。

“如果网站所有者不想要怎么办?他们只是想让你直接访问他们的主页,看看他们的东西。”另一位用户反驳道,并指出创建内容的网站所有者想要的是流量和潜在的广告收入,而不是让 Perplexity 拿走。

“这就是为什么我认为‘代理浏览’无法真正发挥作用——这个问题比人们想象的要难得多。大多数网站所有者会直接屏蔽,”第三位预测道。

相关文章:

Perplexity被指控抓取明确阻止AI抓取的网站

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Perplexity Cloudflare AI抓取 robots.txt 互联网安全
相关文章