Cloudflare指控Perplexity偷耙人家網站

AI & Big Data 4小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Cloudflare指控AI新创公司Perplexity违反网站爬取政策，通过修改用户代理和自治系统编号来逃避封锁。尽管网站明确禁止其爬取，Perplexity仍通过隐藏IP地址和伪装浏览器来访问内容。Cloudflare已将Perplexity移出“已验证机器人”名单。Perplexity尚未对此事作出回应。

🚫 Cloudflare指控AI新创Perplexity公司，蓄意规避网站爬取政策。Perplexity被发现无视网站robots.txt文件中的禁止爬取指令，并反复修改其用户代理（User Agent）和自治系统编号（Autonomous System Number，ASN）以逃避封锁。

🛡️ Cloudflare在其客户投诉后展开调查，发现Perplexity不仅违反了robots.txt政策，还绕过了网页应用防火墙（WAF）规则。即使在Cloudflare创建的全新、未公开的域名上设置了禁止所有爬虫访问的robots.txt和WAF规则，Perplexity仍能成功抓取内容。

🕵️ 研究发现，Perplexity使用了大量未公开的IP地址，并伪装成macOS上的Chrome浏览器来爬取网站内容，以绕过网站的安全限制。这种行为严重违反了爬虫应有的透明原则。

❌ 鉴于Perplexity的违规行为，Cloudflare已将其从“已验证机器人”名单中除名。该名单包含被视为“好爬虫”并被许多网站信任的机器人，如Googlebot、Bingbot、GPTBot等。

❓ Perplexity公司目前尚未公开回应Cloudflare的指控和相关调查结果。

提供網站安全、DDoS防禦、內容管理與雲端服務的Cloudflare周一（8/4）指控，AI新創Perplexity忽視網站禁止其爬梳的政策，並反覆修改其使用者代理（User Agent）與自治系統編號（Autonomous System Number，ASN）來逃避封鎖。

Cloudflare說，該平臺最初是收到客戶的投訴，表示他們在網站的robots.txt文件中明文禁止Perplexity的爬梳行為，也透過網頁應用程式的防火牆（Web Application Firewall，WAF）規則來過濾及封鎖Perplexity所公開的兩個爬蟲：PerplexityBot與Perplexity-User，然而，Perplexity卻依然存取了該平臺的內容。

為了驗證客戶的說法，Cloudflare建立了多個全新的網域，這些網域未曾公開，因此也未曾被搜尋引擎索引，尚未被連結或曝光，同時在這些網域用來宣告是否願意被爬梳的robots.txt文件中載明禁止所有爬蟲的存取，同時於WAF規則中封鎖了來自Perplexity的爬蟲。

接著研究人員向Perplexity聊天機器人詢問這些網站上的私密內容，Perplexity則回答了正確的資訊，顯示它的確曾違反robots.txt文件，還繞過WAF規則來存取內容。

研究人員發現，Perplexity使用了許多未公開列出的IP位址來爬梳網站，以繞過網站對該公司的限制，甚至將自己偽裝成macOS上的Chrome瀏覽器。

Cloudflare表示，有鑑於Perplexity既未遵守robots.txt，使用未聲明的使用者代理，使用未公開的IP位址，企圖繞過封鎖，還偽裝成Chrome，違反了爬蟲所應具備的透明原則，使得該平臺直接將Perplexity自「已驗證機器人」名單中除名。Cloudflare所驗證的機器人被視為立意良善的好爬蟲，可被許多網站放行，目前名單上包括Google的Googlebot、Microsoft的Bingbot、OpenAI的GPTBot與ChatGPT-User，以及蘋果的Applebot等。

至於Perplexity則尚未公開回應此事。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签