AI & Big Data 4小时前
Cloudflare指控Perplexity偷耙人家網站
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cloudflare指控AI新创公司Perplexity违反网站爬取政策,通过修改用户代理和自治系统编号来逃避封锁。尽管网站明确禁止其爬取,Perplexity仍通过隐藏IP地址和伪装浏览器来访问内容。Cloudflare已将Perplexity移出“已验证机器人”名单。Perplexity尚未对此事作出回应。

🚫 Cloudflare指控AI新创Perplexity公司,蓄意规避网站爬取政策。Perplexity被发现无视网站robots.txt文件中的禁止爬取指令,并反复修改其用户代理(User Agent)和自治系统编号(Autonomous System Number,ASN)以逃避封锁。

🛡️ Cloudflare在其客户投诉后展开调查,发现Perplexity不仅违反了robots.txt政策,还绕过了网页应用防火墙(WAF)规则。即使在Cloudflare创建的全新、未公开的域名上设置了禁止所有爬虫访问的robots.txt和WAF规则,Perplexity仍能成功抓取内容。

🕵️ 研究发现,Perplexity使用了大量未公开的IP地址,并伪装成macOS上的Chrome浏览器来爬取网站内容,以绕过网站的安全限制。这种行为严重违反了爬虫应有的透明原则。

❌ 鉴于Perplexity的违规行为,Cloudflare已将其从“已验证机器人”名单中除名。该名单包含被视为“好爬虫”并被许多网站信任的机器人,如Googlebot、Bingbot、GPTBot等。

❓ Perplexity公司目前尚未公开回应Cloudflare的指控和相关调查结果。

提供網站安全、DDoS防禦、內容管理與雲端服務的Cloudflare周一(8/4)指控,AI新創Perplexity忽視網站禁止其爬梳的政策,並反覆修改其使用者代理(User Agent)與自治系統編號(Autonomous System Number,ASN)來逃避封鎖。

Cloudflare說,該平臺最初是收到客戶的投訴,表示他們在網站的robots.txt文件中明文禁止Perplexity的爬梳行為,也透過網頁應用程式的防火牆(Web Application Firewall,WAF)規則來過濾及封鎖Perplexity所公開的兩個爬蟲:PerplexityBot與Perplexity-User,然而,Perplexity卻依然存取了該平臺的內容。

為了驗證客戶的說法,Cloudflare建立了多個全新的網域,這些網域未曾公開,因此也未曾被搜尋引擎索引,尚未被連結或曝光,同時在這些網域用來宣告是否願意被爬梳的robots.txt文件中載明禁止所有爬蟲的存取,同時於WAF規則中封鎖了來自Perplexity的爬蟲。

接著研究人員向Perplexity聊天機器人詢問這些網站上的私密內容,Perplexity則回答了正確的資訊,顯示它的確曾違反robots.txt文件,還繞過WAF規則來存取內容。

研究人員發現,Perplexity使用了許多未公開列出的IP位址來爬梳網站,以繞過網站對該公司的限制,甚至將自己偽裝成macOS上的Chrome瀏覽器。

Cloudflare表示,有鑑於Perplexity既未遵守robots.txt,使用未聲明的使用者代理,使用未公開的IP位址,企圖繞過封鎖,還偽裝成Chrome,違反了爬蟲所應具備的透明原則,使得該平臺直接將Perplexity自「已驗證機器人」名單中除名。Cloudflare所驗證的機器人被視為立意良善的好爬蟲,可被許多網站放行,目前名單上包括Google的Googlebot、Microsoft的Bingbot、OpenAI的GPTBot與ChatGPT-User,以及蘋果的Applebot等。

至於Perplexity則尚未公開回應此事。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cloudflare Perplexity AI爬虫 网站安全 robots.txt
相关文章