提供網站安全、DDoS防禦、內容管理與雲端服務的Cloudflare周一(8/4)指控,AI新創Perplexity忽視網站禁止其爬梳的政策,並反覆修改其使用者代理(User Agent)與自治系統編號(Autonomous System Number,ASN)來逃避封鎖。
Cloudflare說,該平臺最初是收到客戶的投訴,表示他們在網站的robots.txt文件中明文禁止Perplexity的爬梳行為,也透過網頁應用程式的防火牆(Web Application Firewall,WAF)規則來過濾及封鎖Perplexity所公開的兩個爬蟲:PerplexityBot與Perplexity-User,然而,Perplexity卻依然存取了該平臺的內容。
為了驗證客戶的說法,Cloudflare建立了多個全新的網域,這些網域未曾公開,因此也未曾被搜尋引擎索引,尚未被連結或曝光,同時在這些網域用來宣告是否願意被爬梳的robots.txt文件中載明禁止所有爬蟲的存取,同時於WAF規則中封鎖了來自Perplexity的爬蟲。
接著研究人員向Perplexity聊天機器人詢問這些網站上的私密內容,Perplexity則回答了正確的資訊,顯示它的確曾違反robots.txt文件,還繞過WAF規則來存取內容。
研究人員發現,Perplexity使用了許多未公開列出的IP位址來爬梳網站,以繞過網站對該公司的限制,甚至將自己偽裝成macOS上的Chrome瀏覽器。
Cloudflare表示,有鑑於Perplexity既未遵守robots.txt,使用未聲明的使用者代理,使用未公開的IP位址,企圖繞過封鎖,還偽裝成Chrome,違反了爬蟲所應具備的透明原則,使得該平臺直接將Perplexity自「已驗證機器人」名單中除名。Cloudflare所驗證的機器人被視為立意良善的好爬蟲,可被許多網站放行,目前名單上包括Google的Googlebot、Microsoft的Bingbot、OpenAI的GPTBot與ChatGPT-User,以及蘋果的Applebot等。
至於Perplexity則尚未公開回應此事。