Cloudflare將預設封鎖AI網頁爬蟲　除非付費給內容網站

因應AI模型業者以網頁爬蟲（robot）未經同意擷取網頁內容訓練模型，本周內容遞送網路（CDN）業者Cloudflare宣布新措施，將預設封鎖AI網頁爬蟲。同時間，Cloudflare提供出版商能以允許爬蟲賺取收入的方案。

在周二（7/1）Cloudflare稱為內容獨立日（Content Independency Day）最新措施，也是去年Cloudflare提供網頁爬蟲的封鎖工具給客戶後更進一步。

Cloudflare指出，Google、OpenAI及Anthropic AI業者提供的聊天機器人在其回應中，已提供75%用戶需要的答案，而無需用戶造訪網頁，而Google的AI Overview的推出將使比例更向上攀高。

然而AI網頁爬蟲（或網頁機器人）擷取了出版商網頁內容提供的回答，已經對出版商造成營運傷害，因為來自廣告及訂閱的收入消失。

過去10年，內容創作者想再產生同樣流量，困難幾乎成長10倍，這還是來自Google造成的損害。根據Cloudflare的數據，因OpenAI及Anthropic再產生同樣流量，困難度達到750及30,000倍。可以說AI爬蟲侵害已嚴重侵害網路產業。

因此Cloudflare宣布，已和主要出版商和AI公司合作，採取新措施來防範AI網頁爬蟲不當擷取出版商的內容，並為創作者開闢新的營收來源。Cloudflare將預設封鎖AI爬蟲，除非AI業者支付創作者費用。

Cloudflare也宣布Pay per crawl的支付方案。它整合有Web基礎架構，運用HTTP status codes建立驗證機制，以建立付費內容存取框架。

技術原理如下。AI爬蟲每次呼叫內容時，若不能request headers經由展示支付意圖（intent）就會接收到一個附有收費價格的402 Payment Required的回應。Pay per crawl的紀錄商戶（Merchant of Record）和底層技術架構都是由Cloudflare扮演。

Pay per crawl框架提供網域持有者（出版商）收費策略完整控制權。他們可以定義站上以呼叫次數計費的單一費率，也能決定允許、收費和封鎖。但必要時，出版商必要時也可繞過收費，以免費內容執行外部內容合作。而AI網頁爬蟲操作單位及內容擁有者（出版商）必須在Cloudflare帳號下設定pay per crawl支付細部規定，所有爬蟲呼叫及支付活動都會紀錄下來，再由Cloudflare集結、收費並將報告發布給出版商。

不過Pay per crawl最重要的是出版商願意使用。目前Pay per crawl以不公開beta版本測試，Cloudflare邀請出版商報名加入。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签