對於數位內容產業而言,AI帶來許多新的挑戰,例如,ChatGPT等線上服務崛起後,新聞網站均面臨瀏覽流量大幅下降的危機,近期登場的Google搜尋引擎提供的AI摘要,也明顯減少使用者點擊搜尋結果列出的網址連結,在Pew Research Center上個月底發布的研究報告當中,已具體呈現這樣的狀況。
除了形同被架空,許多網站現在也面臨更多未經站方同意的內容擷取行為,以前要應付網頁內容擷取程式(Web crawlers),如今又多了AI網頁內容擷取(AI crawlers),目的是訓練AI模型。針對這樣的局面,身兼CDN與雲端服務業者身分的CloudFlare,在7月初實施新政策,他們表示預設將封鎖AI網頁機器人程式,除非AI業者付費給創作者、以便取得內容使用授權,各種數位內容既然支撐AI引擎的運作,創作者也必須直接獲得合理補償,才算公平。
祭出禁令的同時,CloudFlare也企圖建立內容擷取的付費體制,他們宣布名為Pay per crawl的計費支付方案,屬於該公司平臺AI Audit功能的一部分,目前是封閉測試階段。
除了網頁機器人程式擷取網頁內容的爭議,有AI業者以API存取其他AI業者的模型。例如,這幾天就有兩則新聞,突顯相關的衝突正在升溫。
首先是Anthropic針對OpenAI透過API存取Claude模型的行為予以封鎖,理由是這個舉動違反該公司的服務條款,僅允許OpenAI對其執行基準測試和安全評估。
另一個消息是CloudFlare指控AI新創Perplexity,運用隱藏、未宣告的網頁機器人程式,迴避網站發出的禁止擷取指令要求,他們發現Perplexity一開始雖然從他們宣告的使用者代理進行網頁內容擷取,不過,一旦遇到網路阻擋存取時,他們會隱匿擷取程式的身分、試圖規避網站設定,具體行為在於Perplexity持續修改使用者代理、變更自治系統編號(ASNs)來源,進而藏匿網頁擷取活動,並且無視、甚至不存取網站宣告的機器人程式內容存取指引檔案robots.txt。
無論仗義執言或是有其他商業競爭考量,上述狀況反映的共通問題,在於企業與組織該如何看待本身公開在網站的內容,以及能否定義、進而限制適當的使用方式。
而在資安廠商的年度資安報告當中,也可以看到這方面的趨勢。
根據Akamai提出的《State of Apps and API Security 2025》指出,AI技術支持的機器人程式(Bot),可協助攻擊者發動自動化攻擊與大規模攻擊;而且,在零售資安領域,機器人已成為主要的攻擊面向,能被用來執行帳號強佔(account takeover)、信用卡詐騙,以及禮品卡濫用。
他們認為,Bot之所以能夠發動攻擊,主因在於先從遭駭網站偷到個資,之後以此執行帳密填充攻擊(credential stuffing),進而產生複合成效,促使線上詐騙活動形成產業,協助全球犯罪生態體系運用自動化工具,得以大幅擴充營運規模,遠遠超越原本透過手動操作能達到的程度。
在另一家資安廠商Thales發布的《2025 Imperva Bad Bot Report》,也顯示幾個驚人的統計數據。首先,2024年所有網頁流量當中,自動化流量占比為51%,首次超越人為流量(49%),就全球網際網路流量而言,善意機器人程式(Good Bot)流量占14%、惡意機器人程式(Bad Bot)流量占37%。
他們的報告也指出AI的影響,因為各種生成式AI工具的崛起,固然提供許多好處,也被用於發動網路攻擊,例如,攻擊者經常將惡意機器人程式偽裝成網頁擷取程式,以便迴避偵測,並且繞過網頁擷取程式白名單的安全管制。
綜合這些觀察,對於企業與組織而言,維護自家網站應用系統的安全與穩定供應服務,設法避免受到惡意機器人程式的侵擾仍是重點,我們須持續關注、掌握自動化存取行為的合理範疇,另一方面,對於來自外部AI服務的網頁內容擷取行為,也必須思考應採取何種態度,現在大家還沒找到合適答案。因為管制設限地過於嚴苛,可能失去本身的品牌能見度;若放任不管,形同白白替各種AI作嫁,令所有內容創作者無法接受,需要各界集思廣益,替使用方與供應方解套,建立合理制度。