管理網頁機器人程式的兩難

AI & Big Data 6小时前

管理網頁機器人程式的兩難

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

AI技术飞速发展，为数字内容产业带来新的挑战。ChatGPT等服务的兴起导致新闻网站流量锐减，Google AI摘要功能也减少了用户对原始链接的点击。更严峻的是，AI模型训练过程中存在大量未经授权的内容抓取行为。对此，CloudFlare推出新政策，默认封锁AI爬虫，除非AI業者向创作者支付内容使用授权费用。该公司还测试“按次抓取付费”方案，旨在建立内容付费机制。此外，AI模型间的API调用也引发冲突，如Anthropic封锁OpenAI的Claude模型访问，以及Perplexity被指控规避网站抓取限制。这些事件凸显了企业如何定义和限制其公开内容使用方式的困境。安全报告显示，AI驱动的恶意机器人攻击愈发猖獗，已成为网络安全的重要威胁。面对AI爬虫带来的内容授权和安全挑战，行业亟需建立一个既能保护创作者权益，又能促进行业健康发展的合理制度。

🤖 AI爬虫对数字内容产业构成严峻挑战，导致新闻网站流量下降，并通过未经授权的内容抓取训练AI模型。例如，ChatGPT等服务的普及以及Google AI摘要功能都显著影响了传统内容消费模式，使得原创内容提供商面临流量和收益的双重打击。文章指出，这种行为相当于“被架空”，因为AI服务直接提供了信息摘要，减少了用户访问原始来源的需求。

🔒 CloudFlare为应对AI内容抓取问题，实施了新政策，默认封锁AI爬虫，除非AI公司向内容创作者支付授权费用。此举旨在建立一个公平的补偿机制，确保为AI模型提供训练数据的创作者能够获得合理回报。CloudFlare还推出了名为“Pay per crawl”的计费方案，作为其AI Audit功能的一部分，以期规范AI爬虫的行为并建立付费使用模式。

⚖️ AI模型间的API调用也引发了内容授权和使用范围的争议。Anthropic封锁OpenAI对Claude模型的API访问，理由是OpenAI违反服务条款，仅允许特定评估用途。同时，CloudFlare指控AI初创公司Perplexity使用隐藏的爬虫，规避网站设定的抓取限制，并通过不断修改用户代理和自治系统编号来隐藏其数据抓取活动，这反映了AI服务提供商在数据获取和使用策略上的冲突与博弈。

🛡️ AI技术也加剧了网络安全风险，AI驱动的机器人程序（Bot）被用于自动化和大规模攻击。Akamai和Imperva的报告均指出，恶意机器人已成为网络攻击的主要载体，常用于账号盗窃、信用卡欺诈等，并利用窃取的用户数据执行撞库攻击，形成规模化的线上诈骗产业。此外，生成式AI工具也被攻击者利用，将恶意机器人伪装成网页抓取程序以规避检测和安全管制。

💡 面对AI爬虫带来的挑战，企业和组织需要审慎思考其公开内容的管理和使用方式。过于严苛的限制可能导致品牌可见度下降，而放任不管则可能使内容创作者的劳动成果被免费用于AI训练，这亟需各方集思广益，建立一个平衡使用方和供应方利益的合理制度，以规范AI驱动的自动访问行为，并解决内容授权和数据抓取中的伦理与商业模式问题。

對於數位內容產業而言，AI帶來許多新的挑戰，例如，ChatGPT等線上服務崛起後，新聞網站均面臨瀏覽流量大幅下降的危機，近期登場的Google搜尋引擎提供的AI摘要，也明顯減少使用者點擊搜尋結果列出的網址連結，在Pew Research Center上個月底發布的研究報告當中，已具體呈現這樣的狀況。

除了形同被架空，許多網站現在也面臨更多未經站方同意的內容擷取行為，以前要應付網頁內容擷取程式（Web crawlers），如今又多了AI網頁內容擷取（AI crawlers），目的是訓練AI模型。針對這樣的局面，身兼CDN與雲端服務業者身分的CloudFlare，在7月初實施新政策，他們表示預設將封鎖AI網頁機器人程式，除非AI業者付費給創作者、以便取得內容使用授權，各種數位內容既然支撐AI引擎的運作，創作者也必須直接獲得合理補償，才算公平。

祭出禁令的同時，CloudFlare也企圖建立內容擷取的付費體制，他們宣布名為Pay per crawl的計費支付方案，屬於該公司平臺AI Audit功能的一部分，目前是封閉測試階段。

除了網頁機器人程式擷取網頁內容的爭議，有AI業者以API存取其他AI業者的模型。例如，這幾天就有兩則新聞，突顯相關的衝突正在升溫。

首先是Anthropic針對OpenAI透過API存取Claude模型的行為予以封鎖，理由是這個舉動違反該公司的服務條款，僅允許OpenAI對其執行基準測試和安全評估。

另一個消息是CloudFlare指控AI新創Perplexity，運用隱藏、未宣告的網頁機器人程式，迴避網站發出的禁止擷取指令要求，他們發現Perplexity一開始雖然從他們宣告的使用者代理進行網頁內容擷取，不過，一旦遇到網路阻擋存取時，他們會隱匿擷取程式的身分、試圖規避網站設定，具體行為在於Perplexity持續修改使用者代理、變更自治系統編號（ASNs）來源，進而藏匿網頁擷取活動，並且無視、甚至不存取網站宣告的機器人程式內容存取指引檔案robots.txt。

無論仗義執言或是有其他商業競爭考量，上述狀況反映的共通問題，在於企業與組織該如何看待本身公開在網站的內容，以及能否定義、進而限制適當的使用方式。

而在資安廠商的年度資安報告當中，也可以看到這方面的趨勢。

根據Akamai提出的《State of Apps and API Security 2025》指出，AI技術支持的機器人程式（Bot），可協助攻擊者發動自動化攻擊與大規模攻擊；而且，在零售資安領域，機器人已成為主要的攻擊面向，能被用來執行帳號強佔（account takeover）、信用卡詐騙，以及禮品卡濫用。

他們認為，Bot之所以能夠發動攻擊，主因在於先從遭駭網站偷到個資，之後以此執行帳密填充攻擊（credential stuffing），進而產生複合成效，促使線上詐騙活動形成產業，協助全球犯罪生態體系運用自動化工具，得以大幅擴充營運規模，遠遠超越原本透過手動操作能達到的程度。

在另一家資安廠商Thales發布的《2025 Imperva Bad Bot Report》，也顯示幾個驚人的統計數據。首先，2024年所有網頁流量當中，自動化流量占比為51％，首次超越人為流量(49％)，就全球網際網路流量而言，善意機器人程式（Good Bot）流量占14％、惡意機器人程式（Bad Bot）流量占37％。

他們的報告也指出AI的影響，因為各種生成式AI工具的崛起，固然提供許多好處，也被用於發動網路攻擊，例如，攻擊者經常將惡意機器人程式偽裝成網頁擷取程式，以便迴避偵測，並且繞過網頁擷取程式白名單的安全管制。

綜合這些觀察，對於企業與組織而言，維護自家網站應用系統的安全與穩定供應服務，設法避免受到惡意機器人程式的侵擾仍是重點，我們須持續關注、掌握自動化存取行為的合理範疇，另一方面，對於來自外部AI服務的網頁內容擷取行為，也必須思考應採取何種態度，現在大家還沒找到合適答案。因為管制設限地過於嚴苛，可能失去本身的品牌能見度；若放任不管，形同白白替各種AI作嫁，令所有內容創作者無法接受，需要各界集思廣益，替使用方與供應方解套，建立合理制度。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签