AI & Big Data 6小时前
管理網頁機器人程式的兩難
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI技术飞速发展,为数字内容产业带来新的挑战。ChatGPT等服务的兴起导致新闻网站流量锐减,Google AI摘要功能也减少了用户对原始链接的点击。更严峻的是,AI模型训练过程中存在大量未经授权的内容抓取行为。对此,CloudFlare推出新政策,默认封锁AI爬虫,除非AI業者向创作者支付内容使用授权费用。该公司还测试“按次抓取付费”方案,旨在建立内容付费机制。此外,AI模型间的API调用也引发冲突,如Anthropic封锁OpenAI的Claude模型访问,以及Perplexity被指控规避网站抓取限制。这些事件凸显了企业如何定义和限制其公开内容使用方式的困境。安全报告显示,AI驱动的恶意机器人攻击愈发猖獗,已成为网络安全的重要威胁。面对AI爬虫带来的内容授权和安全挑战,行业亟需建立一个既能保护创作者权益,又能促进行业健康发展的合理制度。

🤖 AI爬虫对数字内容产业构成严峻挑战,导致新闻网站流量下降,并通过未经授权的内容抓取训练AI模型。例如,ChatGPT等服务的普及以及Google AI摘要功能都显著影响了传统内容消费模式,使得原创内容提供商面临流量和收益的双重打击。文章指出,这种行为相当于“被架空”,因为AI服务直接提供了信息摘要,减少了用户访问原始来源的需求。

🔒 CloudFlare为应对AI内容抓取问题,实施了新政策,默认封锁AI爬虫,除非AI公司向内容创作者支付授权费用。此举旨在建立一个公平的补偿机制,确保为AI模型提供训练数据的创作者能够获得合理回报。CloudFlare还推出了名为“Pay per crawl”的计费方案,作为其AI Audit功能的一部分,以期规范AI爬虫的行为并建立付费使用模式。

⚖️ AI模型间的API调用也引发了内容授权和使用范围的争议。Anthropic封锁OpenAI对Claude模型的API访问,理由是OpenAI违反服务条款,仅允许特定评估用途。同时,CloudFlare指控AI初创公司Perplexity使用隐藏的爬虫,规避网站设定的抓取限制,并通过不断修改用户代理和自治系统编号来隐藏其数据抓取活动,这反映了AI服务提供商在数据获取和使用策略上的冲突与博弈。

🛡️ AI技术也加剧了网络安全风险,AI驱动的机器人程序(Bot)被用于自动化和大规模攻击。Akamai和Imperva的报告均指出,恶意机器人已成为网络攻击的主要载体,常用于账号盗窃、信用卡欺诈等,并利用窃取的用户数据执行撞库攻击,形成规模化的线上诈骗产业。此外,生成式AI工具也被攻击者利用,将恶意机器人伪装成网页抓取程序以规避检测和安全管制。

💡 面对AI爬虫带来的挑战,企业和组织需要审慎思考其公开内容的管理和使用方式。过于严苛的限制可能导致品牌可见度下降,而放任不管则可能使内容创作者的劳动成果被免费用于AI训练,这亟需各方集思广益,建立一个平衡使用方和供应方利益的合理制度,以规范AI驱动的自动访问行为,并解决内容授权和数据抓取中的伦理与商业模式问题。

對於數位內容產業而言,AI帶來許多新的挑戰,例如,ChatGPT等線上服務崛起後,新聞網站均面臨瀏覽流量大幅下降的危機,近期登場的Google搜尋引擎提供的AI摘要,也明顯減少使用者點擊搜尋結果列出的網址連結,在Pew Research Center上個月底發布的研究報告當中,已具體呈現這樣的狀況。

除了形同被架空,許多網站現在也面臨更多未經站方同意的內容擷取行為,以前要應付網頁內容擷取程式(Web crawlers),如今又多了AI網頁內容擷取(AI crawlers),目的是訓練AI模型。針對這樣的局面,身兼CDN與雲端服務業者身分的CloudFlare,在7月初實施新政策,他們表示預設將封鎖AI網頁機器人程式,除非AI業者付費給創作者、以便取得內容使用授權,各種數位內容既然支撐AI引擎的運作,創作者也必須直接獲得合理補償,才算公平。

祭出禁令的同時,CloudFlare也企圖建立內容擷取的付費體制,他們宣布名為Pay per crawl的計費支付方案,屬於該公司平臺AI Audit功能的一部分,目前是封閉測試階段。

除了網頁機器人程式擷取網頁內容的爭議,有AI業者以API存取其他AI業者的模型。例如,這幾天就有兩則新聞,突顯相關的衝突正在升溫。

首先是Anthropic針對OpenAI透過API存取Claude模型的行為予以封鎖,理由是這個舉動違反該公司的服務條款,僅允許OpenAI對其執行基準測試和安全評估。

另一個消息是CloudFlare指控AI新創Perplexity,運用隱藏、未宣告的網頁機器人程式,迴避網站發出的禁止擷取指令要求,他們發現Perplexity一開始雖然從他們宣告的使用者代理進行網頁內容擷取,不過,一旦遇到網路阻擋存取時,他們會隱匿擷取程式的身分、試圖規避網站設定,具體行為在於Perplexity持續修改使用者代理、變更自治系統編號(ASNs)來源,進而藏匿網頁擷取活動,並且無視、甚至不存取網站宣告的機器人程式內容存取指引檔案robots.txt。

無論仗義執言或是有其他商業競爭考量,上述狀況反映的共通問題,在於企業與組織該如何看待本身公開在網站的內容,以及能否定義、進而限制適當的使用方式。

而在資安廠商的年度資安報告當中,也可以看到這方面的趨勢。

根據Akamai提出的《State of Apps and API Security 2025》指出,AI技術支持的機器人程式(Bot),可協助攻擊者發動自動化攻擊與大規模攻擊;而且,在零售資安領域,機器人已成為主要的攻擊面向,能被用來執行帳號強佔(account takeover)、信用卡詐騙,以及禮品卡濫用。

他們認為,Bot之所以能夠發動攻擊,主因在於先從遭駭網站偷到個資,之後以此執行帳密填充攻擊(credential stuffing),進而產生複合成效,促使線上詐騙活動形成產業,協助全球犯罪生態體系運用自動化工具,得以大幅擴充營運規模,遠遠超越原本透過手動操作能達到的程度。

在另一家資安廠商Thales發布的《2025 Imperva Bad Bot Report》,也顯示幾個驚人的統計數據。首先,2024年所有網頁流量當中,自動化流量占比為51%,首次超越人為流量(49%),就全球網際網路流量而言,善意機器人程式(Good Bot)流量占14%、惡意機器人程式(Bad Bot)流量占37%。

他們的報告也指出AI的影響,因為各種生成式AI工具的崛起,固然提供許多好處,也被用於發動網路攻擊,例如,攻擊者經常將惡意機器人程式偽裝成網頁擷取程式,以便迴避偵測,並且繞過網頁擷取程式白名單的安全管制。

綜合這些觀察,對於企業與組織而言,維護自家網站應用系統的安全與穩定供應服務,設法避免受到惡意機器人程式的侵擾仍是重點,我們須持續關注、掌握自動化存取行為的合理範疇,另一方面,對於來自外部AI服務的網頁內容擷取行為,也必須思考應採取何種態度,現在大家還沒找到合適答案。因為管制設限地過於嚴苛,可能失去本身的品牌能見度;若放任不管,形同白白替各種AI作嫁,令所有內容創作者無法接受,需要各界集思廣益,替使用方與供應方解套,建立合理制度。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI爬虫 内容授权 知识产权 网络安全 数据抓取
相关文章