Reddit將封鎖Internet Archive的大部分爬梳

AI & Big Data 10小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

社交新闻平台Reddit本周宣布，将限制非营利组织互联网档案库（Internet Archive）对其平台大部分内容的爬取。此举源于许多人工智能（AI）公司利用互联网档案库的“时光机”（Wayback Machine）功能抓取Reddit上的海量数据来训练AI模型。互联网档案库作为一项重要的网络文化保存服务，其时光机功能定期抓取网站快照。Reddit认为其平台内容具有商业价值，已与Google和OpenAI达成AI相关内容合作协议，并起诉了Anthropic。尽管许多平台已通过robots.txt文件禁止AI爬取，但仍有公司被指控规避政策。Reddit此次限制将导致互联网档案库未来只能爬取和索引Reddit的首页，而无法访问用户个人档案及帖子内容。

🤖 Reddit决定限制互联网档案库（Internet Archive）对其平台大部分内容的爬取，主要原因在于许多AI公司利用互联网档案库的“时光机”（Wayback Machine）功能抓取Reddit上的数据用于AI模型训练。

🌐 互联网档案库是一个致力于保存网络与文化资产的非营利组织，其“时光机”服务通过定期抓取网站快照来存档，使用户能够浏览网页的历史版本，是重要的网络信息保存工具。

💰 Reddit将平台上的内容视为有价值的资产，并已采取商业合作和法律行动来管理AI公司的数据抓取。该公司在2024年2月与Google签署了AI内容合作协议，5月与OpenAI建立了类似关系，并在6月起诉了Anthropic。

🚫 尽管部分内容平台已通过robots.txt文件明确禁止AI爬取，但仍有公司被指控通过创建新网域或隐藏爬虫来规避这些政策，例如Cloudflare控诉Perplexity的行为。

📉 Reddit此次的限制措施将显著影响互联网档案库的功能，未来仅能爬取和索引Reddit的首页，而无法再访问和索引用户个人档案、帖子及回应等具体内容。

The Verge本周報導，社交新聞平臺Reddit即將封鎖網際網路檔案館（Internet Archive）對該平臺的大部分爬梳，原因是許多AI業者都藉由該館的時光機（Wayback Machine）功能來抓取Reddit內容。

成立於1996年的Internet Archive是個非營利組織，使命是保守網路與文化資產，時光機則是該組織最知名的服務之一，它會定期透過網路爬蟲來抓取網站的快照並存檔，使用者只要輸入網址便能瀏覽該網頁過去的版本。

至於對Reddit而言，網站上的內容是有價的，特別是在AI系統大量搜刮網路上的內容來訓練模型之際，它在2024年2月便與Google簽署了與AI有關的內容合作協議，繼之在同年5月與OpenAI建立類似的合作關係，並在同年6月控告擅自抓取資料的Anthropic。

值得注意的是，儘管許多內容平臺都已透過robots.txt文件明文禁止AI新創來爬梳其網站，但內容管理暨雲端服務業者Cloudflare日前控訴Perplexity無視這些政策，依然藉由建立新網域或是隱藏自家爬蟲來爬梳別人家的內容。

根據報導，Reddit並未指名道姓，僅說該公司逮到許多AI公司（AI companies）利用Wayback Machine來取得Reddit內容。

於是，原本可以爬梳Reddit內容的Internet Archive也要被封鎖了，未來僅能爬梳及索引Reddit的首頁，不能再爬梳與索引使用者的個人檔案、所張貼或回應的內容。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签