AI & Big Data 10小时前
Reddit將封鎖Internet Archive的大部分爬梳
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

社交新闻平台Reddit本周宣布,将限制非营利组织互联网档案库(Internet Archive)对其平台大部分内容的爬取。此举源于许多人工智能(AI)公司利用互联网档案库的“时光机”(Wayback Machine)功能抓取Reddit上的海量数据来训练AI模型。互联网档案库作为一项重要的网络文化保存服务,其时光机功能定期抓取网站快照。Reddit认为其平台内容具有商业价值,已与Google和OpenAI达成AI相关内容合作协议,并起诉了Anthropic。尽管许多平台已通过robots.txt文件禁止AI爬取,但仍有公司被指控规避政策。Reddit此次限制将导致互联网档案库未来只能爬取和索引Reddit的首页,而无法访问用户个人档案及帖子内容。

🤖 Reddit决定限制互联网档案库(Internet Archive)对其平台大部分内容的爬取,主要原因在于许多AI公司利用互联网档案库的“时光机”(Wayback Machine)功能抓取Reddit上的数据用于AI模型训练。

🌐 互联网档案库是一个致力于保存网络与文化资产的非营利组织,其“时光机”服务通过定期抓取网站快照来存档,使用户能够浏览网页的历史版本,是重要的网络信息保存工具。

💰 Reddit将平台上的内容视为有价值的资产,并已采取商业合作和法律行动来管理AI公司的数据抓取。该公司在2024年2月与Google签署了AI内容合作协议,5月与OpenAI建立了类似关系,并在6月起诉了Anthropic。

🚫 尽管部分内容平台已通过robots.txt文件明确禁止AI爬取,但仍有公司被指控通过创建新网域或隐藏爬虫来规避这些政策,例如Cloudflare控诉Perplexity的行为。

📉 Reddit此次的限制措施将显著影响互联网档案库的功能,未来仅能爬取和索引Reddit的首页,而无法再访问和索引用户个人档案、帖子及回应等具体内容。

The Verge本周報導,社交新聞平臺Reddit即將封鎖網際網路檔案館(Internet Archive)對該平臺的大部分爬梳,原因是許多AI業者都藉由該館的時光機(Wayback Machine)功能來抓取Reddit內容。

成立於1996年的Internet Archive是個非營利組織,使命是保守網路與文化資產,時光機則是該組織最知名的服務之一,它會定期透過網路爬蟲來抓取網站的快照並存檔,使用者只要輸入網址便能瀏覽該網頁過去的版本。

至於對Reddit而言,網站上的內容是有價的,特別是在AI系統大量搜刮網路上的內容來訓練模型之際,它在2024年2月便與Google簽署了與AI有關的內容合作協議,繼之在同年5月與OpenAI建立類似的合作關係,並在同年6月控告擅自抓取資料的Anthropic

值得注意的是,儘管許多內容平臺都已透過robots.txt文件明文禁止AI新創來爬梳其網站,但內容管理暨雲端服務業者Cloudflare日前控訴Perplexity無視這些政策,依然藉由建立新網域或是隱藏自家爬蟲來爬梳別人家的內容。

根據報導,Reddit並未指名道姓,僅說該公司逮到許多AI公司(AI companies)利用Wayback Machine來取得Reddit內容。

於是,原本可以爬梳Reddit內容的Internet Archive也要被封鎖了,未來僅能爬梳及索引Reddit的首頁,不能再爬梳與索引使用者的個人檔案、所張貼或回應的內容。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Reddit 互联网档案库 AI数据抓取 Wayback Machine 内容管理
相关文章