新智元 16小时前
Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了人工智能(AI)爬虫对学术网站的冲击。这些爬虫大量抓取数据,导致网站服务器不堪重负,影响正常用户访问,并威胁开放获取的科研资源。从DiscoverLife到BMJ,许多学术网站都遭受了异常访问的困扰。文章分析了“数字蝗灾”的原因,即AI工具对高质量数据的需求,以及学术网站作为数据“金矿”的价值。文章还介绍了学术界应对爬虫问题所面临的挑战,如区分善意和恶意爬虫的难度,以及制定相关协议的必要性,以保护学术资源的可持续发展。

🐞AI爬虫的激增对学术网站造成了严重影响,导致服务器超载、页面加载缓慢甚至瘫痪。例如,DiscoverLife网站每天遭受数百万次异常访问,影响了生物学家的研究。

💰学术网站成为AI爬虫的目标,因为它们拥有权威、新鲜且结构化的数据,对LLM和图像生成器等AI工具的训练至关重要。这些网站上的内容被视为数据“金矿”。

🛡️学术界正在努力应对爬虫问题,但面临诸多挑战,如区分善意和恶意爬虫的难度,以及防止误伤合法用户。许多网站尝试屏蔽爬虫,但效果有限。


  新智元报道  

编辑:犀牛
【新智元导读】学术网站本是知识的宝库,却因AI爬虫的疯狂掠夺而陷入瘫痪。从DiscoverLife到BMJ,数百万次异常访问让服务器不堪重负,威胁着开放获取的科研命脉。这场「数字蝗灾」究竟因何而起?学术界又该如何应对?

假如一个平日里宁静的图书馆,突然涌入一大群不速之客,他们不阅览、不沉思,只是一味地疯狂复印每一本书的每一页。

这喧嚣吵闹的场面,怎能不打扰那些正埋首书海、专心阅读的人们呢?

如今,学术网站正遭遇类似的「数字入侵」。

就在近日,Nature发表文章详细揭露了这些行为。

文章地址:https://www.nature.com/articles/d41586-025-01661-4


数字「蝗灾」席卷学术界DiscoverLife是一个在线图像库,拥有近300万张珍贵的物种照片,是很多生物学家的科研生命线。

然而,从今年2月开始,该网站每天都被数百万次异常访问淹没,页面加载缓慢,甚至彻底瘫痪。

当你试图打开一张稀有昆虫的图片时,却只能面对「服务器繁忙」的提示。

罪魁祸首是谁?

不是黑客,也不是病毒,而是一群悄无声息的AI爬虫,正在疯狂「啃食」数据,为生成式人工智能「喂食」。

这些大量抓取数据的爬虫,正困扰学术出版商与研究人员,尤其是运营期刊论文、数据库和其他资源网站的人。

「现在的情况就像是西部大荒野,」PSI公司的首席执行官Andrew Pitts说。该公司为学术交流界提供经过验证的全球IP地址库,位于英国牛津。

「最大的问题是访问量实在是太大了,给系统带来了巨大的压力。这不仅耗费资金,还干扰了真正的用户。」

那些运营受到影响的网站正在想方设法阻止这些爬虫机器人,减少他们造成的干扰。

但这绝非易事。特别是对资源有限的小机构来说。

「如果这些问题得不到解决,一些小型机构可能会彻底消失。」德国斯图加特国家自然历史博物馆的动物学家Michael Orr表示。


爬虫程序泛滥互联网爬虫并非新生事物。

几十年来,谷歌等搜索引擎的爬虫一直在扫描网页,助力信息检索。

然而,生成式AI的崛起引发了「坏爬虫」的洪流。

今年,位于伦敦的医学期刊出版商BMJ发现,其网站上的爬虫机器人流量已经超过了真实用户的流量。

BMJ的首席技术官Ian Mulvany表示,这些机器人激进的行为导致服务器超载,正常客户的服务也因此中断。

不只BMJ,Highwire Press(专攻学术出版的互联网托管服务提供商)的服务交付总监Jes Kainth直言:「我们观察到坏爬虫的流量激增,这已成为严重的问题。」

开放获取知识库联合会(COAR)在四月份的报告中指出,在其调查的66个成员中,超过90%的成员表示曾遭遇AI爬虫抓取内容。

其中大约三分之二的成员因此经历了服务中断。

COAR执行主任Kathleen Shearer表示:「我们的知识库是开放获取的,所以某种程度上我们欢迎内容被再利用。但有些爬虫过于激进,正造成宕机等严重运营问题。」


为何盯上学术网站?数据是新石油。

这句话在AI时代被演绎得淋漓尽致。

LLM、图像生成器这些AI工具依赖海量高质量数据进行训练,而学术网站(期刊论文、数据库、开放知识库)成了「金矿」。

因为这些网站内容权威、新鲜,且往往结构化良好。

正如网络服务提供商Cloudflare副总裁Will Allen所言:「如果你的内容新颖或相关度高,对构建AI聊天机器人的开发者来说就是无价之宝。」

这些爬虫往往通过匿名IP地址行动,绕过付费墙,甚至无视网站设置的robots.txt文件(用于规范爬虫行为)。

Wiley出版社的高级副总裁Josh Jarrett表示,他们发现爬虫试图获取订阅内容。4月,Wiley还发布声明,强调未经授权的非法爬取不可接受。

但精明的坏爬虫非常擅长绕过付费墙。


危机下的挣扎面对爬虫洪流,学术网站在奋力自救。

但在许多情况下,限制机器人访问而不影响正常用户十分的困难。

一种常见的方法是集成一个文件,告知机器人哪些行为被允许或禁止。

但坏爬虫往往无视规则。

另一种方法是全面封禁所有爬虫类似的行为,但这种一刀切的行为又可能误伤合法用户。

Mulvany解释说,学者常通过代理服务器访问期刊(这意味着大量请求可能来自同一个IP地址),这种访问方式很像是机器人行为。

「我们得找到一个平衡点,既要保护网站不被流量激增搞崩,又不能影响用户正常访问这些资源。」Mulvany表示。

「这事真挺烦人的,得花不少精力来减少这些风险。」

这些网站也可以屏蔽掉特定的爬虫程序,但需要首先区分善意和恶意爬虫。

Cloudflare和PSI公司正努力识别坏爬虫,但新型AI爬虫层出不穷,难以完全遏制。

「我们急需国际上达成关于AI公平使用和尊重这类资源的协议。」Orr表示。

「否则,长远来看,这些工具将找不到可用的训练资源。」

参考资料:
https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/




文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI爬虫 学术网站 数据抓取 人工智能
相关文章