Cnbeta 04月03日 00:04
人工智能爬虫导致维基共享资源带宽需求激增 50%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

维基媒体基金会报告称,自2024年初以来,维基共享资源的多媒体下载带宽消耗激增50%。这并非源于人类需求的增长,而是由于AI模型训练所需的自动化数据抓取。文章深入探讨了机器人流量对基础设施的压力、成本增加,以及对普通用户访问的影响。同时,也提到了开源社区和科技公司正在采取的应对措施,例如阻止爬虫程序和减缓爬虫速度。文章警示了这种趋势对开放互联网的潜在威胁,以及可能导致的内容付费化趋势。

🤖 维基共享资源的带宽消耗自2024年1月以来激增了50%,主要原因是用于训练AI模型的自动化数据抓取工具。

💰 维基百科指出,来自机器人的流量中,近三分之二(65%)消耗了最多的资源,而这部分流量的页面浏览量仅占总体的35%。这导致了更高的运营成本。

🌐 机器人抓取行为与人类用户不同,它们倾向于“批量阅读”大量页面,包括不太受欢迎的页面,这增加了对核心数据中心的请求,从而提高了资源消耗。

🛡️ 为了应对这一挑战,维基媒体基金会投入大量资源阻止爬虫程序,以避免对普通用户造成干扰,同时开源社区和科技公司也在积极寻找解决方案,如Cloudflare推出的AI Labyrinth。

维基媒体基金会是维基百科和十几个其他众包知识项目的管理组织,该基金会周三表示,自 2024 年 1 月以来,从维基共享资源下载多媒体的带宽消耗激增了 50%。

该公司在周二的一篇博客文章中写道,其原因并非源于渴求知识的人类需求不断增长,而是源于想要训练人工智能模型的自动化、数据饥渴的抓取工具。

帖子写道:“我们的基础设施是为了在高关注度事件期间承受来自人类的突然流量激增而建立的,但爬虫机器人产生的流量是前所未有的,并且带来了越来越大的风险和成本。”

维基共享资源是一个可自由访问的图像、视频和音频文件存储库,这些文件可在开放许可下使用或属于公共领域。

深入研究后,维基百科表示,最“昂贵”的流量(即就所消费内容类型而言资源最密集的流量)中,近三分之二(65%)来自机器人。然而,只有 35% 的整体页面浏览量来自这些机器人。根据维基百科的说法,造成这种差异的原因是,经常访问的内容在其缓存中更靠近用户,而其他不经常访问的内容则存储在更远的“核心数据中心”,从那里提供内容的成本更高。这是机器人通常会寻找的内容类型。

“虽然人类读者倾向于关注特定的(通常是相似的)主题,但爬虫机器人倾向于‘批量阅读’大量页面并访问不太受欢迎的页面,”维基百科写道。“这意味着这些类型的请求更有可能被转发到核心数据中心,这使得我们的资源消耗更加昂贵。”

总而言之,维基媒体基金会的网站可靠性团队不得不花费大量时间和资源来阻止爬虫程序,以避免对普通用户造成干扰。而这一切都是在考虑基金会面临的云成本之前。

事实上,这代表了一种快速增长的趋势的一部分,这种趋势正在威胁开放互联网的存在。上个月,软件工程师兼开源倡导者Drew DeVault 抱怨人工智能爬虫忽略了旨在抵御自动流量的“robots.txt”文件。而“务实工程师”Gergely Orosz上周也抱怨说,来自 Meta 等公司的人工智能爬虫增加了他自己项目的带宽需求。

尽管开源基础设施尤其处于风口浪尖,但开发人员正在以“智慧和报复”进行反击。一些科技公司也在尽自己的努力解决这个问题——例如,Cloudflare 最近推出了 AI Labyrinth,它使用人工智能生成的内容来减慢爬虫的速度。

然而,这更像是一场猫捉老鼠的游戏,最终可能迫使许多出版商躲在登录和付费墙的后面——这对当今使用网络的每个人都是有害的

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

维基百科 AI爬虫 带宽消耗 开放互联网 人工智能
相关文章