维基媒体基金会：为 AI 训练数据集抓取资源的网络爬虫正带来运营开支压力

IT之家 04月03日 15:27

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

维基媒体基金会近日发文称，用于AI训练的网络爬虫对维基百科及其姊妹项目维基共享资源的运营开支造成压力。自2024年1月以来，维基共享资源的多媒体内容下载带宽增长50%，主要由自动化程序驱动。这导致基金会需要投入更多资源应对非真人流量，尤其是自动爬虫的“遍历式”查询方式增加了核心数据中心的流量成本。基金会呼吁建立负责任的基础设施使用规范，以避免“公地悲剧”。

🤖️ 维基共享资源带宽激增：自2024年1月以来，维基共享资源的多媒体内容下载带宽增长了50%，这主要归因于自动化程序，而非人类用户。

📡 核心数据中心流量压力：自动爬虫的“遍历式”查询方式导致更多流量流向核心数据中心，增加了流量成本。机器人流量占总浏览量的35%，但消耗了65%的核心数据中心流量资源。

🚧 关键系统受影响：自动爬虫甚至访问了维基媒体基金会开发环境的关键系统URL，例如代码审查平台和错误跟踪器。

💡 呼吁可持续基础设施使用：维基媒体基金会强调，虽然其内容免费提供，但基础设施并非免费。他们呼吁建立负责任、可持续的基础设施使用规范，以避免“公地悲剧”。

IT之家 4 月 3 日消息，维基百科运营方维基媒体基金会在当地时间 4 月 1 日的一份博文中表示，为 AI 训练数据集抓取资源的网络爬虫正对这家非营利性组织带来运营开支上的压力。

维基百科的姊妹项目维基共享资源（IT之家注：Wiki Commons）存储着大量可用于 AI 模型训练的多媒体资料集。根据统计数据，自 2024 年 1 月以来从维基共享资源下载多媒体内容的带宽增长了 50%，而这一变化趋势主要由自动化程序而非人类操作导致。

维基媒体基金会此前有能力应对突发事件导致的人类用户的流量激增，但 AI 时代自动爬虫活动的日益频繁正不断侵蚀该组织现有的冗余度，让基金会将大量时间和资源用于响应非真人流量。

维基媒体基金会的数据存储的模式是低使用频率内容仅存放在核心数据中心，而高频请求的数据则将在更邻近的数据中心提供备份。

自动爬虫的“遍历式”查询方式意味着其有更多的流量发送到核心数据中心，这带来了更高的流量成本。根据维基媒体基金会的统计，机器人以 35% 的总体浏览量消耗了 65% 的核心数据中心流量资源。

此外，自动爬虫甚至还去访问了维基媒体基金会开发环境关键系统（如代码审查平台、错误跟踪器）的 URL。

维基媒体基金会表示虽然该组织是非营利的，各项目的内容是免费提供的，但其基础设施却不是免费获得的，应建立一个负责任、可持续的基础设施使用规范，勿重演“公地悲剧”。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签