Meta 深陷盗版泥潭，邮件曝光 81.7 TB AI 训练数据黑幕

IT之家 2 月 7 日消息，科技媒体 Ars Technica 今天（2 月 7 日）发布博文，报道称 Meta 公司再次因其 AI 模型训练数据来源，而陷入法律纠纷。

原告披露了一份电子邮件证据，表明 Meta 不仅知晓使用 LibGen 数据库进行 AI 训练涉及盗版行为，而且还试图掩盖其通过种子下载（torrenting）方式，获取至少 81.7 TB 数据的行为，甚至采取了“隐身模式”操作。

IT之家援引博文介绍，Meta 研究员 Frank Zhang 的内部邮件显示，Meta 为防止任何人追踪到下载源，在下载数据集时特意避免使用 Facebook 服务器，并称这种操作为“隐身模式”。

负责项目管理的 Meta 高管迈克尔・克拉克（Michael Clark）在证词中表示，Meta 修改了设置，以尽可能减少种子传播。

作者声称，未经编辑的邮件显示，使用 LibGen 的决定是在“此前上报给 MZ（马克・扎克伯格）”之后做出的，这与扎克伯格此前声称对使用 LibGen 不知情的证词相矛盾。

作者认为，这些新证据与 Meta 之前的证词相矛盾，要求再次传唤涉事员工作证。尽管 Meta 坚称使用 LibGen 进行 AI 训练属于“合理使用”，但新的证据无疑使其处境更加复杂。

Meta 此前曾试图驳回关于其通过种子下载传播版权作品的指控，称原告未能提供任何第三方通过 Meta 的种子下载获得书籍的实例。然而，随着更多关于 Meta 种子下载行为的信息曝光，Meta 的辩护策略似乎面临更大的挑战。

Fish AI Reader