Meta 被指使用盗版书籍训练 Llama AI 模型，涉及 81.7 TB 数据

HackerNews 编译，转载请注明出处：

Meta Platforms, Inc. 正面临一起严重的版权侵权诉讼，原告指控这家科技巨头使用了 81.7 TB 的盗版书籍来训练其 Llama AI 模型。

这起诉讼是在美国加利福尼亚州北区联邦地区法院提起的，指控 Meta 从 Z-Library 和 LibGen 等来源非法下载了受版权保护的材料，尽管公司内部对这些行为的合法性和道德性存在担忧。

以作家 Richard Kadrey 为代表的原告团队对一项审前证据开示裁决提出异议，认为该裁决限制了他们收集关键证据的能力。

他们声称，Meta 在 2024 年 12 月 13 日距离事实发现阶段结束仅剩几小时时，披露了 2000 多份文件，这些文件显示员工承认使用盗版材料进行 AI 训练。

据报道，新解封的电子邮件揭示了 Meta 在版权诉讼中面临的最有力证据，这些证据由书籍作者提供，他们声称公司非法使用盗版书籍训练 AI 模型。

在披露的文件中，包括内部通信，承认像 LibGen 这样的数据库是“盗版”的，并表达了对使用这些数据库的道德担忧。

一名员工表示：“我觉得使用盗版材料应该超出我们的道德底线。” 另一份文件显示，Meta 决定使用 LibGen 已经上报到首席执行官马克・扎克伯格。

作者们声称，关于下载盗版内容的内部电子邮件证明 Meta 知道这是非法的。他们指出，员工 Bashlykov 的警告被忽视了。

Meta 没有停止，反而试图掩盖其行为，据称在 2024 年 4 月之前，秘密从暗网图书馆下载并分享了数 TB 的数据。

大规模数据获取

原告指控 Meta 近年来从暗网图书馆下载了至少 81.7 TB 的数据，其中包括通过 Anna’s Archive 从 Z-Library 和 LibGen 获取的 35.7 TB 数据。

这些数据 reportedly 包括数千万受版权保护的作品，用于训练 Llama 模型。这种所谓盗版行为的规模远远超过了许多之前的知识产权盗窃案件。

原告对最近一项证据开示裁决的几个方面提出挑战：

重新开启证词

下载数据

Llama 4 和 5 训练数据集

犯罪欺诈例外

这起案件可能对科技行业产生深远影响，特别是关于在 AI 开发中使用受版权保护材料的道德和法律标准。

如果原告成功，这可能会为追究公司在机器学习模型中使用未经授权内容的责任设定先例。

Meta 尚未对这些最新指控公开回应。法院考虑原告异议的听证会日期尚未安排。

消息来源：Cyber Security News, 编译：zhongx；

本文由 HackerNews.cc 翻译整理，封面来源于网络；

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader