HackerNews 02月10日
Meta 被指使用盗版书籍训练 Llama AI 模型,涉及 81.7 TB 数据
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta公司正面临版权侵权诉讼,被指控使用高达81.7TB的盗版书籍训练其Llama AI模型。诉讼指出,Meta从Z-Library和LibGen等渠道非法下载受版权保护的材料,尽管公司内部已知这些行为的合法性和道德性存在问题。新披露的邮件显示,Meta员工承认使用盗版数据库,甚至有员工认为这种行为违背道德底线。原告方希望重新开启证词,获取Meta的下载日志,并审查Llama 4和5训练数据集,以进一步证实Meta的侵权行为。此案可能对AI开发中使用受版权保护材料的道德和法律标准产生深远影响。

📚Meta被指控从Z-Library和LibGen等来源非法下载受版权保护的材料,用于训练其Llama AI模型,涉及数据量高达81.7TB。

⚠️Meta内部邮件显示,员工对使用盗版材料进行AI训练的合法性和道德性表示担忧,甚至有员工认为这“超出我们的道德底线”。

🔍原告方希望通过重新开启证词、获取Meta的下载日志以及审查Llama 4和5训练数据集等方式,进一步证实Meta的侵权行为。

⚖️原告还指控Meta的律师参与了使用盗版材料的决定,尽管知道这是非法的,这可能需要根据犯罪欺诈例外对特权通信进行庭内审查。

HackerNews 编译,转载请注明出处:

Meta Platforms, Inc. 正面临一起严重的版权侵权诉讼,原告指控这家科技巨头使用了 81.7 TB 的盗版书籍来训练其 Llama AI 模型。

这起诉讼是在美国加利福尼亚州北区联邦地区法院提起的,指控 Meta 从 Z-Library 和 LibGen 等来源非法下载了受版权保护的材料,尽管公司内部对这些行为的合法性和道德性存在担忧。

以作家 Richard Kadrey 为代表的原告团队对一项审前证据开示裁决提出异议,认为该裁决限制了他们收集关键证据的能力。

他们声称,Meta 在 2024 年 12 月 13 日距离事实发现阶段结束仅剩几小时时,披露了 2000 多份文件,这些文件显示员工承认使用盗版材料进行 AI 训练。

据报道,新解封的电子邮件揭示了 Meta 在版权诉讼中面临的最有力证据,这些证据由书籍作者提供,他们声称公司非法使用盗版书籍训练 AI 模型。

在披露的文件中,包括内部通信,承认像 LibGen 这样的数据库是“盗版”的,并表达了对使用这些数据库的道德担忧。

一名员工表示:“我觉得使用盗版材料应该超出我们的道德底线。” 另一份文件显示,Meta 决定使用 LibGen 已经上报到首席执行官马克・扎克伯格。

作者们声称,关于下载盗版内容的内部电子邮件证明 Meta 知道这是非法的。他们指出,员工 Bashlykov 的警告被忽视了。

Meta 没有停止,反而试图掩盖其行为,据称在 2024 年 4 月之前,秘密从暗网图书馆下载并分享了数 TB 的数据。

大规模数据获取

原告指控 Meta 近年来从暗网图书馆下载了至少 81.7 TB 的数据,其中包括通过 Anna’s Archive 从 Z-Library 和 LibGen 获取的 35.7 TB 数据。

这些数据 reportedly 包括数千万受版权保护的作品,用于训练 Llama 模型。这种所谓盗版行为的规模远远超过了许多之前的知识产权盗窃案件。

原告对最近一项证据开示裁决的几个方面提出挑战:

这起案件可能对科技行业产生深远影响,特别是关于在 AI 开发中使用受版权保护材料的道德和法律标准。

如果原告成功,这可能会为追究公司在机器学习模型中使用未经授权内容的责任设定先例。

Meta 尚未对这些最新指控公开回应。法院考虑原告异议的听证会日期尚未安排。

 


消息来源:Cyber Security News, 编译:zhongx; 

本文由 HackerNews.cc 翻译整理,封面来源于网络;  

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meta 版权侵权 Llama AI模型 盗版书籍 AI伦理
相关文章