Cnbeta 04月05日 03:32
OpenAI的模型被发现“记住”了受版权保护的内容
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

一项新研究表明,OpenAI的AI模型可能使用了受版权保护的内容进行训练,引发了关于版权侵权和数据透明度的讨论。研究人员开发了一种新方法来识别模型“记忆”的训练数据,发现GPT-4等模型在流行小说和《纽约时报》文章中存在记忆痕迹。这项研究强调了对大型语言模型进行科学探索、审核和检查的必要性,并呼吁提高数据透明度,以构建值得信赖的AI系统。OpenAI则一直主张放宽对使用受版权保护数据开发模型的限制。

🧐研究揭示了OpenAI模型可能“记忆”了训练数据。研究人员开发了一种新方法,通过检测模型预测“高意外”单词的能力来识别模型记忆的训练数据。例如,句子“杰克和我静静地坐着,雷达嗡嗡作响”中,模型能够正确“猜出”被掩盖的“雷达”一词,表明其可能记住了包含该词的训练数据。

📚GPT-4被发现“记忆”了部分小说和《纽约时报》文章的内容。研究结果表明,GPT-4在包含版权电子书样本的数据集BookMIA中,以及《纽约时报》文章中,均存在记忆痕迹。这引发了对模型训练数据来源的担忧,并暗示了可能存在的版权侵权问题。

⚖️研究强调了数据透明度和可信赖AI的重要性。研究人员认为,为了构建值得信赖的大型语言模型,需要提高数据透明度,允许对模型进行科学探索、审核和检查。这促使人们关注OpenAI等公司使用受版权保护数据训练模型的行为,以及由此带来的法律和伦理问题。

🗣️OpenAI长期以来一直主张放宽对使用受版权保护数据开发模型的限制。尽管该公司已经采取了一些措施,例如达成内容许可协议和提供选择退出机制,但仍然在游说政府制定关于人工智能培训方法的“合理使用”规则。这表明OpenAI在版权问题上与版权所有者之间存在立场差异。

一项新的研究似乎证实了 OpenAI 至少使用部分受版权保护的内容来训练其 AI 模型的指控。OpenAI 被卷入了作者、程序员和其他权利持有者提起的诉讼,他们指控该公司未经许可使用他们的作品(书籍、代码库等)来开发其模型。

OpenAI 长期以来一直声称自己享有合理使用辩护,但这些案件的原告辩称,美国版权法中没有针对训练数据的例外规定。

这项研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员共同撰写,提出了一种新方法来识别由 OpenAI 等 API 背后的模型“记忆”的训练数据。

模型是预测引擎。经过大量数据的训练,它们会学习模式 — 这就是它们能够生成文章、照片等内容的方式。大多数输出都不是训练数据的逐字复制,但由于模型“学习”的方式,有些不可避免地是。人们发现图像模型会复述它们训练过的电影的截图,而语言模型则被发现会剽窃新闻文章。

这项研究的方法依赖于合著者称之为“高意外”的单词——即在大量文献中显得不常见的单词。例如,句子“杰克和我静静地坐着,雷达嗡嗡作响”中的“雷达”一词将被视为高意外,因为从统计上讲,它比“引擎”或“收音机”等词出现在“嗡嗡声”之前的可能性更小。

合著者们探究了包括GPT-4和 GPT-3.5 在内的几种 OpenAI 模型,以寻找记忆的迹象。他们从小说和《纽约时报》文章的片段中删除了出乎意料的单词,并让模型尝试“猜测”哪些单词被掩盖了。合著者们总结道,如果模型猜对了,那么它们很可能在训练期间记住了这些片段。


让模型“猜测”一个高意外单词的一个例子。图片来源: OpenAI

根据测试结果,GPT-4 显示出记忆部分流行小说的迹象,包括一个名为 BookMIA 的包含版权电子书样本的数据集中的书籍。结果还表明,该模型记忆了《纽约时报》文章的部分内容,尽管速度相对较低。

华盛顿大学博士生、这项研究的共同作者阿比拉沙·拉维昌德 (Abhilasha Ravichander) 表示,这一发现揭示了模型可能接受过哪些“有争议的数据”训练。

“为了拥有值得信赖的大型语言模型,我们需要拥有可以进行科学探索、审核和检查的模型,”Ravichander 说。“我们的工作旨在提供一种探索大型语言模型的工具,但整个生态系统确实需要更高的数据透明度。”

OpenAI 长期以来一直主张 放宽对使用受版权保护的数据开发模型的限制 。尽管该公司已经达成了某些内容许可协议,并提供了选择退出机制,允许版权所有者标记他们不希望公司用于培训目的的内容,但它已经游说多个政府制定有关人工智能培训方法的“合理使用”规则。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 版权侵权 GPT-4 数据透明度
相关文章