赛博禅心 2024年12月31日
“训练数据抄袭”:DeepSeek 动了谁的奶酪?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了DeepSeek V3可能存在训练数据污染的问题,导致出现‘幻觉’,还提到行业中AI内容版权确定和使用的难题,以及‘Created by Humans’项目的尝试和意义,最后指出AI对‘语料’使用的现状及相关问题。

😮DeepSeek V3可能存在训练数据污染,产生‘幻觉’

🤔AI内容版权确定和使用存在难题,传统创作者利益受影响

🎉‘Created by Humans’项目尝试解决版权问题,意义重要

😕AI对‘语料’使用无人监管,相关问题待解决

原创 金色传说大聪明 2024-12-30 18:50 广东

最好、最新的内容,总来自赛博禅心

在上一篇的评论区里,大家发生了争吵:

DeepSeek-V3 是怎么训练的|深度拆解

有的读者指出:DeepSeek V3 有“训练数据抄袭”的问题


证据呢?这模型有时候会产生奇怪的幻觉,比如自称“GPT-4”,甚至连所讲的笑话都与 GPT-4 高度雷同。上网冲浪了会儿,发现这事儿的讨论还不小。 

 

于是,就有了这篇:我会从技术和伦理的角度,来谈谈这个事儿。 




大模型的“奇怪幻觉”

从技术角度来说,这种“幻觉”现象,很可能是训练数据受到了污染。 

大型语言模型 (LLM) 的训练过程,本质上是对海量文本数据(即“语料”)进行学习和模仿。这些语料通常来源于互联网的公开信息,涵盖新闻、文章、博客、论坛等各种文本。模型通过学习这些语料中的语言模式、逻辑结构和知识信息,进而获得生成类似文本的能力。 


中学生能看懂:10 分钟理解大模型

 

然而,如果在训练数据中混入了大量来自某个特定模型(例如 GPT-4)的输出内容,新模型就可能学习到该模型的“说话方式”甚至“思维模式”,从而在特定情况下表现出与该模型类似的特征,产生所谓的“幻觉”。


DeepSeek V3 很可能就遭遇了这种情况。互联网上充斥着大量由 GPT-4 生成的文本内容,这些内容或许在无意间被当作“语料”收录进了 DeepSeek V3 的训练数据中,最终导致其出现“幻觉”。其实 DeepSeek 并非个例,Google 的 Gemini 此前也曾出现过类似问题,会称自己是“问心一言”。(当然,可能还有其他原因)



但我的重点不是这个,而是由训练语料,引来的一个行业问题:未来如何更好地对AI内容进行版权确定和使用。毕竟,现有的版权法难以完全适用于AI生成的内容,其“独创性”在法律上仍存争议,传统内容创造者的利益也会受到影响:《纽约时报》起诉OpenAI和微软等诉讼反映了这种焦虑。


别的不知道,但在这个过程中,我这样无良自媒体的“奶酪”,肯定会无声消融。



 

“Created by Humans”

Scribd 联合创始人 Trip Adler 的新项目“Created by Humans”做了一个尝试:这是一个欧美版的「视觉中国」,让创作者把内容的版权卖给各 AI 公司。方法类似当年 Spotify 解决音乐盗版问题的思路:通过构建新的商业模式来平衡各方利益。


当然,“Created by Humans”能否取得成功,还有待时间的检验。以及,该平台目前主要针对的是图书版权,而 AI 模型的训练数据还包括图片、音频、视频等多种类型的内容。如何将这个模式扩展到其他类型的内容,也是一个需要解决的问题。


尽管如此,“Created by Humans”的出现仍然具有重要的意义。它为我们提供了一种可能:让大家公平交易食物,而不是争夺口粮。




规则与奶酪

目前来说,AI 对“语料”的使用,正处于无人监管的“旷野”;而内容作者也缺乏话语权和议价能力,只能眼看着自己的“奶酪”被蚕食。


能头疼的是,对于 AI 版权,我们压根就没形成基本共识。AI 的“学习”与人类的“借鉴”之间的边界在哪里?“语料”的所有权和使用权该如何界定?AI 生成内容的版权又该归属于谁? 


在这场不对称的较量中,创作者岌岌可危:博弈,才刚刚开始。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek V3 AI版权 Created by Humans 训练数据
相关文章