Cnbeta 前天 00:42
DeepSeek可能使用了Google的Gemini来训练其最新模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek AI实验室的R1推理模型更新引发关注,因其在基准测试中表现出色,但训练数据来源成谜。开发者Sam Paeach指出其模型用词与Google Gemini 2.5 Pro相似,另一匿名开发者也发现其模型轨迹与Gemini类似。DeepSeek曾被指控使用竞争对手数据训练,OpenAI发现其与“数据蒸馏”技术有关,微软亦检测到数据泄露。尽管AI垃圾内容污染训练数据,专家认为DeepSeek使用Gemini数据训练并非不可能。为防止数据提炼,AI公司加强安全措施,Google和Anthropic也采取行动保护竞争优势。

🤔 DeepSeek的R1模型在数学和编码基准测试中表现优异,但其训练数据来源并未公开,引发了外界的猜测和讨论。

🧐 开发者Sam Paeach指出DeepSeek R1-0528模型偏好的词语和表达方式与Google Gemini 2.5 Pro相似,暗示其可能基于Gemini的输出进行训练,但该证据并非确凿。

💡 匿名开发者发现DeepSeek模型的轨迹与Gemini的轨迹相似,进一步加剧了对其数据来源的质疑。此前DeepSeek的V3模型曾被发现将自己标识为ChatGPT,暗示其可能在ChatGPT数据上训练。

🛡️ 为了防止数据提炼,OpenAI、Google和Anthropic等AI公司纷纷采取措施,如加强身份验证、汇总模型生成的轨迹,以保护其竞争优势和数据安全。

⚠️ 尽管AI垃圾内容污染了训练数据集,使得彻底过滤AI输出变得困难,但AI专家认为DeepSeek使用Google Gemini的数据进行训练并非不可能,这也促使AI公司加强安全措施。

上周,中国人工智能实验室 DeepSeek 发布了其 R1 推理 AI 模型的更新版本,该模型在多项数学和编码基准测试中表现优异。该公司并未透露用于训练该模型的数据来源,但一些 AI 研究人员推测,至少有一部分数据来自Google的 Gemini AI 系列。

墨尔本的开发者 Sam Paeach 为人工智能开发了“情商”评估工具,他发表了一篇他声称有证据证明 DeepSeek 的最新模型是基于 Gemini 的输出进行训练的。Paeach 在一篇 X 帖子中表示,DeepSeek 的模型名为 R1-0528,它偏好的词语和表达方式与Google Gemini 2.5 Pro 所青睐的词语和表达方式类似。

这并非确凿的证据。但另一位开发者,一位匿名创建了名为SpeechMap的 AI“言论自由评估”项目的开发者,指出 DeepSeek 模型的轨迹——即模型在得出结论的过程中产生的“想法”——“读起来就像Gemini的轨迹”。

DeepSeek 此前曾被指控使用竞争对手的 AI 模型数据进行训练。去年 12 月,开发人员发现DeepSeek 的 V3 模型经常将自己标识为 OpenAI 的 AI 聊天机器人平台 ChatGPT,这表明它可能是在 ChatGPT 聊天记录上进行训练的。

今年早些时候,OpenAI 向英国《金融时报》透露,其发现证据表明 DeepSeek 与“数据蒸馏”技术有关。“数据蒸馏”是一种通过从更大、更强大的模型中提取数据来训练 AI 模型的技术。据彭博社报道,OpenAI 的密切合作伙伴和投资者微软在 2024 年底发现,大量数据通过 OpenAI 开发者账户被泄露——OpenAI 认为这些账户与 DeepSeek 有关。

提炼并不是一种罕见的做法,但 OpenAI 的服务条款禁止客户使用该公司的模型输出来构建竞争性人工智能。 

需要明确的是,许多模型会错误地识别自身,并趋同于使用相同的词语和措辞。这是因为开放网络(AI 公司获取大量训练数据的地方)正充斥着 AI 垃圾内容。内容农场正在利用 AI 制作点击诱饵,而机器人则充斥在 Reddit 和 X 上,这种“污染”使得  从训练数据集中彻底过滤人工智能输出变得相当困难。

不过,非营利性人工智能研究机构 AI2 的研究员 Nathan Lambert 等人工智能专家并不认为 DeepSeek 使用Google Gemini 的数据进行训练是不可能的。

“如果我是 DeepSeek,我肯定会用市面上最好的 API 模型创建大量合成数据,”Lambert在 X 的一篇文章中写道。“DeepSeek 的 GPU 很紧缺,但资金却很充裕。这对他们来说实际上意味着更多的计算资源。”

为了防止数据提炼,人工智能公司一直在加强安全措施。今年 4 月,OpenAI 开始要求各组织完成身份验证流程,才能访问某些高级模型。该流程要求持有 OpenAI API 支持的国家/地区政府签发的身份证件,但中国不在该名单上。

此外,Google最近开始“汇总”其 AI Studio 开发者平台上模型生成的轨迹,这一举措使得在 Gemini 轨迹上训练高性能竞争对手模型变得更具挑战性。Anthropic 今年 5 月表示,将开始汇总自身模型的轨迹,理由是需要保护其“竞争优势”。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek AI模型 数据来源 Gemini
相关文章