智源社区 01月27日
DeepSeek-R1持续刷屏,连Open R1都来了!抱抱脸发起,1天狂揽1.9k星
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

HuggingFace发起了Open R1项目,旨在完全复制和开源国产大模型DeepSeek-R1,包括训练数据和训练脚本。该项目旨在通过开源AI的力量,让全球受益于AI进步。项目将分三步走,首先用DeepSeek-R1蒸馏高质量语料库,复制R1-Distill模型;其次复制DeepSeek的纯强化学习pipeline构建R1-Zero;最后通过多阶段训练,从基础模型过渡到RL版本。DeepSeek-R1的多阶段训练流程包括监督微调、强化学习提升推理能力、再次监督微调提升非推理能力,以及强化学习提升可用性和安全性。该项目引起了广泛关注,并引发了关于OpenAI的讨论。

🚀HuggingFace发起Open R1项目,目标是完全复制并开源DeepSeek-R1,包括训练数据和训练脚本,旨在推动AI开源,让全球共享AI进步。

🛠️该项目将分三步走:第一步,用DeepSeek-R1的数据蒸馏小模型,验证其效果;第二步,复制DeepSeek纯强化学习(RL)pipeline,构建R1-Zero;第三步,通过多阶段训练,从基础模型过渡到RL版本,复刻R1模型。

🎯DeepSeek-R1的多阶段训练流程包括:初始阶段利用长思维链(CoT)样本进行监督微调(SFT);接着利用大规模强化学习提升模型的推理能力;然后再次使用监督微调,提升非推理能力;最后通过强化学习提升模型的可用性和安全性。

🔥Open R1项目上线仅一天,在GitHub上获得1.9k标星,显示出DeepSeek-R1在全球大模型圈的影响力,同时引发了人们对OpenAI的讨论,例如奥特曼也开始剧透o3-mini的最新进展。

当初OpenAI抛出Sora大饼,一时间Open Sora项目热火朝天。

现在,这股Open的风也是反向吹起来了,最新目标,正是国产大模型DeepSeek-R1

Open R1项目由HuggingFace发起,联合创始人兼CEO Clem Delangue是这么说的:

我们的科学团队已经开始致力于完全复制和开源R1,包括训练数据、训练脚本……

我们希望能充分发挥开源AI的力量,让全世界每个人都能受益于AI的进步!我相信这也有助于揭穿一些神话。

HuggingFace振臂一呼,立刻欢呼者众。项目上线仅1天,就在GitHub上刷下1.9k标星。

看来这一波,DeepSeek-R1真是给全球大模型圈带来了不小的震撼,并且影响还在持续。

Open R1

不过话说回来,DeepSeek-R1本身就是开源的,HuggingFace搞这么个“Open R1”项目,又是为何?

官方在项目页中做了解释:

这个项目的目的是构建R1 pipeline中确实的部分,一遍所有人都能在此之上复制和构建R1。

HuggingFace表示,将以DeepSeek-R1的技术报告为指导,分3个步骤完成这个项目:

    第1步:用DeepSeek-R1蒸馏高质量语料库,来复制R1-Distill模型。

    第2步:复制DeepSeek用来构建R1-Zero的纯强化学习(RL)pipeline。这可能涉及为数学、推理和代码整理新的大规模数据集。

    第3步:通过多阶段训练,从基础模型过渡到RL版本。

结合DeepSeek的官方技术报告来看,也就是说,Open R1项目首先要实现的,是用R1数据蒸馏小模型,看看效果是不是像DeepSeek说的那么好:

DeepSeek开源了6个用R1蒸馏的小模型,其中蒸馏版Qwen-1.5甚至能在部分任务上超过GPT-4o。

接下来,就是按照DeepSeek所说,不用SFT,纯靠RL调教出R1-Zero,再在R1-Zero的基础上复刻出性能逼近o1的R1模型。

其中多阶段训练是指,R1技术报告提到,DeepSeek-R1训练过程中引入了一个多阶段训练流程,具体包括以下4个阶段:

用数千个长思维链(CoT)样本对基础模型进行监督微调(SFT),为模型提供初始的推理能力

在第一个SFT阶段的基础之上,用和训练R1-Zero相同的大规模强化学习方法,进一步提升模型的推理能力,特别是应对编程、数学、科学和逻辑推理任务的能力。

再次使用监督微调,提升模型的非推理能力,如事实知识、对话能力等。

这次强化学习的重点是让模型行为与人类偏好保持一致,提升模型的可用性和安全性。

目前,在GitHub仓库中,已经可以看到这几个文件:

奥特曼坐不住了

有意思的是,R1刷屏之中,奥特曼也坐不住了。

这不,他又带来了o3-mini的最新剧透:

ChatGPT Plus会员可以每天获得100条o3-mini查询。

Plus会员马上就能用上operator了,我们正在尽力!

下一个智能体Plus会员首发就能用。

这话一出,?的空气中充满了快乐的气息(doge):

哇!DeepSeek正在让OpenAI主动大甩卖诶!


参考链接:
[1]
https://github.com/huggingface/open-r1
[2]https://x.com/ClementDelangue/status/1883154611348910181

量子位智库年终发布三大年度报告

带你一起回顾2024年人工智能智能驾驶Robotaxi新趋势,预见2025年科技行业新机遇

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Open R1 DeepSeek-R1 HuggingFace 开源AI 强化学习
相关文章