DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

当初OpenAI抛出Sora大饼，一时间Open Sora项目热火朝天。

现在，这股Open的风也是反向吹起来了，最新目标，正是国产大模型DeepSeek-R1。

Open R1项目由HuggingFace发起，联合创始人兼CEO Clem Delangue是这么说的：

我们的科学团队已经开始致力于完全复制和开源R1，包括训练数据、训练脚本……
我们希望能充分发挥开源AI的力量，让全世界每个人都能受益于AI的进步！我相信这也有助于揭穿一些神话。

HuggingFace振臂一呼，立刻欢呼者众。项目上线仅1天，就在GitHub上刷下1.9k标星。

看来这一波，DeepSeek-R1真是给全球大模型圈带来了不小的震撼，并且影响还在持续。

Open R1

不过话说回来，DeepSeek-R1本身就是开源的，HuggingFace搞这么个“Open R1”项目，又是为何？

官方在项目页中做了解释：

这个项目的目的是构建R1 pipeline中确实的部分，一遍所有人都能在此之上复制和构建R1。

HuggingFace表示，将以DeepSeek-R1的技术报告为指导，分3个步骤完成这个项目：

第1步：用DeepSeek-R1蒸馏高质量语料库，来复制R1-Distill模型。

第2步：复制DeepSeek用来构建R1-Zero的纯强化学习（RL）pipeline。这可能涉及为数学、推理和代码整理新的大规模数据集。

第3步：通过多阶段训练，从基础模型过渡到RL版本。

结合DeepSeek的官方技术报告来看，也就是说，Open R1项目首先要实现的，是用R1数据蒸馏小模型，看看效果是不是像DeepSeek说的那么好：

DeepSeek开源了6个用R1蒸馏的小模型，其中蒸馏版Qwen-1.5甚至能在部分任务上超过GPT-4o。

接下来，就是按照DeepSeek所说，不用SFT，纯靠RL调教出R1-Zero，再在R1-Zero的基础上复刻出性能逼近o1的R1模型。

其中多阶段训练是指，R1技术报告提到，DeepSeek-R1训练过程中引入了一个多阶段训练流程，具体包括以下4个阶段：

用数千个长思维链（CoT）样本对基础模型进行监督微调（SFT），为模型提供初始的推理能力

在第一个SFT阶段的基础之上，用和训练R1-Zero相同的大规模强化学习方法，进一步提升模型的推理能力，特别是应对编程、数学、科学和逻辑推理任务的能力。

再次使用监督微调，提升模型的非推理能力，如事实知识、对话能力等。

这次强化学习的重点是让模型行为与人类偏好保持一致，提升模型的可用性和安全性。

目前，在GitHub仓库中，已经可以看到这几个文件：

有意思的是，R1刷屏之中，奥特曼也坐不住了。

这不，他又带来了o3-mini的最新剧透：

ChatGPT Plus会员可以每天获得100条o3-mini查询。
Plus会员马上就能用上operator了，我们正在尽力！
下一个智能体Plus会员首发就能用。

这话一出，?的空气中充满了快乐的气息（doge）：

哇！DeepSeek正在让OpenAI主动大甩卖诶！

参考链接：
[1]https://github.com/huggingface/open-r1
[2]https://x.com/ClementDelangue/status/1883154611348910181

— 完 —

量子位智库年终发布三大年度报告！

带你一起回顾2024年人工智能、智能驾驶、Robotaxi新趋势，预见2025年科技行业新机遇！

2024年度AI十大趋势报告

Robotaxi2024年度格局报告

智能驾驶2024年度报告

一键关注 ? 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

内容中包含的图片若涉及版权问题，请及时与我们联系删除