面壁智能联创谈 DeepSeek 出圈：与 OpenAI o1 不开源有关，R1 模型创造了新的 ChatGPT 时刻

2 月 5 日下午消息，近日，面壁智能联合创始人兼首席科学家刘知远在谈及 DeepSeek 近期引发的热潮时指出，“DeepSeek 最近发布 R1 模型的重要价值在于它能够完美复现 OpenAI o1 的深度推理能力，并且他通过开源的方式发布了相对详细的介绍，为行业作出了重要贡献。”

刘知远指出，“因为 OpenAI o1 本身并没有提供关于其实现细节的任何信息，它相当于引爆了一个原子弹，但没有告诉大家秘方，而 DeepSeek 可能是全球首个能通过纯粹的强化学习技术复现 OpenAI o1 能力的团队，并且还把这种能力开源了。”

刘知远总结指出，DeepSeek R1 的整个训练流程有两个非常重要的亮点或价值：一是通过规则驱动的方法实现了大规模强化学习；二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调，实现了推理能力的跨任务泛化；这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。

首先，DeepSeek R1 创造性地基于 DeepSeek V3 基座模型，通过大规模强化学习技术，得到了一个纯粹通过强化学习增强的强推理模型，即 DeepSeek-R1-Zero，这具有非常重要的价值，因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上，并实现大规模训练。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则（rule-based）的方法，确保强化学习可以规模化，并实现面向强化学习的扩展（Scaling），这是它的第一个贡献。

其次，DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域，还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时，能够感受到其强大的深度思考能力的原因。

“这种泛化能力的实现分为两个阶段：首先，基于 DeepSeek V3 基座模型，通过增强推理过程的可读性，生成了带有深度推理能力的 SFT（Supervised Fine-Tuning）数据，这种数据结合了深度推理能力和传统通用 SFT 数据，用于微调大模型；随后，进一步通过强化学习训练，得到了具有强大泛化能力的强推理模型，即 DeepSeek R1。”刘知远表示。

在他看来，DeepSeek R1 能够取得如此全球性的成功呢，与 OpenAI 在发布 o1 之后选择不开源，同时将 o1 深度思考的过程隐藏起来，并且采用了非常高的收费方式有关。“这使得 o1 无法在全球范围内让尽可能多的人普惠地感受到深度思考所带来的震撼，而 DeepSeek R1 则像 2023 年初 OpenAI 的 ChatGPT 一样，让所有人真正感受到了这种震撼，这是 DeepSeek R1 出圈的非常重要的原因。”

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签