IT之家 02月06日
面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

面壁智能刘知远指出,DeepSeek R1模型的重要价值在于完美复现OpenAI o1的深度推理能力,并通过开源方式详细介绍,为行业做出重要贡献。DeepSeek R1可能是全球首个通过纯粹强化学习技术复现OpenAI o1能力的团队。其训练流程亮点在于通过规则驱动实现大规模强化学习,并通过深度推理SFT数据与通用SFT数据混合微调,实现推理能力的跨任务泛化。DeepSeek R1的成功在于其强化学习技术不仅局限于易于提供奖励信号的领域,还能创造性地将强推理能力泛化到其他领域,并开源让更多人感受到深度思考的震撼。

🚀DeepSeek R1基于DeepSeek V3基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型DeepSeek-R1-Zero,这在历史上是罕见的成功案例。

🔑DeepSeek R1采用基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是其重要贡献之一。

💡DeepSeek R1创造性地将强化学习带来的强推理能力泛化到其他领域,用户在使用DeepSeek R1 进行写作等任务时,能够感受到其强大的深度思考能力。

📚DeepSeek R1通过增强推理过程的可读性,生成了带有深度推理能力的SFT数据,这种数据结合了深度推理能力和传统通用SFT数据,用于微调大模型,并进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型。

2 月 5 日下午消息,近日,面壁智能联合创始人兼首席科学家刘知远在谈及 DeepSeek 近期引发的热潮时指出,“DeepSeek 最近发布 R1 模型的重要价值在于它能够完美复现 OpenAI o1 的深度推理能力,并且他通过开源的方式发布了相对详细的介绍,为行业作出了重要贡献。”

刘知远指出,“因为 OpenAI o1 本身并没有提供关于其实现细节的任何信息,它相当于引爆了一个原子弹,但没有告诉大家秘方,而 DeepSeek 可能是全球首个能通过纯粹的强化学习技术复现 OpenAI o1 能力的团队,并且还把这种能力开源了。”

刘知远总结指出,DeepSeek R1 的整个训练流程有两个非常重要的亮点或价值:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化;这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。

首先,DeepSeek R1 创造性地基于 DeepSeek V3 基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即 DeepSeek-R1-Zero,这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。

其次,DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时,能够感受到其强大的深度思考能力的原因。

“这种泛化能力的实现分为两个阶段:首先,基于 DeepSeek V3 基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的 SFT(Supervised Fine-Tuning)数据,这种数据结合了深度推理能力和传统通用 SFT 数据,用于微调大模型;随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek R1。”刘知远表示。

在他看来,DeepSeek R1 能够取得如此全球性的成功呢,与 OpenAI 在发布 o1 之后选择不开源,同时将 o1 深度思考的过程隐藏起来,并且采用了非常高的收费方式有关。“这使得 o1 无法在全球范围内让尽可能多的人普惠地感受到深度思考所带来的震撼,而 DeepSeek R1 则像 2023 年初 OpenAI 的 ChatGPT 一样,让所有人真正感受到了这种震撼,这是 DeepSeek R1 出圈的非常重要的原因。”

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1 OpenAI o1 强化学习 深度推理 开源
相关文章