夕小瑶科技说 01月26日
DeepSeek-R1点燃全球复现热潮
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-R1模型在X平台引发热潮,其强大的模型能力、低资源消耗和高效的技术路径使其在Arena榜单上名列前茅,成为前十名中唯一的开源模型。香港科技大学和HuggingFace等机构纷纷复现并开源该模型,引发广泛关注。伯克利学者通过强化学习,在3B模型上复现了DeepSeek-R1论文中的“Aha moment”,即模型在解题过程中能够重新评估并优化解题方法。研究表明,基础模型和指令微调模型在强化学习中均有效,且策略优化算法并非关键因素。DeepSeek-R1的卓越性能和低资源开销引发了关于中美科技竞争的讨论,也促使人们反思技术封锁对科技创新的影响。尽管如此,我们仍需保持清醒,继续努力。

🚀DeepSeek-R1模型凭借其卓越的性能和开源特性,在AI领域引发广泛关注,成为众多研究团队竞相复现的目标。其在Arena榜单上的出色表现,以及作为前十名中唯一的开源模型,使其备受瞩目。

💡 伯克利学者通过强化学习在3B模型上成功复现了DeepSeek-R1的“Aha moment”,证明了模型在训练过程中能够自主学习并优化解题策略。实验表明,模型在解决难题时会重新评估初始方法,为难题分配更多思考时间。

🔬研究发现,基础模型和指令微调模型在强化学习中都有效,且策略优化算法并非关键。这表明,模型本身的质量是关键因素,而额外的指令微调并非必要,这与DeepSeek-R1论文中的R1-Zero思想相符。

🌐DeepSeek-R1的出现引发了关于中美科技竞争的讨论,许多人认为中国的科技公司正通过自主创新取得突破。扎克伯格也承认DeepSeek模型的先进性,并强调了美国公司在开源模型领域的竞争地位。

原创 含萧 2025-01-26 19:21 内蒙古

那曾被视作缺陷的阿喀琉斯之踵,却成为了让它振翅高飞的契机。

大家好,我是含萧。

估计很多人都没想到,一周过去了,X 上的 Deepseek-R1 热潮,还是没有消退的迹象。

为什么它能这么火?

模型能力强,资源消耗低,技术路径简单有效……

在 Arena 榜单上,DeepSeek-R1 排在第三名,得分甚至高于 o1!

作为前十榜单里唯一的开源模型,还是来自中国大陆,它的出现本身就会备受瞩目。

许多团队惊讶于其模型能力的强大,纷纷开始尝试复现自己的 R1 模型。

港科大近日宣布完成了 R1 模型的复现和开源。

代码仓库:
https://github.com/hkust-nlp/simpleRL-reason

HuggingFace 则是 CEO 亲自宣布,要开源复现 DeepSeek-R1 模型过程中的所有内容,如今代码仓库已经 2.5k 星!

代码仓库:
https://github.com/huggingface/open-r1

而伯克利学者则在完成复现的同时给出了关于强化学习的具体实践结论。

伯克利:只通过强化学习,3B 的 base 模型自行发展出自我验证与搜索能力。

伯克利学者声称他们让大模型针对 CountDown Game 进行训练,复现了 DeepSeek-R1 论文中提到的“Aha moment”,CountDown Game 指一种使用基础数学运算,将数字排列组合,让结果等于目标数字的游戏。

什么是"Aha moment”?

论文中指出,模型在训练过程中会开始学习重新评估其最开始使用的解题方法,为解决难题分配更多思考时间。

比如,在面对数学方程求解问题时,模型原本按常规步骤解题,但在某一时刻会暂停并重新审视之前步骤,思考是否有更好的解题方式 。

代码仓库:
https://github.com/Jiayi-Pan/TinyZero

在复现的过程中,伯克利学者也给出了以下观点。

大模型本身的质量是最关键的

下图所示,他们运行了参数规模为 0.5B、1.5B、3B 至 7B 的 Qwen2.5 基础模型。

参数量为 0.5B 的模型会只猜测出一个解决方案然后停止回答。但是从 1.5B 参数规模起,模型开始自我验证并修正它们一开始给出的解决方案,这使得它们能够获得比 0.5B 模型高得多的分数。

base 模型和 instruct 模型都有效

伯克利学者对比了 qwen2.5-3B 的 base 模型和其微调后的 instruct 模型,发现:

所以额外的指令微调并非必要,这也印证了 DeepSeek-R1 论文中关于 R1-Zeor 的想法。

具体的策略优化算法似乎没那么重要

这里伯克利学者们尝试了 PPO,GRPO(即 DeepSeek 论文中所提及的算法)以及 PRIME 算法。三种路径均有出现 Long CoT 现象,且这些算法都表现良好。

因此,他们的初步结论是,具体的策略优化算法没有很重要的作用:

网友:人类还是没有意识到 DeepSeek-R1 有多聪明

在许多研发团队抓紧复现的同时,更多人还是在讨论 DeepSeek-R1 本身。

许多人用 R1 去测试他们使用 o1/o1-pro 效果不佳的例子,发现效果还不错!

有人发帖列举了十个 DeepSeek-R1 有多聪明的例子:

比如,它可以以 60token 每秒的速度在手机上流畅运行:

比如,它可以画出 o1-pro 也画不出来的,在正方形里面弹跳的黄色小球:

DeepSeek R1 (右) 和 o1-pro (左)

其他的样例可以在帖子中查看:

https://x.com/minchoi/status/1883188761854669147

扎克伯格:这是地缘政治之争

在最近扎克伯格的访谈中,他提到:

“这是地缘政治之争”

“DeepSeek 有非常先进的模型”

“中国公司非常努力,但我们希望美国公司和美国标准能够胜出”

“如果有一个开源模型会被所有人使用,我们希望它是一个美国公司开源的模型”

DeepSeek 极低的资源开销和极好的性能,使得外网逐渐演变出一种思想:

“美方针对中方的芯片管制,反而让中方科技公司更加独立自主,推动他们取得难以想象的突破”

许多人暗爽于 DeepSeek 给中美带来的追逐者与被追逐者的角色互换,但我们仍然要明白,现在就说中国已经完全领先,仍然为时尚早。

在这场没有终点的 AI 竞赛中,双方的差距正在逐渐缩短,

希望奋起直追的脚步中,也带有你我的身影。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1 开源模型 强化学习 Aha moment 中美科技竞争
相关文章