原创 含萧 2025-01-26 19:21 内蒙古
那曾被视作缺陷的阿喀琉斯之踵,却成为了让它振翅高飞的契机。
大家好,我是含萧。
估计很多人都没想到,一周过去了,X 上的 Deepseek-R1 热潮,还是没有消退的迹象。
为什么它能这么火?
模型能力强,资源消耗低,技术路径简单有效……
在 Arena 榜单上,DeepSeek-R1 排在第三名,得分甚至高于 o1!
作为前十榜单里唯一的开源模型,还是来自中国大陆,它的出现本身就会备受瞩目。
许多团队惊讶于其模型能力的强大,纷纷开始尝试复现自己的 R1 模型。
港科大近日宣布完成了 R1 模型的复现和开源。
HuggingFace 则是 CEO 亲自宣布,要开源复现 DeepSeek-R1 模型过程中的所有内容,如今代码仓库已经 2.5k 星!
而伯克利学者则在完成复现的同时给出了关于强化学习的具体实践结论。
伯克利:只通过强化学习,3B 的 base 模型自行发展出自我验证与搜索能力。
伯克利学者声称他们让大模型针对 CountDown Game 进行训练,复现了 DeepSeek-R1 论文中提到的“Aha moment”,CountDown Game 指一种使用基础数学运算,将数字排列组合,让结果等于目标数字的游戏。
什么是"Aha moment”?
论文中指出,模型在训练过程中会开始学习重新评估其最开始使用的解题方法,为解决难题分配更多思考时间。
比如,在面对数学方程求解问题时,模型原本按常规步骤解题,但在某一时刻会暂停并重新审视之前步骤,思考是否有更好的解题方式 。
在复现的过程中,伯克利学者也给出了以下观点。
大模型本身的质量是最关键的
下图所示,他们运行了参数规模为 0.5B、1.5B、3B 至 7B 的 Qwen2.5 基础模型。
参数量为 0.5B 的模型会只猜测出一个解决方案然后停止回答。但是从 1.5B 参数规模起,模型开始自我验证并修正它们一开始给出的解决方案,这使得它们能够获得比 0.5B 模型高得多的分数。
base 模型和 instruct 模型都有效
伯克利学者对比了 qwen2.5-3B 的 base 模型和其微调后的 instruct 模型,发现:
经过指令微调的模型再进行强化学习时,学习速度更快,但最终收敛的性能与基础 base 模型大致相同。
经过指令微调的模型输出的结果会更有条理且有更强的可读性。
所以额外的指令微调并非必要,这也印证了 DeepSeek-R1 论文中关于 R1-Zeor 的想法。
具体的策略优化算法似乎没那么重要
这里伯克利学者们尝试了 PPO,GRPO(即 DeepSeek 论文中所提及的算法)以及 PRIME 算法。三种路径均有出现 Long CoT 现象,且这些算法都表现良好。
因此,他们的初步结论是,具体的策略优化算法没有很重要的作用:
网友:人类还是没有意识到 DeepSeek-R1 有多聪明
在许多研发团队抓紧复现的同时,更多人还是在讨论 DeepSeek-R1 本身。
许多人用 R1 去测试他们使用 o1/o1-pro 效果不佳的例子,发现效果还不错!
有人发帖列举了十个 DeepSeek-R1 有多聪明的例子:
比如,它可以以 60token 每秒的速度在手机上流畅运行:
比如,它可以画出 o1-pro 也画不出来的,在正方形里面弹跳的黄色小球:
DeepSeek R1 (右) 和 o1-pro (左)
其他的样例可以在帖子中查看:
扎克伯格:这是地缘政治之争
在最近扎克伯格的访谈中,他提到:
“这是地缘政治之争”
“DeepSeek 有非常先进的模型”
“中国公司非常努力,但我们希望美国公司和美国标准能够胜出”
“如果有一个开源模型会被所有人使用,我们希望它是一个美国公司开源的模型”
DeepSeek 极低的资源开销和极好的性能,使得外网逐渐演变出一种思想:
“美方针对中方的芯片管制,反而让中方科技公司更加独立自主,推动他们取得难以想象的突破”
许多人暗爽于 DeepSeek 给中美带来的追逐者与被追逐者的角色互换,但我们仍然要明白,现在就说中国已经完全领先,仍然为时尚早。
在这场没有终点的 AI 竞赛中,双方的差距正在逐渐缩短,
希望奋起直追的脚步中,也带有你我的身影。