DeepSeek 与字节跳动，强化学习与模仿学习

原创 orangesai 2025-01-28 17:52 北京

人类努力让模型提高数学和代码能力，结果模型也把语文能力拉满了。

今天是除夕，本来已经进入假期，应该休息了，但有些话还是不吐不快。

事情的缘起是看到有家投资机构组织的闭门会，不知道怎么聊到了 DeepSeek 和字节的文化。

DeepSeek 和字节的 research culture （研究文化）比较像，比较本质

字节是中国最成功的商业公司，说一家公司跟字节比较像，一般都是夸奖。我也绝对不是要说字节文化有什么不好。

但这种夸法确实可能违背了事实。

我和这两家公司的朋友都有不少接触。

我的体会是，DeepSeek 和字节跳动的文化，不仅不像，甚至完全相反。

字节和 DeepSeek 的文化

字节的文化已经在网上被讨论很多，我们直接让 DeepSeek 总结一下

字节跳动的文化核心在于以技术和产品为驱动，追求极致创新与高效执行。其推崇“用算法改变世界”的理念，通过数据驱动和A/B测试快速迭代产品，强调小步快跑、快速试错，在抖音、TikTok等成功产品中体现为对用户体验的极致打磨。公司注重结果导向，以OKR制度透明对齐目标。

下午看到采访了梁文锋的记者写的即刻，刚好里面也提到了 DeepSeek 的文化。

回头看deepseek的故事，它其实有非常多浪漫和美好的部分，比如很多人引以为叹的万卡储备背后，其实是一群人的热爱和好奇心。在他们看来，这就是他们的钢琴，而他们是在上面弹奏乐曲的人。我记得梁老板当时还说过的一句是“就像一个孩子拿到他们心爱的大玩具”。比如谈到招人时，提到一个人想做一件事时，热情一定会表现出来，而且他也会主动在找你，这也是一种类似“念念不忘，必有回响”的浪漫吧。

这两家公司唯一比较像的就是不需要融资，没有短期压力，其他哪儿都不像。

字节的朋友开玩笑吐槽说，DeepSeek 连三月的 OKR 都没有，怎么可能像字节？

凡是必称字节，是不是一种模仿学习的过拟合现象？

模仿学习和强化学习

今天，前 OpenAI 的著名研究员 Andrej Karpathy 在读完 DeepSeek R1 论文后，对强化学习做了一些说明。

无论是儿童学习还是深度学习，都存在两种主要的学习类型：1）模仿学习（观察与重复，即预训练、监督微调）；2）试错学习（强化学习，干中学）。几乎所有令人震撼的深度学习成果，以及所有"魔力"的源泉，都源于后者。第二种方式具备指数级更强的能力，是真正令人惊叹的所在。当打砖块游戏中的挡板学会绕到砖块背后击球时，这是第二种方式在生效；当AlphaGo击败李世石时，这是第二种方式在突破；当DeepSeek（或o1等模型）在思维链中突然领悟"需要重新评估假设、回溯尝试新路径"时，那种"灵光乍现"的瞬间，正是第二种学习方式的体现。这种反复自我推敲的解题策略，本质上是一种涌现现象（！！！）这种能力的自发形成既不可思议又极具开创性。

看完之后，让我想到一个现状，就是很多人不论谈起什么，都以字节跳动为榜样。

甚至字节自己，都以字节为榜样。

这几乎成了一种政治正确。毕竟字节的成功是肉眼可见的，学它，似乎就站在了巨人的肩膀上，拥有了更高的成功概率。

这也是一种典型的模仿学习的思路。

这里不是说模仿学习不对，只是强化学习才更可能突破上限。

真正的创新，往往不是在已知的地图上导航，而是在未知的星空中发现宝藏。

我们需要「重新评估假设、回溯尝试新路径。」

我们需要「突然顿悟」和「灵光乍现」。

当一个数学代码模型成为语文学霸

最近 DeepSeek R1 等深度思考模型出圈。

除了性能突破，开源闭源，让OpenAI涨价，重击英伟达股价等牵动人们神经的话题性之外，还有很重要的一个出圈点。

就是深度思考模型超强的写作能力。

如果让深度思考模型写一篇文章，它会自己思考如何才能写好。

从文风，主题，用词，段落结构，引用诗句，主题情感，可谓面面俱到。

人类努力让模型提高数学和代码能力，结果模型也把语文能力拉满了。

甚至人类在最开始都没有观察到这种现象，写作评测集的结果是 o1 还不如 4o。

这种意外解锁新能力的现象

我们可以叫泛化

可以叫涌现

也可以叫智能

在我看来是最神奇最美妙的现象。

它预示着人类可以造出超越自己智力水平的奇迹物种。

我想起爱因斯坦的奇迹之年

他在1905年一连发表了五篇不同领域的重要论文。

我有一种美好的预感，2025也许是一个奇迹之年。

除夕快乐，蛇年大吉。

阅读原文

跳转微信打开

字节和 DeepSeek 的文化

模仿学习和强化学习

当一个数学代码模型成为语文学霸

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签