橘子汽水铺 01月29日
DeepSeek 与字节跳动,强化学习与模仿学习
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了DeepSeek和字节的文化差异,强调了强化学习的重要性,还提到深度思考模型的超强写作能力及可能带来的奇迹

🎯DeepSeek和字节文化不同,字节以技术和产品驱动,DeepSeek有浪漫美好部分

💡强化学习比模仿学习更可能突破上限,需重新评估假设、尝试新路径

📝深度思考模型写作能力超强,人类努力提高其数学和代码能力,语文能力也拉满

🌟深度思考模型的意外能力如泛化、涌现或智能,预示人类可能创造奇迹

原创 orangesai 2025-01-28 17:52 北京

人类努力让模型提高数学和代码能力,结果模型也把语文能力拉满了。

今天是除夕,本来已经进入假期,应该休息了,但有些话还是不吐不快。

事情的缘起是看到有家投资机构组织的闭门会,不知道怎么聊到了 DeepSeek 和字节的文化。

DeepSeek 和 字节的 research culture (研究文化)比较像,比较本质

字节是中国最成功的商业公司,说一家公司跟字节比较像,一般都是夸奖。我也绝对不是要说字节文化有什么不好。

但这种夸法确实可能违背了事实。

我和这两家公司的朋友都有不少接触。

我的体会是,DeepSeek 和字节跳动的文化,不仅不像,甚至完全相反。

字节和 DeepSeek 的文化

字节的文化已经在网上被讨论很多,我们直接让 DeepSeek 总结一下

字节跳动的文化核心在于以技术和产品为驱动,追求极致创新与高效执行。其推崇“用算法改变世界”的理念,通过数据驱动和A/B测试快速迭代产品,强调小步快跑、快速试错,在抖音、TikTok等成功产品中体现为对用户体验的极致打磨。公司注重结果导向,以OKR制度透明对齐目标。

下午看到采访了梁文锋的记者写的即刻,刚好里面也提到了 DeepSeek 的文化。

回头看deepseek的故事,它其实有非常多浪漫和美好的部分,比如很多人引以为叹的万卡储备背后,其实是一群人的热爱和好奇心。在他们看来,这就是他们的钢琴,而他们是在上面弹奏乐曲的人。我记得梁老板当时还说过的一句是“就像一个孩子拿到他们心爱的大玩具”。比如谈到招人时,提到一个人想做一件事时,热情一定会表现出来,而且他也会主动在找你,这也是一种类似“念念不忘,必有回响”的浪漫吧。

这两家公司唯一比较像的就是不需要融资,没有短期压力,其他哪儿都不像。

字节的朋友开玩笑吐槽说,DeepSeek 连三月的 OKR 都没有,怎么可能像字节?

凡是必称字节,是不是一种模仿学习的过拟合现象?

模仿学习和强化学习

今天,前 OpenAI 的著名研究员 Andrej Karpathy 在读完 DeepSeek R1 论文后,对强化学习做了一些说明。

无论是儿童学习还是深度学习,都存在两种主要的学习类型:1)模仿学习(观察与重复,即预训练、监督微调);2)试错学习(强化学习,干中学)。几乎所有令人震撼的深度学习成果,以及所有"魔力"的源泉,都源于后者。第二种方式具备指数级更强的能力,是真正令人惊叹的所在。当打砖块游戏中的挡板学会绕到砖块背后击球时,这是第二种方式在生效;当AlphaGo击败李世石时,这是第二种方式在突破;当DeepSeek(或o1等模型)在思维链中突然领悟"需要重新评估假设、回溯尝试新路径"时,那种"灵光乍现"的瞬间,正是第二种学习方式的体现。这种反复自我推敲的解题策略,本质上是一种涌现现象(!!!)这种能力的自发形成既不可思议又极具开创性。

看完之后,让我想到一个现状,就是很多人不论谈起什么,都以字节跳动为榜样。

甚至字节自己,都以字节为榜样。

这几乎成了一种政治正确。毕竟字节的成功是肉眼可见的,学它,似乎就站在了巨人的肩膀上,拥有了更高的成功概率。

这也是一种典型的模仿学习的思路。

这里不是说模仿学习不对,只是强化学习才更可能突破上限。

真正的创新,往往不是在已知的地图上导航,而是在未知的星空中发现宝藏。

我们需要「重新评估假设、回溯尝试新路径。」

我们需要「突然顿悟」和「灵光乍现」。

当一个数学代码模型成为语文学霸

最近 DeepSeek R1 等深度思考模型出圈。

除了性能突破,开源闭源,让OpenAI涨价,重击英伟达股价等牵动人们神经的话题性之外,还有很重要的一个出圈点。

就是深度思考模型超强的写作能力。

如果让深度思考模型写一篇文章,它会自己思考如何才能写好。

从文风,主题,用词,段落结构,引用诗句,主题情感,可谓面面俱到。

人类努力让模型提高数学和代码能力,结果模型也把语文能力拉满了。

甚至人类在最开始都没有观察到这种现象,写作评测集的结果是 o1 还不如 4o。

这种意外解锁新能力的现象

我们可以叫泛化

可以叫涌现

也可以叫智能

在我看来是最神奇最美妙的现象。

它预示着人类可以造出超越自己智力水平的奇迹物种。


我想起爱因斯坦的奇迹之年

他在1905年一连发表了五篇不同领域的重要论文。

我有一种美好的预感,2025也许是一个奇迹之年。


除夕快乐,蛇年大吉。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 强化学习 深度思考模型 奇迹
相关文章