十字路口Crossing 04月09日 18:06
20个问题,搞懂DeepSeek和它带来的“AI下半场”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

十字路口推出「20问」专栏,深入解读DeepSeek背后的故事,涵盖技术原理、训练方式、行业影响等方面,帮助听众建立对其的系统认知。

🧐DeepSeek通过精心设计的20组问题,从多维度解读其背后故事,包括技术突破、商业影响和未来趋势等。

🎯R1-Zero依靠强化学习,以摸索方式提升模型多步骤思考能力,只判断模型最终输出结果是否正确。

💪为解决R1-Zero的问题,DeepSeek增加方法,经过SFT微调、强化学习、蒸馏等过程得到R1模型。

🔍探讨DeepSeek是否蒸馏OpenAI数据,强调强化学习在提升模型能力中的重要性。

🌍分析DeepSeek R1与其他技术的比较,以及其在行业中的影响和面临的挑战。

原创 十字路口 2025-02-26 23:12 上海

20组问题,层层深入解读 DeepSeek 背后的故事

本周,十字路口推出首期「20 问」专栏:精心设计的 20 组启发式问题,将从技术突破、商业影响到未来趋势,层层深入解读 DeepSeek 背后的故事。

为什么是「20 问」?因为面对像 DeepSeek 这样的重大技术突破,我们需要一个结构化的思考框架。这 20 个问题不是简单的知识科普,而是经过精心编排的探讨路径:从技术原理到行业影响,从现象解读到未来预测。我们希望通过这种问答形式,帮助听众在信息繁杂的当下,建立起对 DeepSeek 清晰而系统的认知。尤其在 DeepSeek 带来的热度稍退之际,我们再对它进行探讨,往往能更理性、全面地,不被短期情绪所影响。


本周,我们邀请到李乐丁,他曾在百度担任十年主任高级架构师,此前也做客过十字路口。他上期分享的播客《"我想击碎你们对于 AI 不切实际的幻想,并重建一个正确的认知"》[1]成为了我们去年 45 期节目中最受欢迎的一期。因此,我们很荣幸能在 DeepSeek 热潮渐渐平息之际,再次邀请李老师来探讨这个话题。

我们精选的 20 组 DeepSeek 相关问题涵盖了算法、算力、数据、应用和商业等多个维度。

在人的一生中,能遇到的重大技术突破屈指可数,而 DeepSeek 的发布无疑是其中之一。我相信每个人都值得投入时间去深入了解:DeepSeek 究竟是什么,它意味着什么,以及它将如何塑造我们的未来。


微信收听播客:

来自十字路口Crossing音频:20个问题,搞懂DeepSeek和它带来的“AI下半场”


小宇宙收听播客:


预训练的瓶颈与 AI 下半场

🚥 Koji

李老师,我们直接开始第一个问题:网上有个很流行的说法,以 DeepSeek 的发布为标志,AI 进入了下半场。你认可这个说法吗?能给大家讲讲上半场、下半场分别是什么吗?


👦🏻 李乐丁

大家好,关于 AI 上次我们更多聊的是预训练方面的事情。经过两年发展,大家会发现过去两年来 AI 在预训练方面上限的提升是一个逐步趋缓的过程。从 GPT 3.5 到 GPT 4,我们看到有很大跨越,但从 GPT 4 到现在近两年,它的向上的演进是不多的。几个月前,美国就开始讨论预训练是否到顶了,包括 Ilya 也给出了他的判断。所以目前基本形成共识,也就是 :

「Pre-training 已走到阶段性顶点,我们不太想训练更大的模型了。」

原因一方面是因为公开的高质量且有足够多样性的数据,基本都被使用了。AI 需要多方向知识,不是某方面知识增加十倍,能力就变强,而是我们需要新的方向。从这个角度,多样性的、高质量公开数据也已经很稀少了,所以从数据的角度来说,我们很难再扩的更大了。

关于合成数据也有很多讨论。现在的基本共识是,如果你任意的生成合成数据直接喂给预训练模型,会导致模型崩溃,并且也有很多大学有相关的论文去论证这个观点。

除了数据,还有个未形成完全共识的讨论,并且很多人开始意识到的,也就是之前 Yann LeCun 教授提到的,由于 Transformer 模型架构的限制,导致生成式 AI 的数据学习效率太低。

训练几万亿 token 的数据,模型仍然很难有像家猫一样的智能,所以大家觉得可能需要新方法。从这两个角度看,预训练可能到头了,那我们可以探索新方向。特别是 OpenAI 的 o1 发布后,大家把更多的眼光放到了后训练部分。

Post-training 能让模型增加更多垂直方面的技能,比如 o1 增加各种 math、code 等 STEM 类型的能力。你可以在垂直方向进行特定的 fine-tune,来让它变成金融、法律、医疗等模型。所以现在 Post-training 是大家主要发力的方向。


🚥 Koji

所以 o1 的发布是不是一个「下半场」的信号?

只是 o1 它是闭源的,所以没有把更多的技术细节拿来给大家看。又包括它是收费的,并且思维链也没有公开,所以其实虽然能力强,但是并没有被业界以及普通用户强烈的感知到,所以才让 DeepSeek R1 的发布得到了如此的风头?


👦🏻 李乐丁

对,DeepSeek 发布的惊艳是肯定的。o1 的发布就像我们第一次看到 ChatGPT 一样,能在不依赖人类的情况下解应用题、生成非常高质量的 coding,这是非常非常惊艳的。但 OpenAI 如今成了「close AI」,很多方法一线研究者虽有一定了解,但没公开具体内容,甚至还封锁了 o1 对于思考过程中的生成 token,大家不知道它具体怎么思考。

所以 R1 的发布相当于给全世界揭秘了最先进的技术是如何完成的。从这个角度,R1 就像下半场时代的 Llama。

解析 DeepSeek R1:从 Zero 到完整模型

🚥 Koji

那我们进入到第二个问题,请李老师给大家科普一下 DeepSeek 的 R1,以及发 R1 前几个月发的 V3,它们的工作原理和训练方式分别是什么,让我们先有个基本了解。


👦🏻 李乐丁

DeepSeek 这次直接发了论文,包括 R1 和 V3。除此之外大家想深入了解的话,还可以看它之前发布的另外两篇论文,凑在一起看就能形成全貌。前面两篇是 DeepSeek-V2 (也就是上一个版本的 MoE),以及 DeepSeek-Math(它介绍了如何引入数学能力)。

我们先从 R1 说起,R1 把模型的数学和多步推理能力带到了 o1 的级别。那它是怎么实现的,其实是大家最关心的。这篇论文是我近两年看到的最精彩的论文。实际上 DeepSeek 在 R1 这篇论文中训练了三个模型,不是一个。我觉得最有价值的是一开始的 R1-Zero。

R1-Zero 有个非常优雅的想法,「我们是否能纯粹的依靠强化学习,让模型自己以摸索的方式实现多步骤思考,从而提升在数学、编码等方面的逻辑思维能力?」答案是肯定的。

DeepSeek 在这里引入了不同于以往我们使用强化学习的方法。之前特别是美国使用强化学习,大家往往尝试去奖励中间过程。比如解数学应用题,直观想法是应用题将由一步步推理完成,强化学习系统要对每一步是否正确、好坏进行激励,通过不断激励让系统得到反馈并进行优化。但 DeepSeek 非常精彩地分析了这个问题。

他们发现要去激励模型的结果,而不是去干预中间过程。

R1-Zero 的奖励模型其实非常简单,简单到只判断两件事。

    只判断模型最终输出结果是否正确,不关心中间思考过程,对中间思考过程无任何激励。

    引入了一个格式。格式系统的作用是让后面的 reward model 专注判断输出结果,不被中间过程污染。这个格式就是明确区分中间思考过程和最终结果,只看结果不关心过程。仅用这一个方法,模型效果就直逼 OpenAI 的 o1。这是一个非常优雅的方法。

为什么只激励结果不干预过程能成功呢?DeepSeek 在论文中有精彩论述。它认为中间过程内容难以量化和给出正确激励结果。比如在文科内容中,人说话的上下句有关联性,不能「断章取义」,任何一句话单独抽出来都不能代表全貌,所以我们很难对人其中说的某一句话进行精确打分。

对于偏理科的内容,即便是一道数学题,解法多样(比如说高中的很多题,我可以用代数的方法解,也可以用几何的方法解,我也可以用分析的方式解。同样就算只局限到代数上,我也可以先合并同类项,在两边乘平方,也可以反过来),推理过程无限多,很难穷举。所以与其干预中间过程,不如直接看结果。

也就是说,机器思考过程和人类不同,不能强求机器和人想法一样,它预训练学了几万亿 token,让它以一种对机器来说最自然的方式去训练,能达到不错效果。

这是 R1-Zero 给我们的最大启示,证明强化学习直接使用可行。


🚥 Ronghui

你提到的这个创新想法,之前其他模型厂商有尝试过吗?

我看报道里说,OpenAI 的研究员比较早的时候也做分享提到过,提到模型需要的是激励而不是干预。


👦🏻 李乐丁

是的。最早做这件事的是 OpenAI,还有强化学习的宗师级选手 DeepMind。这个想法在 AlphaZero、AlphaFold 中都出现过,OpenAI 也有相关讨论。

但从开源角度来说,R1 是首个直接告诉我们可以这么做的。我相信 OpenAI 和 DeepMind 内部有大量相关研究,甚至 o1 很可能走过了 R1 论文中的路程才形成自己的模型。所以很多前沿研究者在做这方面研究。但开源方面 R1 是第一个这么做的。R1-Zero 是很棒的创新,但论文也明确指出 R1-Zero 有两个缺点指出不适合作为大家日常使用的模型。

第一个缺点,模型自己摸索出的推理步骤,人很难理解,网上也有很多人在形象的说 R1-Zero 的思考过程不是「人话」。

第二个缺点,中间思考过程语言混合,会中文、英文等混用。因为模型本身学会了所有语言,对它来说语言没区别,所有语言都是 token,所有的计算都是选择概率,都是计算 attention,哪个词更能表达推理方向就选哪个。对它而言,不同的语言之间没有代沟,没有区隔。所以哪个词更好的表达了当前推理的方向,它就会选哪个词。所以就会形成 R1-Zero 的这样的一个效果。

但这样的结果日常使用不合适,我们希望能看懂中间思考过程,希望语言一致。为解决这两个问题,DeepSeek 增加了更多的方法,从 R1-Zero 变成了 R1。

在做法方面,论文里讲得很细致。第一步在 DeepSeek V3 基础模型上进行 SFT 微调,这里会用一批的 COT 数据,相当于给模型一个基础的回答套路,比如碰到某类题目,第一步做什么,第二步做什么等。

比如说我们要做一次总结陈述,第一步先应该看各种材料,第二步进行对比,第三步写总结。他会写出类似这样的回答套路。这些套路经过 Fine-tune 之后,让模型回答更接近人的说法,保证模型回答使用一致的语言,克服语言一致性问题。然后在此基础上再使用强化学习,相当于只给基本套路,让模型自行摸索所有多步骤思考问题的解法,得到一个中间模型。这个中间模型实际上还是有一定问题,虽然语言可能一致,但用强化学习进行大量能力扩展后,扩展到很多能力在回答方式上还不完全像 「人话」。

那怎么解决这个问题呢?DeepSeek 使用了蒸馏,将中间模型蒸馏得到一批问答对(这里问答对就包含了大量的题和回答方式),对这些问答对使用「拒绝采样机制」的筛选。这个算法很常见,其思想是人通过举例的方式,算出人在回答问题的套路和蒸馏数据在回答问题的套路的差异。对于差异特别大、不像 「人话」 的就拒绝采样,实际上是一个筛选算法。

经过这样处理后,DeepSeek 得到了 60 万条非常高质量的多步骤推理问答对,以这个数据为基础,再加上 20 万条传统 Fine-tune 数据,让模型具备语言对话、文本创作、阅读理解等传统 LLM 能力,这些都是使用传统 Fine-tune 的最佳实践。加在一起一共 80 万条数据,以这些数据重新微调 DeepSeek V3 基础模型,这个时候得到的就是 R1。它既有传统大语言模型能力,又有多步骤思考推理能力,推理结果符合人类思考习惯,并且语言一致,达到了 o1 的效果,整个过程非常精彩。

蒸馏与创新:R1 能否超越 OpenAI

🚥 Koji

听起来感觉一气呵成,李老师讲得也很精彩,像纪录片一样,很有意思。

正好第三个问题,刚才李老师提到了蒸馏。网上有争议,DeepSeek 到底有没有蒸馏 OpenAI 呢?先不说原创与否、侵权与否,另一个问题是,如果只用蒸馏,有可能超越 OpenAI、超越 SOTA 吗?


👦🏻 李乐丁

首先我相信 DeepSeek 没使用 OpenAI 的数据,也没必要。

假设它用了蒸馏数据,蒸馏是做什么的呢?我们从前面论文论述能看到,唯一使用外部数据的是从 DeepSeek V3 基础模型做第一步 SFT 时,使用了一批 COT 数据,让模型学基本回答套路。

就算用了 OpenAI 的成果那又如何?最终能力来自后面的强化学习。如果没有使用也没关系,DeepSeek 完全可以自己找专家进行标注,这方面不是特别大的困难。如果没有前人的数据拿来参考可能会走弯路,比如发现 R1 这条路更适合做数学题,可能之前做了大量文科 COT 然后进行蒸馏、进行实验,发现效果不好再重新做数学题,无非浪费点时间,但最终能摸索出合适的种子 COT 数据。所以没必要蒸馏 OpenAI 的数据,也许一开始有参考,这也正常,大家都在参考别人的工作。

那仅靠蒸馏能超越 SOTA 吗?绝对不能。这个不能并不是说你拿出最终成品,然后通过看它的表现标准(性能指标 / benchmark)发现不如当前的第一名,这种情况是有可能发生的

不可能在于,你拿出的这个模型如果是蒸馏的,那它一开始的蒸馏数据从何而来呢?这个蒸馏数据必然只能来自于强化学习的大量扩写,而不是蒸馏别人。如果蒸馏别人,你的能力一定小于它,这个是我们既定的经验。

传统蒸馏一定是大模型蒸到小模型,这时候小模型将具备大模型 80%、90%的能力,这个看你的蒸馏技巧的能力,但绝不可能反向超过大模型,那就左脚踩右脚上天了,这是错误的。所以中间一定想要让我们的模型在推理方面做好,中间一定要引入强化学习,这时候它就超越蒸馏了。


🚥 Koji

业界共识目前还是说 o1 带来了范式革新,启发了很多人,不管是 DeepSeek 的 R1,还有 Kimi 的推理模型 Kimi 1.5。这种知识接力、站在别人肩膀上创新,让人有种感受到技术理想主义推动人类进步的感受。

最近 Anthropic 的 CEO Dario 被大家喷得有点厉害,他之前还蛮受业内尊重的。DeepSeek R1 发布后,他写了篇代表某些美国观点的文章,要对中国进一步限制芯片,以保护美国在大模型、AI 领域的绝对领先。

这是不是意味着、也是我们的第四个问题,:DeepSeek R1 用的 Post-training 路线中的 RL,和 Anthropic 一直在用的 RLHF 路线相比,RL 明显胜出,所以 Anthropic 受到威胁,才有 Dario 一系列的反应呢?


👦🏻 李乐丁

这篇文章火遍全网,我们要客观看待,从三个层面分析。

首先整体看,文章完全是在中国阴谋论,试图强化中国威胁,掩盖 Anthropic 和 OpenAI 能力被中国追上的事实,这部分内容是纯粹的阴谋论。但文章中关于纯粹技术的论述其实是很中肯的,对 DeepSeek 内部大量技术的论述可以采纳。

他说了个事实,DeepSeek 的能力仍然和他们有六个月差距,这个我们没必要回避。从指标看,我们确实没超越 OpenAI 和 Anthropic,比如 R1 效果只达到 o1 的下限,而 OpenAI 已有 o3,在能力的差距这一点上还是有的但他没说这六个月 Anthropic 进展也不大,差距没那么大,作为领先者的他们在速度上已经放缓了,而我们正在追赶上来。

说到技术,我觉得要保持开放心态,不能预设某项技术一定正确或错误。如果这样,DeepSeek 不可能做出 R1,因为之前的主流方式是 Llama,它和 DeepSeek 在架构上有巨大的差异。

我同意梁文峰接受采访时的观点:「现在大模型研究更像 research 阶段。」。在 reaserch 阶段的典型方式是提出假设,通过实验证实,实验出结论前,不能说假设一定对错。所以我无法回答纯强化学习和 Anthropic 的方法哪个正确。

Anthropic 认为模型能力是连续光谱,要在基础模型内具备文科回答和理科多步骤思考能力,这也是个非常厉害的想法,也许它后面有更好方法实现。

我们用科学心态关注,看谁能证实自己的想法。但在意气方面,我们不认同美国的做法,美国没能力阻止中国研发大模型,我们已经完全具备了生成式 AI 的全部技巧,只是硬件造卡有困难,但国内也有 AI 训练卡,无论如何他们阻止不了我们做出世界最好的模型。


🚥 Koji

所以像我们这次的推理卡已经被 R1 证明可以使用(参考硅基流动),这次 R1 发的 API 是在华为云推理卡上做的。那么我们现在的训练卡到什么程度了?


👦🏻 李乐丁

训练卡目前属于可用阶段,但有点难用。

如果想三个月复现 DeepSeek,最佳方案还是用全套英伟达,用 GPU、NV link,最好网络用 InfiniBand,因为整套体系是非常完备的。如果你想探索完全不同的新模型,cuda 提供的支持也最完备的,这没必要回避。但国内卡完全可以进行训练,需要一段时间进行模型适配。

我做硬件的朋友说,比较固定、确定的模型训练适配时间大概三个月左右。如果要做自定义的算子探索,花的时间更长。

开源战胜闭源:DeepSeek 成功的关键因素

🚥 Koji

前面四个问题有点硬核,为了照顾大家收听节奏,第五个问题会轻松一点,也是大家都关心的。

DeepSeek 这场仗打得非常漂亮,这种大获全胜的因素有开源、技术好、成本低、产品体验不错。李老师,在你看来你觉得这些因素谁最重要,分别占比多少,能分享下看法吗?


👦🏻 李乐丁

在我看来,开源是最重要的。Yann LeCun 教授评价得好,与其说中国战胜美国,不如说开源战胜闭源。

回顾 DeepSeek 论文,从 R1 往前看 V3,V3 里有 MoE、MLA,再往前看 V2、DeepSeek-Math 对强化学习的探索,我们能非常明确的感觉到业内一线研究者对未来方向是有感知,但阻碍他们的原因可能是没条件做创新实验。这里我觉得很多时候实验是要付出代价的。比如说像 DeepSeek,其中它做了大量的实验,去论证某些方法可以,某些方法不可以。比如说 R1 他们也尝试去激励过程,结果是不好。在 V3 里他也去比较使用它新的 MTP 多 token 输出到底对于模型的效果改善有多少。其实这就意味着要想做好一个大模型需要大量的实验,因为没有人真正知道模型正确的道路是什么。

可以说整个生成式 AI 乃至说整个 AI 我们的理论层面是不完备的。不像 computer science 有图灵完备性,完全告诉你了一切,但 AI 并没有。很多时候该用什么样方法是需要做实验的。

所以更重要的是要有足够的机会让研究者去做实验。而不能因为这次实验训出来的模型效果比上一版本降了 2%,那就处罚他,那就不让他再去用资源。如果这样的话,那是做不出最好的模型的。

所以我们看 o1 的产生,我认为一定背后有两方面原因。一方面是得益于 DeepSeek-V3 这个模型,使得模型的训练成本大幅降低。V3 的整体训练只需要 550 万美元,两千多张卡。而它在它基础之上再去做推理,再去做其他的强化学习,它的成本也比传统我们使用那种超大模型要低得多得多。那就意味着在同等的资源投入下,DeepSeek 可以做更多的实验。

另外一方面我觉得是因为 DeepSeek 本身它坚持了一个很好的初心。就像梁文峰说的,他不去做商业化,纯粹 research。在这种情况下,我可以接受模型失败,我可以接受这次的效果不好,甚至我可以接受在一段时间内效果不好。

比如说如果我们仔细看论文的话,会发现它将强化学习进行了 8000 步,这几乎是绝无罕见的。

之前没有公开的论文会把强化学习推到这么远的距离。那不是因为我们的研究者想不到这一点,无论中国还是美国,我们都有非常优秀的研究者。大家其实能想到,但问题是从 0 到 8000 步效果的提升不是线性提升的,中间会下降,中间会有反复。那如何保证你有足够的资源,在比如说到了 2000 步,你的强化学习的斜率不再快速上升的时候,甚至出现阶段性向下的时候,还能坚持呢?

我觉得这一点都是需要更好的管理的支持的。所以一个偏向于 research,偏向于开源的方式,才能孕育出这样的先进技术。


🚥 Ronghui

看到一些分析说,大家其实看到的都是 DeepSeek 这次的巨大成功。其实它的成功背后有非常多的失败,只是我们可能不知道。

李老师你刚才提到这个 8000 步,可以再具体通俗地解释一下这 8000 步意味着什么吗?吗?


👦🏻 李乐丁

好的。在 R1-Zero 里面的应用,我们可以这样理解,首先让模型在一无所知的情况下回答数学题。那这些数学题的源头在哪呢?我们参考 DeepSeek-Math 这篇论文,它使用了 8000 个种子数学题,这是有专门的评测集提出的,里面有题和标准答案,它让机器自己去生成答案。

显然,大部分题应该答的是错的,只有极少部分回答正确。这时强化学习系统会进行打分,把正确的标出来,把错误的也标出来。当然,这里面还有一个非常重要的技巧,就是它里面的 GRPO 的 reward model,咱们稍后再说。

在这个过程中,我可以将模型的回答打分,把好的回答选出来,把差的踢掉,然后让模型重新用好的这些数据去 Fine-tune 我的基础模型。这时模型的能力就提升了一步。比如说,一开始 8000 道题,它可能只答对十道,那这时候正确率就是 10 / 8000 。然后我把这 10 道正确答案重新 Fine-tune 模型之后,开始进行强化学习的第二步,还是让它回答这 8000 道题,大概率它答对的题会从 10 道变成 20 道、30 道(数字是随便说的)。仍然使用 reward model 选出好的答案,踢掉差的答案,把更多好的答案重新回馈给模型。

然后再进行第三轮,以此类推,第四轮、第五轮、第六轮。如果粗看的话,我们会看到模型每一轮生成的思考中间的 token 数、思考中间流程会变得越来越长。论文里也有非常好的表述,基本上是线性变长。模型说的话越来越多,这意味着它思考得越来越多。

同时我们看到,随着步数的增加,整体的正确率在提升。但有意思的是,我们看这个模型会发现,这个提升不是线性增长的。模型在前 4000 步的时候,正确率提升的斜率基本上是一条斜线,直接向上,效果变得很好。但从 4000 到 6000 步的时候开始,斜率衰减了,从非常快的增长变成了相对缓慢的增长。

而到 6000 步之后,模型的正确率甚至下降了一下,到 7000 步左右的时候还在下降。然后在 7500 步之后,模型的准确率又开始上扬,形成这样的一条曲线。

当然,可能 DeepSeek 因为前面做了大量的前置工作,做了很多的探索,所以它的这个曲线非常漂亮。

很多强化学习的研究可能在 1000 步的时候,效果提升就衰减了。到 2000 步的时候就平稳了,甚至掉头向下。这时候可能大家就不愿意再花资源去做后面四五千步了。


🚥 Ronghui

那是不是可以说他们其实是为了想要测试跟证明这个方向、这个选择,想要去看能得到什么样的结果,所以是非常坚持的?


👦🏻 李乐丁

对,是的。首先,我觉得咱们一会儿插入一下关于 GRPO 的那个 reward model,其实就是当我们看这篇论文,真正想清楚之后,会发现整个 R1 的训练思路是如此自然的时候,你一定会对它有信心,会相信这个东西一定可以成功。

然后再加上 DeepSeek 有很好的低成本训练,以及有一个很好的老板,我觉得大家会形成一个共同的决策。那咱们来吧,把它训练到一个别人都没想象到的次数,看看它到底怎么样,所以这就是成功的原因。这里我想再说一下,R1 大部分的技术都来源于一些朴素的想法,通过直觉其实就可以大致判断说它们是可行的,而 GRPO 是其中最为复杂的一项思路。

回到原先整个强化学习的过程,我们可以简化来看,先让系统去尝试回答,比如说 100 道题,然后将其中正确的 10 道题拿回来重新去 Fine-tune 模型。到下一次再训练的时候,这 100 道题可能就有 20 道题是正确的。

那此时我们要不要将这 20 道题全部送给模型进行 Fine-tune 呢?这会存在一个问题,就是这 20 道正确的题中,可能会有相当一部分的内容是与前面的 10 道题重复的。从两年前我们训练大模型的 pre-training 阶段的时候,其实就会发现,数据虽然重要,但最好别重复使用数据来训练模型,很容易造成模型的过拟合。从形象角度来说,当模型在强化学习的过程中持续训练时,我们更希望它多去关心那些新摸索出来的套路,而不是一遍一遍地去重复和背诵之前已经学会的技能

所以 GRPO 的工作就是尝试去量化哪些新训练出来的套路更新、更好。

R1 的做法是这样的,首先对于每一道题系统会让它做多个回答,这里选了 8 个,然后对这 8 个答案依次评分,答对了给 1 分,答错了给 0 分。然后将这 8 个分数转换成一个称之为 Z 分数的统计学数据。这个分数在统计学上经常被使用,它的作用是什么呢?它的作用是做更好的区分度。

比如说这八个答案中如果绝大多数都答对了,那么我们就认为模型对这个题型基本上已经学得很好了,于是它的 Z 分数就会比较低。相反,如果八个答案中只有少数几个答对,那么我们就认为模型学到了新的套路,这少数几个答对的地方它们的 Z 分数就会非常高。恰好从数学角度来说,Z 分数刚好是一个落到 0 和 1 之间的小数,所以它可以被直接看作是一个采样的概率。

有了这样的一个分数和采样概率之后,我们就可以将那些新学习的套路,以更大的概率让模型去 Fine-tune。而那些已经学会的、已经掌握的旧知识,以更低的概率交给模型去复习。多关注于新知,少关注于旧识。这样如此往复,模型就会不断地优中选优,从而实现整个过程。

当然,GRPO 除了在这方面思考上的优势之外,它同样由于只激励结果而不关注中间阶段,与传统的像 PPO、DPO 等等强化学习算法相比,它在计算量、内存的消耗量等方面也有很大的优势。综合起来就形成了 R1 使用的这一项非常优秀的算法。


🚥 Ronghui

我看到 Lex Freeman 那个博客里面详细地解释了 DeepSeek 在底层优化上做了一些事情。甚至他还把这个列到了他认为低成本训练成功的关键。

他提了三点,第一个就是前面你提到的 MOE 这个混合专家 MLA,因为芯片限制,它不得不通过底层优化来提高效率。在 NVIDIA 本身有的 NCCL 这个库他们没有的前提下做了很多创新,这块你了解吗?比如说他们做的是哪些创新?


👦🏻 李乐丁

具体他们做了什么事,其实论文里都写得很清楚。其实就是通过一些底层的 cuda 优化,以及训练过程中不同计算和通信之间编排优化,来保证它这套系统有足够的带宽。

带宽够,通信就不会卡住。但是通读他这个论文下来,我觉得 DeepSeek 手里的卡就是 H800,它既没有 H100 也没有 H20。为什么呢?就是 H800 跟 H100 主要差的就是那个 NV link 带宽卡了一半。所以逼着它必须得做这个优化,不做不行。但另一方面,H20 它的通信能力和算力跟 H800 差距又特别大。按它现在那个优化方式,在 H20 上跑可能不是这个效果,我觉得它用的就是 H800。但这个现在它不说也没人知道。


🚥 Ronghui

就觉得还挺让人启发的,就是卡住它的地方,它把这个地方变成了它的创新。


👦🏻 李乐丁

对,是的,但如果有 H100 的话,它效果会更好,这肯定的。它 H800 的条件确实太有限了。


🚥 Ronghui

Lex 把这三点列成最重要的,你同意这个观点吗?


👦🏻 李乐丁

基本同意。我觉得还有一点就是 FP8 它那个低精度,我觉得这个是很重要的东西,这些其实是起主要作用的。美国人在分析技术方面基本上都是靠谱的,说的都对,但是观点方面咱们就仅供参考了。

低成本 AI:550 万美元背后的技术突破

🚥 Koji

我们第六个问题,紧接着就是 DeepSeek 的 V3 为什么可以只花 550 万美元呢?

而且前不久还有另一个新闻,就是李飞飞的团队用 50 美元也训出了据说可以媲美 DeepSeek R1 和 OpenAI o1 的 AI 推理模型。这又是怎么回事?可不可以也请李老师来分享一下?


👦🏻 李乐丁

这是两个问题,一个是 V3 的 550 万,一个是李飞飞的。我觉得咱们先从李飞飞这块说起,这 50 美元训出 R1 确实有点标题党,但是这篇论文同样非常重要。要明白它的重要性,其实咱们还是要回到 R1 这篇论文,它实在是过于精彩,以至于把最后的甜点都变成了主菜。

刚才一开始我说到 R1 其实最终训了三个模型。咱前面说了两个,一个是 R1-Zero,一个是 R1,还有第三组是什么呢?实际上 DeepSeek 尝试在回答这么一个问题,它的 R1 和 R1-Zero 分别都是在它的 DeepSeek V3 这个超大的模型底座上完成的,就是在一个 671B(虽然是 MOE,也是一个非常大的模型)上进行的训练。

在这个非常大的模型上训练,我们证实了通过强化学习的方式和通过蒸馏的方式,都能让它获得非常棒的多步骤推理能力。

那么问题自然就来了,在一个没有这么大的小模型上使用强化学习和蒸馏的方式,能让它具备很好的多步骤思考能力吗?DeepSeek 做了实验,它的方法就是将前面咱们说的从中间模型蒸馏出来的 80 万条非常珍贵的数据,用这个数据去 Fine-tune 千问和 Llama 这两个相对小的模型(我看的论文应该没记错,是 7B、30B),这实际上就是蒸馏,用数据去蒸馏。

答案是 OK 的,在小模型上用珍贵的蒸馏数据,也可以让它具备非常棒的 math 能力,论文里也有相应的 benchmark,成绩非常好。但是论文里也告诉你,如果在小模型里面直接使用强化学习,使用 R1-Zero 的这套思路行吗?不太行。论文认为是因为小模型具备的知识还是太少了。

其实就像你要想自己修炼的话,还是最好多有点知识,完全没有的话就容易走火入魔。这块可以说绝不是一个甜点,而这是一个主菜。因为这意味着拿一个 30B 的小模型,甚至 7B 的小模型都能有类似于 R1 的步骤推理能力。

沿着这个思路咱们可以继续再想,用小模型 80 万条数据 Fine-tune,那 8 万条行不行?Fine-tune 少一点的话,对于应用获得自己的能力也是有好处的。8 万条行不行?8000 条行不行?

这块儿就走到了李飞飞的 S1 这篇论文了。

在这里它最终给我们的答案是,如果你想 math 效果好的话,1000 条就可以。

那它怎么来的呢?它是先从 Google 的 Gemini 2.0 flash thinking(也是一个非常棒的推理模型,客观说它这个模型的效果不比 R1 差)里蒸馏出了 59,000 条高质量的回答问题。然后李飞飞对这些问题进行精选,因为她的目标就是看,到底可以把这个蒸馏数据压缩到多小让模型学会能力。它中间用了三个原则,就是这题要够难,然后题别重复,然后覆盖面足够广。最终得到了 1000 条。

这个论文里非常清楚地告诉你这一千条大概是什么,就包括各种各样的数学,从相对简单的线性代数、微积分,到比较复杂微分方程,然后还有很多量子物理等等,反正都是理科题。

仅仅用这 1000 条,然后拿它去 Fine-tune 千问,就可以得到媲美于 R1 的 math 性能。

所以李飞飞这里就告诉你,如果你就是想在一个普通的模型上快速得到 R1 的能力,使用蒸馏的话,只需要 1000 条数据。

而这一千条数据论文里写 Fine-tune 只需要 16 张 H100,训练 26 分钟,算下来就是 50 美元。当然,50 美元这是一个非常极限的测试,所以我说 50 美元比较标题党,实际的话肯定会比这个多。但是这也意味着如果你仅仅想获得垂直能力的话,后训练的成本可以非常低。

咱们再关联上 V3,V3 的论文中不仅告诉你了预训练 550 万,就是 260 万 GPU hour(咱们就按 GPU 小时来说,因为那个单价各地不一样),这 260 万 GPU hour 就可以预训练出 V3。同时它告诉你它的后训练所用的算力连预训练的零头都不到。

所以有时候我比较讨厌,今天网上很多人说预训练 scaling 结束之后,后面就是后训练的 scaling,然后算力继续无限膨胀。后训练确实有 scale,但是它的规模跟预训练是不能比的,会差好几个数量级。

然后至于 V3 的 550 万美元,这个 260 万 GPU hour 如何做到?那就要再回归到它的 V2,可以说就是过去很长一段时间厚积薄发而来。里面最重要的就是如何节省模型参数的技术、技巧是在 V2 完成的,就是 MOE 到 V3 做了进一步的优化。如何降低在每一次计算过程中算 attention 消耗的算力,这个也是 V2 完成的,就是它的 MMLA attention,V3 继承了并得到了优化。

V3 做的是使用 FP8 训练。其实我觉得,美国人其实早就应该做这个,因为 FP8 是 H100 卡最重要的一个卖点。美国人手里有这么多 H100,他们不去试这个东西,确实我觉得也是有点资源诅咒的味道了。做它其实不是什么神奇的东西,就是大量做实验,要摸索出在整个正向和反向传播过程中,哪些是可以使用 FP8 的,这又贡献了一部分。其实这三个加在一起贡献了绝大多数的力量,把它们都放在一起,260 万 GPU hour 基本上可以完成一个训练。


🚥 Koji

我觉得李老师讲得太好了,在没有视频和 PPT 的情况下,能够把事情讲得那么清楚,真的挺不容易的。


👦🏻 李乐丁

这两篇论文我看了好久,确实写得非常好。


🚥 Ronghui

我其实还挺想问这个问题的,就是你刚才其实提了好几遍,然后 hidecloud 的那个分享里面,其实他也重复了好几遍这个话,就是说这个论文写得太精彩了。

我今天还问 ChatGPT,一般业内是怎么来衡量一个论文写得特别精彩?它给了我一些维度。其实我想问问你的主观判断,就是你会从哪些角度觉得这个论文写得太精彩了?


👦🏻 李乐丁

其实通俗来说就是干货足够多。这篇论文的干货实在是太多了。坦白说,虽然我一直非常关注 AI,但是过去两年其实我越来越不愿意读论文,因为大部分论文给出的有效内容实在是不太多。

这篇论文可以说它一篇论文的硬内容含量,可能相当于一般论文的十篇甚至不止。就比如说像 R1 那种训三个模型的事情,完全可以写成三篇论文。然后至于 DeepSeek V3 里面如此巨多的各种各样的优化技巧,虽然很多优化技巧坦率说应该是 DeepSeek 还没有做的足够完善,这些技巧效果不大,比较可能后面的 V4、V5 会逐渐做出来。但是这么多实验、这么多事情,如果普通来发的话,很可能发 5 篇、6 篇论文也都是可以的。所以确实它的内容含量实在是太高了。


🚥 Ronghui

而且我觉得它这个方式其实也很符合开源这个世界的沟通方式。就是它发一篇论文,然后社区的人会通过论文去解读,其实等于帮它做了非常多次的二次传播。


👦🏻 李乐丁

是的,这才是社区精神。

DeepSeek 对中国科技界的深远影响

🚥 Koji

那我们就进到我们的整个第二大部分,就是如何来正确看待 DeepSeek 所带来的一系列影响,也是我们的第七个问题。

DeepSeek 显然是带来了很强的民族情绪,尤其还要考虑到 DeepSeek 这个背后它的团队里面的每一个人,都是在国内的工科高校的体系里面所培养出来的。甚至前两天我听到一个投资大佬,他在一个私下的聚会上非常激动地说,他认为这是中国的国运,如果没有国运,我们很可能就进到通缩了。DeepSeek 的发布,甚至避免了中国进到类似日本的失落 30 年的这么一个境地。

那李老师你会怎么看待 DeepSeek 对于中国的科技行业乃至整个中国商业世界的影响?


👦🏻 李乐丁

这个太宏大的问题,我确实回答不了。

从我的感受来说,有一点非常明确,就是 DeepSeek 证明了中国无论是研究人员,还是软件 AI 的从业人员,我们掌握的知识和能力一点不比美国差。

我们拥有全部的知识,几乎可以在完全独立的情况下做出最先进的东西,这非常好。至于它对于更大层面的影响,我不知道,但我相信大家一定会因此而感到兴奋。当然,我觉得最近网上有一些传播不太好的地方,就是不要因此就觉得我们一下子完全超越美国了

梁文峰在他的采访中,有两个观点我非常喜欢。第一个前面说过,第二个我觉得是,在他看来,中国和美国的差距到底在哪?

在 AI 这个领域,我们可能只差一年甚至半年。但与其说这是时间上的差别,不如说是原创和跟随的差别。

我们必须也应该承认,AI 几乎所有的原创性想法和 idea 依然来自于美国。

强化学习是谁最早在产业中真正使用的?是 DeepMind。GPT 这种 scaling 的方式,增加模型参数来提升能力的方式,最早从哪儿来的?是 OpenAI。都是来源于美国。所以如果我们这个阶段不能够从一个跟随者变成一个原创者,那我们与美国的差距可能永远会停留在一年两年。我们可以跟得很近,可以学会,但不能超越它。

我有点感触,感觉现在的 DeepSeek 更像是 Ilya 时代的 OpenAI,而不是 Sam 时代的 OpenAI。

现在的 OpenAI 太过于路径依赖,它当然是完全封闭的。一是太过于沉迷于 scaling,也就是增加算力,另外就是产品化纠缠了它太多的精力。其实大家对 OpenAI 最大的期望还是把 GPT5 做出来,去超越原先的东西,做这些事情才是大家希望看到的。


🚥 Koji

我们正好问到第八个问题,就是为什么梁文峰能够带队 DeepSeek 做出这样的成绩,而其他国内的大厂,我们就不点名了,反正也就那么几个,大家都知道是谁,为什么他们做不出来呢?


👦🏻 李乐丁

主观上我觉得很多时候还是 KPI 压力太大,KPI 的压力设置可能不太合理。应该来说,梁文峰他们团队是没有 KPI 的,大家更多秉承着纯粹的 researcher 的态度。我们不一开始假设某一条路一定正确,大家一起讨论,看看哪条路行,就投资源去做,做不成那便做不成,效果差可能再坚持坚持。如果实在看出来效果差,可能换一条路线。

我觉得这是正常的进行科学探索的道路。我们从小就学爱迪生如何发明灯泡,试了那么多次,不失败哪来的成功呢?但是在大厂工作可能不是这样。大厂虽然资源多得多,人才也多得多,数据也多得多,但是压力也大。很多时候如果这一版模型不能把效果提升个 3%、5%,可能就保不住工作了,这确实会影响大家做事的方法,可能不太愿意去尝试那些目前看起来不行的东西,更愿意萧规曹随,前人这么做了,然后在他的基础上扩大点规模再去做,这样才能活下去,这是我主观的一家之言。


🚥 Koji

其实这里又到了第九个问题,就是看上去 DeepSeek 的胜利是工科生的胜利,技术的胜利。那问题来了,AI 时代的产品经理们要怎么办呢?


👦🏻 李乐丁

我觉得产品经理对于 AI 太重要了,是灵魂。咱们也别光说好的,也泼个冷水。

说实话,现在 AI 模型的发展与 AI 应用真正的诉求是不一致的。

R1 确实非常棒,o1、o3 都非常棒。但是应用需要的不是这样的,应用需要的是稳定可复现且可 scale 横向扩展不同领域的能力,而不是在某一个 Math 纯粹的领域上做得很好,但又不能百分之百正确,这跟应用的需求不一样的。

比如说我们前面说到一个共识,除了说 Pre-training 的撞墙,Post-training 的希望,还有一个第三共识就是应用并不会选择最强大的模型。

现在应用的普遍做法是用小模型,甚至非常小的模型,不再追求模型有很强的推理思考等能力。把这些所有的问题交给其他,交给比如说产品经理写的 prompt engineer,交给我的 RAG 系统,交给我的一个外部程序来进行判断。将逻辑留给传统的地方,只让 AI 去承担类似于传统 NLP 的工作,这是现在应用的实际用法。因为从应用的反馈来看,现在的模型确实达不到大家想要的质量,所以我们只能退而求其次,把能用的那部分东西拿过来。说了这么多,产品经理的作用是什么呢?那简直太重要了。

产品经理要去定义产品中的边界,要明确哪些是 AI 在现实中完成不了的事情该如何做。

就像我们上次聊的时候,我举过这样一个例子。比如说我让 AI 去订机票,你无法想象两年过去了,这样的产品还是没做出来。为什么?哪怕有了 o1,美国人用上六个月了也没做出来,也没变得更好。为什么?就是因为实际在做的时候,订票不是一锤子买卖。

你不能一开始就提前跟 AI 说清楚你到底要什么票。不可能说你给我订一张明天北京到上海几点钟、哪个航空公司的经济舱,还是公务舱,要不要升舱等等,我不可能提前说出来,一定是中间需要不断地看,不断地想,跟我的行程做对比,中间会有很复杂的流程。这个流程是 AI 不可能一步提升的。中间如何来提升整体效率,这一定是产品经理的事。所以可以说产品经理才是真正 AI 走向应用的灵魂,决定了这里面的工作,在这个层面上完全没有替代到人。

我们可以看这样一个例子,就是现在比如说 RAG,RAG 大量的应用是做企业内网搜索。做过 RAG 的同学其实都能想到最好的实践是什么,是 RAG 的检索。RAG 要的语料的内容是只通过你的搜索系统内部联网检索系统查出来的。而你要用 RAG 里面的知识,而不是用模型自己的知识,因为模型自己的知识会产生幻觉,但是要用模型的语言能力完成 LLM 的理解、总结等事情。这应该是一个 RAG 提供知识,LLM 提供能力的好组合。

但现状是真正用起来发现它们两个边界是不能精确控制,经常出现的情况就是模型输入结果耦合了 RAG 的知识和模型自己的知识,甚至模型自己的知识用得更多,这就出现了幻觉。

而反过来,有时候经常会出现,虽然完全应用了 RAG 的知识,但是 RAG 的数据又反向压制了 LLM 自身的能力。这些情况经常出现,但是想要改变挺难的,因为你不能重新训一个模型,只能在你的 RAG 系统之外再加额外的方式去做。所以从这个角度来说,大模型用起来也有这个问题。而大模型你也不能去改它,Fine-tune 成本又更高,那不如用一个小模型,把更多逻辑的工作、稳定性的工作留给 RAG。

DeepSeek 对 ToC、ToB 和 ToD 的影响

🚥 Koji

这个很清晰。好,我们进到第三部分,就是 DeepSeek 发布之后,对于 ToC、ToB 以及 ToD(To Developer)的各种各样的影响。

第十个问题就是 DeepSeek 的发布,尤其是 R1,李老师你会认为它对 ToC 的各种各样的产品带来了哪些影响?


👦🏻 李乐丁

我觉得它对于 ToC,其实对于整个产业都有非常大的影响。因为成本实实在在地被降低了一个数量级。

现在我们的 AI 应用,很多时候并不是卡在成本上,而是卡在能力上。如果这部分成本降低的话,我可以将更多的预算留下来,去引入人工,让产品经理在偏人工这部分去做更多的规划和设计,这样 ToC 的产品可能会做得更好,这是其一。其二就是原先那些确实已经用 AI 的地方,但是因为成本原因,比如说基础的 NLP 理解、基础的规划等等,这些东西都可以用起来,这块可能会带来一个阶段性的高潮,让大家都去尝试。


🚥 Koji

那对 ToC 的这些产品的影响,比如说大家会认为现在好像模型就变成了产品,它会淹没掉很多的产品。你有这样的感受吗?


👦🏻 李乐丁

我不认为是这样。在我看来,无论是 OpenAI 的 APP,还是像其他的 Gemini,或者是国内的一些 APP,如果你看现在的数据分析,会发现它们的用户时长都不是特别长。包括我们自己使用,其实每天使用的次数也不是特别多。

其实这很大程度反映出我们现在还没有准确地抓到大家的需求痛点。

可能确实是因为这个行业技术发展得太快了,还缺乏足够优秀的产品经理来定义什么样的东西用 AI 来解决问题最好。以至于当大家的需求没有被正确地定义、定位、满足的时候,大家只能去尝鲜,去看谁家的技术更好一些,所以才带来了这样的影响。我觉得后面当整个市场进入到一个更加完备的运转,有更多的产品经理进来去界定的时候,就不会是这样了,除非 AGI。


🚥 Koji

我也这么认为。好,我们第 11 个问题就是 DeepSeek 的发布对于 ToB,ToB 又分为 To Enterprise 和 To Government,你会认为带来了哪些影响?


👦🏻 李乐丁

对于 ToB 和 ToG 这两个方向,我觉得影响可能是很深远的。你们观察到,在 DeepSeek 上线之后,非常短的时间内 Azure 就开始支持使用 DeepSeek 了,然后 AWS 很快也跟进,今天几乎所有的一线云都跟进了,允许你使用它作为推理模型。

其实这会产生这样一个问题。我们在之前开源中观察到,如果一项技术它的上限提升不再快速前进,那这时候对于各家商业公司来说,它的生存危机就消除了。因为不会再出现如果我没有立即跟进最先进的模型,六个月之后别人出来的模型巨幅改善效果,直接断了我的活路这种情况。在这种情况下,各家可能会将模型研究重点从军备竞赛,谁能够做出一个 GPT4 级别的模型,变成更加理性,让研究团队转向于类似于 DeepSeek 的这种方式,去探索超越 Transformer 的下一代模型,这部分什么时候能做出来不着急。

而与此同时在产品方面直接使用开源的 DeepSeek,大家都具有同样的产品。我们几乎所有的中国互联网公司,包括美国的互联网公司,都大量使用开源软件,大家都使用 Linux,大家都使用 MySQL、Redis,开源软件使用量非常巨大。无非是大家发现当开源真的已经是业界最好的时候,不再有生存危机的时候,没有道理不用。所以可能整个 ToB 都会产生影响,尤其是中国这块,我觉得会有深远影响。

但是美国这块,我觉得美国可能也会有自己的 DeepSeek。因为毕竟由于像 Anthropic 等等,以及由于现在美国的政治环境,它可能对中国还是有敌视的,他们很可能不愿意看到一个来自中国的产品在美国也做大生态,可能他们自己会做一个类似的东西出来。但我觉得如果大模型上线不再提升,可能将来 ToB 方向大家用的都是开源模型。


🚥 Koji

好,我们的第 12 个问题就是对 ToD,因为 ToD 也是大语言模型一个非常重要的方向,AI coding To Developer。

李老师你会认为 DeepSeek 它有带去什么样的影响吗?因为我看到是 Cursor 他们有官方出来发言说,其实目前不管是他们自己的评测还是用户的反馈,仍然认为 claude 3.5 Sonnet 在写代码上还是一枝独秀的。


👦🏻 李乐丁

是的,我觉得对于 To Developer 来说可能是影响最小的。因为刚好 Developer 这个方向是 claude、OpenAI o3、R1 他们都最擅长的方向,而这个方向后面还在快速发展,所以谁能够领先都不确定,可能中间之后还会有很大的变动。

而这些模型能力的好坏直接决定了像类似于 Cursor 这样的 To Developer 软件会使用什么样的模型。但我觉得没关系,这样的竞争才会诞生出新的技术。也许我们这个阶段又落后于美国了,那又如何呢?再过一段时间我们有很好的研究,还会超过它。

可能最终受益的就是开发者,每个人手里都会有一个很好的 AI chatbot,帮助他去做一些写 code、写测试、写文档等事情,这是好事。


🚥 Koji

确实很精彩。我其实刚才突然回想,在我人生前面三十几年,什么时候有如此强烈地感觉到科技的进步就在眼皮底下发生,之前好像并没有如此强烈的感受。


🚥 Ronghui

但这个就好像第一次用 iPhone 的时候。


🚥 Koji

对,但是第一次用 iPhone 之后并没有出现你追我赶的情况,比如说今天用了 iPhone,过了三个月又发了一个新的 iPhone。没有,所以这个感受还蛮奇特的,我觉得可能也是人生仅此一次。

我们第 13 个问题是想看一看 DeepSeek 的发布对于 AI 应用的影响。其实在 DeepSeek 发布之前,我不知道大家是不是还记得,因为现在新闻实在太多。但十字路口在那个时候做了两期内容,我们其实很激动,Davin 的发布会意味着它标志着 2025 年,甚至是 AI agent 落地的一个元年。

但现在 DeepSeek 这么一发布,会对整个应用领域又带来哪些影响呢?李老师其实前面也提到了一些,看看在这里有没有一些额外的补充。


👦🏻 李乐丁

对于应用来说,我觉得其实它相当于 to B 的一个延展。一个是应用使用什么样的技术栈,我觉得 to B 的问题可能大家都会转向开源模型,这种情况很有可能会发生。另外一个就是应用本身会不会因为 R1 的发布而大幅前进,我对这个事情是比较存疑的。

因为站在应用角度,还是那个大问题,就是应用需要的能力是现在的 LLM 不具备的。

其实我们看到 o1 出来几个月,也没有哪个 APP 因为它解决了原先解决不了的问题。然后我们会看到越来越多的应用在尝试过所有模型之后,觉得不必使用 GPT-4 这种超强的模型,甚至不必使用 claude 这种非常强大的模型。

我在美国看到一个特别有意思的事情,就是当你问很多人 Google 的 Gemini 那个 APP 怎么样时,大部分人都说不太好,觉得这个模型有点笨,没什么优势。但是如果你问他们 Gemini 的 API 怎么样,大家都说好。因为 Gemini 的 API Gemini Flash 确实又便宜又快又好。

从性价比来说,Gemini 2.0 Flash 甚至比 DeepSeek 更高。我们看实际定价,尤其是 Google 有 TPU 的支持后,它的成本非常低。所以对于应用而言,我们早就走向了一条可能跟今天 LLM 研发方向不太一样的道路。因为大家都在用小模型,都在玩 RAG,都在玩 Prompt Engineering,跟这个不太一样。所以我觉得从应用前端这部分角度来说,可能变化不会太多。


🚥 Ronghui

这个 Gemini flash 其实也是一个推理模型,但是它好像没什么名气。


👦🏻 李乐丁

对,是的,这可能是 Google 在 PR 方面这次做得不太好。

它的 Gemini 2.0 flash 的效果是 sota 级的。它跟原先的那些 GPT 4o 等等也是同等级别的,但是它的成本非常低廉。同时还有一个 Gemini 2.0 flash thinking 是一个带推理思考的模型,也很不错。

李飞飞的论文就是从它里面去蒸馏的,数据能力也很强,只不过在 benchmark 上现在打榜可能还差一点。而且 Google 最近还发了别的模型,它还发了它的 flash light 模型,进一步降低成本。

我觉得 Google 在这方面看得很清楚。因为 Google 实际上是全球最大的应用玩家,最大的 AI 应用就是搜索。它之前就看的很清楚,将 AI 的成本降低绝对是推进已有应用更大规模上使用 AI 的一个重要手段,所以它一直在强调这个。确实 Google 可能也是大公司病缠身,它最近在 PR 方面做得确实不太好。


🚥 Koji

所以我觉得它产品也做得很差。这个 Gemini 2.0 flash thinking 藏在 Google AI Studio 里面,而那个 Google AI Studio 的界面真的不是给普通用户用的。我一开始它发布的时候也用了好几次,确实印象很深刻。但是后面入口太深,每次使用还要再重新想想怎么点击,几次之后我也懒得用了,确实有点可惜。

好,我们到第 14 个问题,就是 DeepSeek 这一波出来之后,很快就在好几十个国家的 App Store 上榜到榜一大哥的位置。而且同时它也是历史上最快从 0 到 3000 万到 4000 万日活的一个应用。但是另一方面我们也看到 DeepSeek 它内部卡本来也不太够。应用的大规模流行据说影响了他们的训练,所以他们其实也迟迟没有把对应用稳定的维护放在第一优先级。貌似他们仍然想把更多的卡拿去做训练,而不是拿去服务 C 端的用户。

那李老师你怎么看?就是 chatbot 对 DeepSeek 重要吗?你预测他们之后会如何进一步做他们的 chatbot,还是会慢慢觉得不重要就不做了。


👦🏻 李乐丁

这个问题我回答不了,这可能只有梁文峰自己来决定。

但从我的情感角度来说,我不希望它做 chatbot。因为一旦做 chatbot,就会耦合大量的产品化工作。因为大量实际用户在真正使用的时候,不会天天去问复杂的应用题,不会问那种需要多步骤思考的问题。

我们的考量点不是这样的。产品化会关注更多日用性的问题,而这些问题会需要做很多额外的工作。而且如果你推出了产品,你会关心更多产品的质量、可维护性等等。这些东西都会牵扯大量的精力,就像今天 OpenAI 遇到的问题一样。

所以从情感角度来说,我觉得中国不需要一个「Another APP」,中国需要一个 OpenAI。

所以我希望它简单做一做,让大家体验一下就可以,别把精力放在这儿,还是继续做我们的原创技术,我觉得这才是让大家最兴奋的地方。


🚥 Koji

其实去年 12 月,我们有一期内容是和晚点的曼琪来复盘大模型这一年。

里面盘点了各个国内的模型厂商,当时也提到了 DeepSeek。提到 DeepSeek 的时候,我记得有一个印象非常深刻的故事。就是梁文峰在一次对外表达里提到 DeepSeek 不在乎商业化,而且不做商业化。因为他认为任何对商业化的尝试都会影响、稀释、分散他们在科研上的注意力和投入。

所以其实刚才李老师你讲的这个愿望和他不做商业化有点一脉相承,就是不要做商业化,甚至 to C 产品都不要做,就好好做科研,在这里可能才是最能获得 ROI 最高回报的地方。


👦🏻 李乐丁

是的。

未来展望:算力、数据与 AI 研发的下一步

🚥 Koji

好,我们到第四部分,来聊一聊未来。第四部分的第一个问题,也是我们整体的第 15 个问题,就是在未来算力还重要吗?

这牵动着万千股民的心,因为很多人都买了英伟达,如果算力不重要,那就意味着巨头们在芯片、算力上的持续投资也会下降。李老师你怎么看?


👦🏻 李乐丁

我坚持我一直以来的「暴论」,我觉得不要再投资算力了。投资算力其实归根到底还是坚持 pre-training 的 scaling law,但我明显看出它的上限在哪里。

而且降成本的方式有很多,只是很多人没用。DeepSeek 既然出来了,大家都会关注降成本以及推理这块。推理的实际应用中大家也在用更多的小模型。所以我觉得阶段性而言,对于算力的需求一定会下降。特别是如果按照前面的预测,当模型能力不再上升,to B 都开始选择走开源模型,大厂不再做军备竞赛的情况下,就没有什么再消耗训练算力了。

而推理可能阶段性的还会下降,因为大家都会用小模型,直到我们的 AI 应用迈过产品化的门槛之后再上去升。所以中间阶段性来说,我觉得现在没有必要再去卷算力了,大家应该把精力放回来去卷算法,去钻研那些超越 Transformer 的知识。我们让模型学了 1 万亿的 token,几万亿的 token,它还没学明白为什么 3 加 5 等于 8,这是不对的。


🚥 Koji

有趣。如果李老师这个 「暴论」 认为算力不重要了,不要再搞芯片,不要再投资买芯片了。

那第 16 个问题就是你认为在未来数据还重要吗?拥有独家数据的公司,这还能不能构成他们的壁垒?


👦🏻 李乐丁

我觉得数据比算力更现实,还是很重要的,尤其是在垂直方向。

其实我们之前的各种各样的应用,无论是搜索、推荐还是短视频等等,都证明拥有数据的分布对于提升质量的价值有多么重大。因为归根到底,今天的无论是 AI 还是大数据等等,这些都是统计模型。所以数据越多,统计的效果也就越准。所以数据还是很重要的。

但是不要迈过一个太高的门槛,不是说当我已经积累了几万亿 token 去训练模型,然后还继续堆数据,我觉得那就没有必要了。但是基础性的这种数据还是一个非常重要的壁垒。而垂直应用方面的数据,或者说垂直数据,就是垂直知识和行业认知,这个永远是壁垒。


🚥 Koji

我们来到第 17 个问题,来大胆预测一下 DeepSeek 的下一步,或者说就在我们正在录播课的此时此刻,梁文峰和 DeepSeek 的团队他们在想着下一步要做什么,他们的 to do list 里面包括些什么?

李老师你有一些大胆的预测吗?


👦🏻 李乐丁

我觉得如果是我,我会沿着 V3 现在和 R1 未竟的事业继续去做。一个事情是我们要继续探索一下 R1、R-Zero 这条路它的上限在哪里。我觉得值得去探索,我们已经走了 8000 步了,那再往后走会怎么样?我觉得大概率走到 1 万步、2 万步,效果可能都会提升,但是走到多少步骤的时候,边际效应会递减,这个值得去探索。

以及另外一个很重要的问题,就是能不能通过纯强化学习问题,真的就直接解决模型不说人话和语言混合的问题。毕竟它蒸馏一轮,这不是一个特别优雅的方式。做技术我们还是要追求一些优雅性,我觉得这些都值得去做。

以及它的 V3 里其实开了很多新的探索。比如它那个 MTP multi token,还有它的新的路由算法,这些路由算法在 V3 里收益都不明显,它做了明确的实验,论文数据里都有。但是这些东西也是很有前景的,我们如果有资源的话到 V4、V5 去继续做实验,我觉得他们会去做。

然后我觉得还有一点,其实它在论文中也写了,后面去探索超越 Transformer 的其他的新的模型,其实这一点是我最希望它去做的就像前两天它还在讲,就是未来如果你真的想实现 AGI,那一定不是自回归模型,一定要去尝试通过概念、通过这个世界知识等方式去做。

我还是希望能看到我们的这些研究部门去尝试,真的从大的 idea 方面去超越 OpenAI,去超越 DeepMind,去想一想完全迈向 AGI 应该怎么走。


🚥 Koji

我觉得李老师还是对 DeepSeek 寄予厚望,和大家都一样,感觉如果我们真的要期待更多奇迹的话,感觉 DeepSeek 确实很有可能不断带给我们信念感和力量感。

好,那现在是第 18 个问题了。除了 DeepSeek,我们还有非常多其他厉害的公司和主要的玩家。也想请李老师来帮我们大胆预测一下,接下来字节、腾讯、阿里他们分别会做什么。


👦🏻 李乐丁

我觉得作为商业公司来说,如果没有切身的生命威胁,也就是短期观察不到某项技术会快速发展直接颠覆自己,同时又观察到这项技术成本可以大幅降低,有开源的时候,他们的策略一定会做一些评估、做一些调整。

可能没必要在原先那条路上继续巨额投入去烧钱,不如在开源的基础上去改进,做一些更多的改进,以及做一些研究。

其实我觉得用开源做改进,再加上一部分针对自己的第一方研发,然后再加上一个面向未来的探索,其实这才是大厂工作的常态。

过去十年来大厂工作常态就是这样的,而不是说我就一定在某一项还没有定论的基础上疯狂投入,我觉得那样不正常,可能他们一段时间之后都会有所调整。


🚥 Koji

我们第 19 个问题,再来聊一聊美国。

美国不管是 Meta、Google、微软、亚马逊还是 OpenAI 和 Anthropic 他们下一步要做什么?李老师你会有一些信息或者有一些预测吗?


👦🏻 李乐丁

美国这边,我觉得美国人肯定是被吓着了,这一点是肯定的。但是不同的人被吓到的地方不一样。

如果说研究者们,客观来说一流的 researcher,其实大家都知道前进的方向大概是什么样子的。所以在这方面,我觉得美国目前来说仍然会是原创者。所以很有可能下一个小突破,或者大突破,还是有更高的概率会出现在美国,大家会做其他方面的事情。这需要客观看待,我们还是需要时间追赶的。

然后美国的那些大公司其实也一样,我了解到像 Meta 也在评估自己对 Llama 的巨额投入是否是一个正确的方式。想来他们应该也会跟中国这些商业公司一样去做调整。然后我大胆猜测美国很可能也会有一个跟 DeepSeek 对标的开源产品,满足美国人自己的安全感。

但与此同时,对于其他更多在业界之外的人来说,这简直太可怕了。本来他们觉得世界独一无二的技术,结果不光技术上被中国破解了,成本上也被中国大幅压低了。他们可能会做出很多反应,但又能怎样呢?


今天我们必须得承认,今天中美就是全球唯二掌握最先进科技的国家。只有这两边有实验科技,有互联网,有云计算,有人工智能,有新能源,有自动化机器人,这些中国已经有了,你拦是拦不住的。所以与其花时间去搞阴谋论,不如自己多努力。


🚥 Ronghui

我看到几个分析说目前可能受影响比较大,偏向负面影响的,主要是 Anthropic 和 Google。


👦🏻 李乐丁

Anthropic 和 OpenAI 可能压力也比较大,但最大的可能还是 Llama,这毕竟以前是开源第一,现在可能这个地位不保。


🚥 Ronghui

我看到很多人都在讨论模型商品化,以及模型商品化跟推理成本的降低给各个厂商接下来带来的比较大的影响。


👦🏻 李乐丁

我觉得模型商品化这个说法是对的,但说这一定是 DeepSeek 导致的,我觉得也未必。

这只能说是大众终于感受到这一点了。其实即使没有 DeepSeek,模型的低成本化、商品化一直在进行,过去一年一直在进行。

我们会看到大家日用的模型,从一开始千亿模型迅速降到百亿模型,降到甚至几 B、几十 B。这个下降的趋势还在继续。我们要推进应用,一定是要降低成本,这是不可改变的。


🚥 Ronghui

OK,第 20 个问题,在看对 DeepSeek 的一些分析的时候,我想到之前 Peter theil 曾经讲过的。他觉得一个真正的创新是要在许多不同层面的创新必须同时发生,并且是以高度协同的方式组合在一起。

如果李老师总结一下,就是 DeepSeek 它在低成本推理方面的巨大成功,如果按照 Peter theil 的这个说法,是在哪些方面?


👦🏻 李乐丁

DeepSeek 它的创新其实蛮多的。但是坦白说,很多创新也并非 DeepSeek 的原创。

我们看论文的引用,其实会看到很多想法是一些研究者率先提出的。DeepSeek 是首先将它在开源的里面大规模地应用了起来。很难说一家公司就把所有的原创都囊括了。

但我觉得最重要的一点,还是要坚持搞科学的一个基本原则,就是无论是科学还是创新都是没有固定方向的,它是不可预知的,会有很多不同的方向。在这些方向中你要去认真地试验、去尝试、去做,我觉得去做这件事儿才是最重要的。


🚥 Koji

我们先谢谢李老师,这也是十字路口第一次尝试用 20 问的方式来聊一个话题。我们希望这种方式可以让我们比较全面地从各个层面去了解一个热门的议题、一个热门的技术或者一个热门的产品。再次感谢李老师的时间,也欢迎你以后再来十字路口。

然后 DeepSeek 也是一个我相信会热度持续很久的产品。如果听到这里的朋友有什么想要分享的,或者有什么想要提问的,欢迎大家在评论区给我们留言,我们看到都会回复。好,谢谢大家,也再谢谢李老师。

如果你认为有朋友也会喜欢本期十字路口的内容,请转发微信推荐给他们。最后欢迎你加入十字路口的会员群,我们鼓励大家在群里聊天互动,交朋友,寻找未来的同路人。


---end---



欢迎订阅「十字路口」播客

🚦 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。AI 正在给各行各业带来改变,我们寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱新变化,新的可能性。


👦🏻  主播 Koji:新世相/躺岛的联合创始人。我相信科技尤其是 AI 会在未来彻底改变社会,赋能人类,欢迎大家找我聊天,碰撞想法,链接下一个可能性。Koji 的即刻[2]Koji 的网站[3]


👧🏻 主播 Ronghui:供职于科技 VC,前《第一财经周刊》驻硅谷记者,Ronghui 的即刻[4]

欢迎加入「十字路口」的会员群


☀️ 第一手的 AI 资讯与洞察

👫🏻 鼓励大家谈恋爱/交朋友/寻找未来的同路人

🦀 添加小助理微信入群:Rwkfbcianvd ,或扫下方二维码

参考资料

[1]

《"我想击碎你们对于 AI 不切实际的幻想,并重建一个正确的认知"》: https://www.xiaoyuzhoufm.com/episode/6692529b37236c546edd4b2f

[2]

Koji 的即刻: https://okjk.co/0JSUes

[3]

Koji 的网站: https://koji.super.site/

[4]

Ronghui 的即刻: https://okjk.co/0cbnYV


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 强化学习 R1模型 技术探讨 AI发展
相关文章