基模下半场：开源、人才、模型评估，今天的关键问题到底是什么？

关于基模的讨论又重新热闹起来了。

Kimi、Qwen、智谱的开源模型接力发布，Hugging Face 上中国模型基本垄断了热门榜。就在今天，阶跃星辰的 Step-3 也开源了。

另外一方面，小扎疯狂挖人重新做 Llama，最近的公开信又暗示说 Llama 5 可能不会开源。

开源模型的标准眼瞅着要变成中国模型，大模型的竞争实质上已经变成了中美 AI 的比拼。

RL、CoT、Agentic、Coding……相比较这些技术或能力的讨论，今天的大模型，可能更需要一个能够更好评测它们能力的好的基准测试。是的，依旧是 AI 下半场的问题。

Interconnects 作者，Ai2 研究科学家 Nathan Lambert 最近采访了 Meta AI 的前推理团队负责人 Ross Taylor ，他曾主导 Llama 2 和 Llama 3 等模型的研发工作，就今天开源模型的现状、模型训练团队的优劣，以及模型评测的问题等，两人进行了一场深聊。基于对谈，Founder Park 进行了编译，整理了对谈的精华内容。

TLDR:

一旦某种模式被验证可行，它的实现本质上就成了一个工程问题，而中国最擅长处理工程问题。

如果把模型视为基础设施，中国的开源模型未来会成为发展中国家的模型标准。

不同机构间的人才差异并没有那么大，聪明人最终总能想出办法。好模型和坏模型的差异，往往反映的是资源和人才利用效率的问题。

找到模型的正确方向，归根结底是实验速度，以及拥有合适的基础设施和足够好的基础模型，不仅仅只是人才。

现在能做出好的评测，可能比以往任何时候都有更大的影响力。好的评测可以带来新的话语权。

在「机器学习的下一个任务是什么」这个问题上，还有巨大的蓝海，有人可以去定义它，而且定义这个并不需要庞大的算力集群。

RL 无法泛化到数学和代码之外的说法被严重夸大了，从数学和代码开始的原因是，因为它们很容易被验证。

超 10000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；

不定期赠送热门新品的邀请码、会员码；

最精准的AI产品曝光渠道

01 中国模型成为开源标准，

意味着什么？

Nathan Lambert：这两周，中国的达模型动作很频繁，智谱的 GLM-4.5 到月之暗面的 Kimi 2，再到阿里的 Qwen3 ，势头很猛，发展速度惊人。你认为，对美国市场产生什么影响？未来半年，行业格局会怎么变？

Ross Taylor：难得一天没刷 Twitter，早上你跟我说这些新模型 GLM-4.5 时，我赶紧补了课。这大概能说明，在开源领域，哪怕一天不关注，都可能感觉像落后了两个月——当然这有点夸张。我觉得大趋势就是快速变化的。

回顾一年前，Llama 2 模型还是相当稳固的行业「标杆」。虽然之前中国的大模型有动作，但远不如现在的铺天盖地。尤其中国的商业文化，一旦发现某个方向可行，就特别擅长集中资源追赶，所以我们才看到这个领域竞争异常激烈。

从不同维度看，这个背景都很有意思。比如地缘政治维度，就像你之前提到的：如果开源标准变成了中国模型，会意味着什么？如果把这些模型视作基础设施，而不只是驱动产品的工具，那么中国若想成为整个「全球南方」*的标准，似乎就占据了巨大优势。

注：全球南方，发展中国家和新兴市场国家的集合体，通常包括非洲、拉丁美洲、亚洲和太平洋岛屿等地区的发展中国家。

Nathan Lambert：为什么中国在训练语言模型上看起来这么顺利？

Ross Taylor：我不想泛泛而谈，毕竟很多中国新机构在创新上做得不错，比如这周的 GSPO （Qwen 3 的 RL 算法）就是个好例子。但总体感觉是，一旦某种模式被验证可行，它的实现本质上就成了一个工程问题，而传统上，中国的工程文化很适合在这种情况下取得成功。

另一个角度是，尤其在 DeepSeek 之后，政府很擅长识别成功方向并允许资源投入，特别是在公私合作方面。我今天早上就在 Twitter 看到一个讨论：清华大学有了自己最先进的语言模型，为什么麻省理工学院（MIT）没有？

Nathan Lambert：他们好像资源不足。

Ross Taylor：是啊。我觉得美国会意识到这一点。不过，智谱是从清华大学孵化的创业公司，所以这个类比可能不太恰当。而且阿里巴巴显然是大赢家，既有通义千问（Qwen），又投资了月之暗面，好像也投了智谱。

我更感兴趣的是，他们为什么都选择开源？这比人才问题重要得多。美国当然也有大学孵化的模型机构，但并非所有大学都这样做，MIT 也许会做，但例子还是少数。不过我也同意，美国应该为学术界部署更多算力，很多大学正在建设中，只是需要时间。这里面因素很复杂。

我觉得人们对事情的实际运作方式有点信息不对称，谁也不知道内部到底发生了什么。另外，人们总把开源模型看作一个同质化的类别，但其实它们的用例大不相同。比如我想发一篇关于推理的新论文，可能会用 Qwen 模型；但如果要做模型蒸馏，我就会用 DeepSeek 或者 Kimi。

这又回到了 OpenAI 的问题上。我确信他们会发布很棒的模型，但不太清楚它会如何融入现有的生态系统。它会成为人们做研究的基础吗？如果它是一个经过后训练（post-trained）的模型，那大概率不会。

Nathan Lambert：OpenAI 最近的宣传重点是安全，我怀疑新模型推迟发布与此有关，这很符合他们的文化。如果真是因为安全问题，他们大概率不会发布基础模型。所以我认为，这次发布不会改变整个生态系统，顶多算一个有趣的独立发布。

Ross Taylor：是的。可以理解为，他们只是想提炼现有基础设施的精华，填补市场空白，而非公开自己的架构选择。回到之前的问题，Nathan，你觉得 OpenAI 的开源模型在用例上更像 Kimi、DeepSeek，还是和 Qwen 一个级别？或者会是完全不同的东西，比如更小的端侧模型？

Nathan Lambert：我预计它会更小。如果强化学习（RL）是 OpenAI 的强项，那在开源社区发布 RL 模型的一大挑战是，训练基础设施必须和推理基础设施相匹配。所以，除非他们在一个大家普遍能用的开源环境（比如 vLLM）里训练，否则不可能直接发布模型说「你们可以在自己的开源栈里做搜索和代码执行了」。我觉得工具使用天生会巩固闭源模型的地位，因为让工具与模型完美匹配能带来巨大优势。

Ross Taylor：是的。我看到 Qwen 在函数调用等方面做得不错；Kimi 的基准测试中，在智能体（agentic）工具使用上表现还可以。另外，他们有个不错的训练创新，就是调用 MCP 服务器，这是一种很好的合成数据策略。但这也得看情况，毕竟我们看到的主要是头条新闻里的评测数据，这些不能全信。

Nathan Lambert：我认为 Claude 3 Opus 的发布，在某种程度上终结了追逐评测分数的风气。单看纸面数据，它的发布平平无奇，但给所有人的实际体验都非常扎实。

Ross Taylor：我几个月前就在思考一个问题：一个模型发布后的影响力时间线是怎样的？第一天，说实话，都是些基准测试分数，比如「我在 MMLU Pro 上拿了多少分」。第二天，人们开始在 Twitter 上做各种奇怪的定制化评测。

Nathan Lambert：比如关于鹈鹕、旋转六边形和球之类的测试。

Ross Taylor：到这个时候，你的信心会更足一些。因为你会想，除非模型公司特别聪明——我相信有些人确实聪明——否则不太可能针对第二天的这些基准测试做优化。这时你才会开始相信，这个模型可能真的具备泛化能力。然后要再过一到两周，才能得出真正的结论：「我在多个实际场景中都用过了，它确实很棒。」

Nathan Lambert：我有一个观点，你来反驳看看：相比 OpenAI、Google 和 Anthropic，中国的模型供应商是否更侧重于针对基准测试进行优化？在我看来，这一点显而易见。

Ross Taylor：是的，而且因为一些有利因素，这个问题还没有完全暴露出来。试想，你是一位研究推理论文的学者，你自然会在数据可得的领域做研究，比如数学和代码——而这些恰好是他们优化过的领域。所以，即便有些研究反过来强化了 Qwen 的使用场景，也未必能测试出模型泛化能力的边界。毕竟我们知道 Qwen 在数学和代码上经过了大量中间步骤的训练，可能并没有在更有趣的边缘场景中去测试它。

02 顶尖人才很重要，

但不是决定性因素

Nathan Lambert：如何为训练语言模型设计高效的组织架构和文化？之前聊过这个，展开谈谈吧。

Ross Taylor：在社交媒体上，你会看到一个普遍趋势，就是像 NFL 选秀一样官宣某人被某机构招募。其实研究人员在不同机构间流动很正常，不算新鲜事，很多被大肆宣传的跳槽就是常规的人员流动。

但我觉得，至少在 Twitter 上，大家普遍认为许多语言模型项目的瓶颈是「技术问题」。可根据我的个人经验，并非如此。有很多方式可以论证这一点，我想从一个基本点说起：机器学习是一门高度依赖经验的科学。在这种背景下，「天才」或「天赋」到底意味着什么？

当然，有些技能很有用，比如设计最小可行性实验、快速迭代以避免研究方向走入死胡同。但很多时候，这归结于努力工作、良好的基础设施和充足的资源。在这种情况下，大多数机构即便在某些公开的失败之前，也都拥有非常优秀的人才。老实说，不同机构间的人才差异并没有那么大，聪明人最终总能想出办法。

所以，好模型和坏模型的差异，往往反映的是将资源输送给人才的效率问题。我认为这是根本。你可能会反驳：「Ross，如果真是这样，扎克伯格为什么要花那么多钱招人？」我觉得这是另一个问题。

Nathan Lambert：不，这正是问题的核心。你怎么看 Meta 大手笔招人的举动？

Ross Taylor：我对此有些矛盾。一方面，我觉得新团队很可能做出非常好的模型，他们都是聪明人。而且成立新机构也是正确的做法，在领导层看来，可能就是：「我们已经尝试过很多次，态度非常认真，也有资源，所以要下最大的赌注。」我觉得这大体上是正确的，虽然开销大，但还不算天文数字。

但另一方面，我确实为一些人感到惋惜。这并非特指 Meta，而是一种普遍现象。很多机构没有好的机制来识别内部那些努力工作的优秀现有人才，反而倾向于另起炉灶。我觉得这才是悲剧所在。所以我的想法很矛盾：既认为他们会做出很棒的模型，从头开始是正确的策略；又觉得那些为前几代模型成长做出贡献的人，有时在贡献价值后，就被当作消耗品，然后公司再转向新的一批人才。这不止是 Meta 的问题，非常普遍。

Nathan Lambert：你曾把大模型实验室比作「绞肉机」，消耗人才。具体来说，研究员是被动地分配任务，还是有很大自由度在一线自主探索？

Ross Taylor：我觉得是这样。不幸的是，很多成功科技公司的模式就是招募非常年轻、积极、聪明的员工，他们愿意为宏大的使命投入大量时间——就像马斯克最初经营公司的方式。很多前沿实验室也是这种模式：有一群「士兵」，表面上像十年前对冲基金里的量化分析师，愿意为自认为有影响力的事业投入难以置信的长时间工作；同时还有一种友好的竞争文化，每个人都想成为最优秀的那个。

Nathan Lambert：我认识不少 OpenAI 的人，他们的工作时间确实很长。

Ross Taylor：是的。而且决策通常由经验更丰富，或者至少有过成功经验的人来做。但在这种环境下，你需要「士兵」，因为竞争太激烈了。我觉得这很可惜。至少我现在创业，就在思考：我们当然需要努力工作，但有没有替代方案？能不能投资于员工，而不是把他们当成消耗品，用完就换一批？这正是我在摸索的答案。

Nathan Lambert：如今科技界很多人都变得有些愤世嫉俗，包括我自己。比如，我收到一个刚毕业本科生的求职邮件，写得非常好，我觉得两三年后这人肯定很厉害。我跟同事聊「该怎么留住这样的人才」，他们却说：「反正留不住，两年后他就会去 OpenAI，我们什么好处也得不到。」

所以，在 Llama 4 的传闻里，有人说他们在进行史上最「牛仔式」的疯狂模型训练，比如中途修改预训练数据配比。这是否说明，高压环境和晋升压力导致了这些混乱？

Ross Taylor：有意思的是，从我听到的情况来看，所有这些实验室内部其实都很混乱，可能每周都在改变方向。这就是我们所处领域的本质。但有些实验室确实很擅长在外部营造「一切尽在掌握」的形象，甚至宣称内部已经有了 AGI 之类的。

事实是，到处都是一团糟。关键在于，既然注定要乱，至少要做一个能正常运转、能产出好模型的「乱摊子」。在我看来，实验室文化倾向于过分看重原始天赋，尤其是在这门经验科学里。如果你认为经验科学主要关乎「实验速度」，那你不仅会重视基础设施，还会重视那些乐于协作、愿意帮助别人的人。在一个推崇个人能力的领域，这听起来可能有点虚，但我真的觉得，在做边际招聘决策时，应该考虑这个人能为现有团队带来多少增值。这些因素其实被低估了，因为现在大家想的都是：找到最聪明的人，让他们去完成那些看似高深的任务。所以我觉得在人才方面有新的玩法可以探索，但这很难。

Nathan Lambert：这么说，如今的差异化，其实在于那些愿意投入更多高度专注的时间去「拧螺丝」的人。

Ross Taylor：这或许能引出另一个可能更具争议的观点：即使是机器学习中那些看似更像新颖研究的领域，也可以看作是一种坚持，而非灵感的迸发。比如去年这个时候，我们都在猜测 o1 和 Strawberry 是什么，总让人觉得是了不起的新东西。但实际上揭晓时，它们基本就是我们两年前就在做的事：强化学习和可验证的奖励机制。只不过他们可能用了很好的基础模型，还做了足够的消融实验来找到有效的组合。

我知道这是事后诸葛亮式的过度简化，但关键是，他们必须通过大量工作才能找到那个「好食谱」。这归根结底是实验速度，以及拥有合适的基础设施和足够好的基础模型。在这样的世界里，「天赋」是什么？是那个说「我们应该让模型思考得更多」的人，还是在一线做消融实验、找出哪个「食谱」有效的人？

Nathan Lambert：既然这些机构内部如此混乱，这对技术进步的上限意味着什么？如果内部这么乱，我倾向于认为上限还远未达到。

Ross Taylor：我觉得这很有趣。因为即便在组织混乱的环境中，仍然会有一些东西「水涨船高」。近期的好例子就是像国际数学奥林匹克（IMO）那样的金牌级成果。我记得好像是三个不同的实验室，用不同的方法，都跨过了那个门槛。如果把时间拉长，比如 20 年后回望现在，你会关注这些研究者用的具体方法吗？还是只会说：「哦，他们只是达到了某个计算的临界阈值，然后事情就开始起作用了。」

不幸的是，计算能力是驱动这一切的巨大指数级因素。如果缩短时间的尺度，就会看到更多具体问题，比如当前瓶颈在哪里。也许智能体模型的瓶颈在环境，也许推理能力提升的瓶颈在更长的上下文窗口。这些都是短期问题。但从根本上说，只要计算能力持续增长，我觉得趋势就向好。所有这些组织上的混乱都只是短期噪音，会稍微拖慢进程，但长远来看意义不大。

03 更难的不是 RL，

而是好的模型能力评测

Ross Taylor：你认为一年后，大家所关注的大语言模型关键基准会是什么样的？

Nathan Lambert：肯定会是和某种智能体（agentic）相关的。我认为，单纯靠扩大模型规模已经不是主要的发展路径了，所有市场宣传都在转向「智能体」。部分原因是扩大参数规模已经不容易了。强化学习的规模化正在发生，但不会带来巨大飞跃，因为每条强化学习的曲线都是对数图，我们已经实现了性能的第一个对数级增长。但智能体相关的应用效果也很好。

我觉得这是个有趣的市场营销问题，所有实验室都需要重新思考如何传达模型的优势。Claude 3 Opus 发布时没能成功传达其优势，但因为它本身足够好，所以没关系。但现在所有人都需要改变这种叙事方式。

Ross Taylor：我同意你的看法。过去几年我做 Papers with Code 平台时，非常注重评测（evals）。我觉得，现在能做出好的评测，可能比以往任何时候都有更大的影响力。但在机器学习领域，这很奇怪，因为传统上做评测不是那么重要，研究人员宁愿去训练模型。但现在，定义指标的能力，比如定义一种你希望看到的能力，像模型擅长交易股票或做科学研究等等，都会带来巨大的杠杆效应。哪怕仅仅是在在大学的研究中。他们可以说：「这就是我们智能体应该努力实现的新北极星指标」，并通过这种方式来掌控话语权。

Nathan Lambert：是的，我们发布了一个替代 IFEval 的评测，叫 IFBench，目标就是让前沿实验室使用它。我给 OpenAI 的人发了消息，他们说：「哦，我们上周已经用上了。」

Ross Taylor：是的，这影响力太大了。另一个有趣的点是，制作和使用好的评测的门槛会越来越高了。比如 OpenAI 的一些评测，在某些基准测试中，强化学习智能体需要有 GPU 才能做机器学习研究，还得启动大量服务器。那种只有两个 CSV 文件（一个训练集一个测试集）的旧时代已经一去不复返了。

这还只是用户端。在评测创建者那边，随着模型能力越来越强，一个糟糕的评测只会导致模型出现极其严重的「奖励投机」（reward hacking），什么也学不到。

Nathan Lambert：你认为后训练（post-training）阶段的评测，是不是最难做好的？

Ross Taylor：是的，而且你会看到越来越多声称效果不错的案例，但细看会发现是极其疯狂的「奖励投机」（reward hacking）。最近有个梗是 KernelBench 评测，数据中惊人的加速比，却连硬件配置的基本信息都没提供。这说明，即便对于这类任务，做出好的评测也需要大量工作。问题不在于 KernelBench 本身，而在于发表论文却不仔细看结果的人。所以我认为，在「机器学习的下一个任务是什么」这个问题上，还有巨大的蓝海，有人可以去定义它，而且定义这个并不需要庞大的算力集群。

Nathan Lambert：关于模型推理方面，你对过去六个月里相关的学术研究有什么看法？有进展吗？

Ross Taylor：我认为模型推理的研究进展甚微。字面意义上的「甚微」，但确实有一些。这个问题可以从不同方面展开。DeepSeek 出现后，开源领域至少有两种主流技术方向：要么走蒸馏路线，做小模型；要么走强化学习（RL）的训练路线。从实践工程角度来看，蒸馏相对小参数的模型远比做 RL 高效。但显然，从学术角度看，大家更想做 RL。

这里的困难是个经典问题：算力不够时，你不知道强加的结构能否泛化。我担心很多研究成果是在相对较低的算力预算下得出来的，这既包括决定 RL 方法学习效果的基础模型，也包括训练步数。所以除非有巨大的性能提升，否则很难看出什么技术是真正重要的。

在我看来，最有用的东西反而相当无聊。比如 DAPO 论文里说的，不应该过滤过长的序列，不应该有偏见。还有一些有趣的工作表明，即便在 GRPO 中一些简单方法（比如裁剪）也可能有效。但即便如此，我们还是没法确定哪种算法能泛化到智能体上。

Nathan Lambert：最近新出来的 GSPO 算法，也就是「分组序列策略优化」，你为什么更看好这个算法？

Ross Taylor：本质上，在 GRPO 中，你为整个序列分配一个奖励，也就是优势函数。但你有一个重要性权重，即新策略与旧策略的可能性比率。问题是，虽然奖励是统一应用于序列中的每个 token，但重要性权重是针对序列中每个单独的 token 计算的。如果你只基于单个序列来计算，实际上会引入大量的方差。

GSPO 的做法是，不再看单个 token 的可能性，而是看整个序列的可能性。所以现在，裁剪不再是基于单个 token，而是看你组里的一个序列，然后说：「哦，这个序列的可能性较低，我们就忽略它。」从他们展示的结果来看，这似乎大大提高了样本效率，提升不是几个百分点那么简单。我之所以更相信这个算法，是因为它非常简单，而且从重要性采样的基本原理来看，它的方向似乎是正确的。

Nathan Lambert：我还是持怀疑态度。我觉得 GSPO 的序列概念挺有意思，但它真能算重大进步吗？不过，对初级研究者来说，这个时代的好处之一是，通过研究这些算法、思考实现方式，能真正学到数学知识。

Ross Taylor：是的，很有趣。在 ChatGPT 火起来之后，我看到越来越多人读论文，总体是好事，但很多人读论文的方式不对。对我来说，基本逻辑是：论文报告的增益有多大？引入了多少复杂性？如果增益不大但复杂性高，很可能经不起时间考验；如果相对简单却有不错的增益，才可能流传下来。

Nathan Lambert：这就是 o1 带来的教训：简单的东西胜出。RL 研究里有种说法：如果某个东西只比基线好几个百分点，很可能没用；但如果是两倍的提升，那才是真正的创新。

Ross Taylor：完全正确。推理领域还有一点，我理解人们专注于数学和代码，因为那里有数据。但我真的觉得，基于 AIME 和 GPQA 基准的论文，远没有之前那么有趣了。

Nathan Lambert：代码可以做得更好，但很难衡量。目前在学术论文中，没有在做相关研究的。

Ross Taylor：是的，即使是成熟的基准测试也是一样。比如 SWE-bench，虽然是好的测试基准，但绝大多数问题都来自 Django。我不是贬低它，它确实很棒。但做出好的编码基准或其他类型的基准，还有很多细节工作要做。

我现在的处境挺矛盾的：一方面，看着那些只在数学和代码上「爬山」的论文，觉得根本上很无趣；另一方面，也同情他们，除了这个还能做什么呢？开源社区里目前没有多少好的开源推理数据集，而那些开源的，我认为基本上不能用。

Nathan Lambert：这倒是个很好的转折点。除了数学和代码，强化学习（RL）的规模化和泛化现状如何？

Ross Taylor：首先，我认为「RL 无法泛化到数学和代码之外」的说法被严重夸大了。实际情况是：OpenAI 最初非常专注于数学、逻辑和谜题，后来不得不拓宽范围，因为模型变得过于理性，只关注那些基准。但 RL 能否泛化到其他基准，从来都不是问题。

我们从数学和代码开始的原因是，因为它们很容易被验证。通过应用 RL，模型学到了一些策略，比如「不应该过早回答」「应该检查工作」「应该考虑其他可能性」。从宏观来看，如果模型能思考更长时间、更多地检查工作、考虑更多事情，那么在数学之外的领域也同样有用。

虽然这样讲，但如果想在数学和代码之外达到所谓的「超级智能」，确实需要针对性的基准测试。问题不在于能否泛化，而是在于实现的性能要有多好。

04 下一步的问题是，

验证变得越来越难了

Nathan Lambert：「评估准则」（Rubric）这个词最近很火，但我理解，它不就是一个人针对特定问题的、用语言模型作为裁判（LLM as a judge）的评估单元吗？

Ross Taylor：是的。它最近很流行是因为 DeepMind 的一项研究。有传言说，OpenAI 实际上不需要太多样本就能在这些任务上做得很好，不需要成千上万的「评估准则」，可能只需要一两千个精心设计的问题准则。它在教模型浏览互联网、综合知识方面显然非常有效。

Nathan Lambert：对于深度研究类任务，「评估准则」会是什么样的？

Ross Taylor：可以有不同主题。比如，关于答案的整体风格；或者，假设要一篇关于最新 RL 推理算法的综述，可能会有宏观标准，比如「至少比较几种方法」「应该有表格比较底层算法」；然后可能有更具体的标准，比如「现在可能应该提到 GSPO」。本质上，它就是一个标准列表。但你真正想要的是平滑、连续的奖励，让模型能逐渐学习，而不是尖锐的信号。

Nathan Lambert：你觉得「奖励塑造」（reward shaping）会一直存在，还是会被算力增长的浪潮淹没？

Ross Taylor：我认为会被淹没，但在此期间，手工制作优质评测仍有很大价值。长远来看，它会被淘汰，因为没有什么是比人类更强的神经网络做不到的。但短期内，仍有很多模型搞不定的角落。

Nathan Lambert：能通过训练大量基于「评估准则」的数据来创建一个生成式奖励模型吗？

Ross Taylor：可以。我认为验证也是能从「思考时间」中受益的任务。总的来说，最简单的思路是：当进入长智能体轨迹的场景后，「奖励模型」只需回答一个简单问题——「智能体在实现目标的过程中是否有进展？」但这个问题其实很复杂，比如在《宝可梦》评测中，需要模型对游戏有基础的了解判断。

Nathan Lambert：我确实觉得我们会在这方面学到更多，这很重要。

Ross Taylor：是的，现在正处在「评估准则狂热」时期。更长期的问题是：当验证从根本上变得更困难时会怎样？我对科学发现很感兴趣，但像生物学这类领域，得靠物理实验来验证，不能简单地跑程序。其实在多数科学领域，我觉得人们高估了「思考」的力量。他们想到的是爱因斯坦，却很少想到数据生成机制和实验仪器。没有望远镜就没有开普勒，没有 X 射线晶体学就没有生物学的进步。

在 RL 的语境下说这个可能有点偏，但想解决现实中极难的问题，最终会受限于：「我其实需要造个更好的仪器来获取数据。」听起来像题外话，但我想说的是，从长远看，会遇到这些验证瓶颈。但短期内，我们仍能解决像黎曼猜想这类有趣的问题，尽管可能也需要很长时间。

Nathan Lambert：我最近读了很多关于模型推理轨迹的研究，Qwen 和 DeepSeek 的思考过程往往是长时间的混乱，然后突然「噗」的一下得出正确答案。这感觉不像能带来科学发现的机制。

Ross Taylor：我对推理模型有个偏悲观的观点。二战后全球科研人员数量大增，但能说科学进步也同等加速了吗？反倒感觉很多领域的进展放缓了。这可能是因为这些领域的低垂果实已经被摘完了。这也是我看空 AI 的一个理由：很多地方的瓶颈不是原始智力，而是「我需要加快物理过程」「需要更好的测量仪器」。

我只是想打破那种「解决了推理，明年超级智能就来了」的心态。