
关于基模的讨论又重新热闹起来了。
Kimi、Qwen、智谱的开源模型接力发布,Hugging Face 上中国模型基本垄断了热门榜。就在今天,阶跃星辰的 Step-3 也开源了。
另外一方面,小扎疯狂挖人重新做 Llama,最近的公开信又暗示说 Llama 5 可能不会开源。
开源模型的标准眼瞅着要变成中国模型,大模型的竞争实质上已经变成了中美 AI 的比拼。
RL、CoT、Agentic、Coding……相比较这些技术或能力的讨论,今天的大模型,可能更需要一个能够更好评测它们能力的好的基准测试。是的,依旧是 AI 下半场的问题。
Interconnects 作者,Ai2 研究科学家 Nathan Lambert 最近采访了 Meta AI 的前推理团队负责人 Ross Taylor ,他曾主导 Llama 2 和 Llama 3 等模型的研发工作,就今天开源模型的现状、模型训练团队的优劣,以及模型评测的问题等,两人进行了一场深聊。基于对谈,Founder Park 进行了编译,整理了对谈的精华内容。
TLDR:
一旦某种模式被验证可行,它的实现本质上就成了一个工程问题,而中国最擅长处理工程问题。
如果把模型视为基础设施,中国的开源模型未来会成为发展中国家的模型标准。
不同机构间的人才差异并没有那么大,聪明人最终总能想出办法。好模型和坏模型的差异,往往反映的是资源和人才利用效率的问题。
找到模型的正确方向,归根结底是实验速度,以及拥有合适的基础设施和足够好的基础模型,不仅仅只是人才。
现在能做出好的评测,可能比以往任何时候都有更大的影响力。好的评测可以带来新的话语权。
在「机器学习的下一个任务是什么」这个问题上,还有巨大的蓝海,有人可以去定义它,而且定义这个并不需要庞大的算力集群。
RL 无法泛化到数学和代码之外的说法被严重夸大了,从数学和代码开始的原因是,因为它们很容易被验证。
超 10000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的AI产品曝光渠道
01
中国模型成为开源标准,
意味着什么?
Nathan Lambert:这两周,中国的达模型动作很频繁,智谱的 GLM-4.5 到月之暗面的 Kimi 2,再到阿里的 Qwen3 ,势头很猛,发展速度惊人。你认为,对美国市场产生什么影响?未来半年,行业格局会怎么变?
Ross Taylor:难得一天没刷 Twitter,早上你跟我说这些新模型 GLM-4.5 时,我赶紧补了课。这大概能说明,在开源领域,哪怕一天不关注,都可能感觉像落后了两个月——当然这有点夸张。我觉得大趋势就是快速变化的。
回顾一年前,Llama 2 模型还是相当稳固的行业「标杆」。虽然之前中国的大模型有动作,但远不如现在的铺天盖地。尤其中国的商业文化,一旦发现某个方向可行,就特别擅长集中资源追赶,所以我们才看到这个领域竞争异常激烈。
从不同维度看,这个背景都很有意思。比如地缘政治维度,就像你之前提到的:如果开源标准变成了中国模型,会意味着什么?如果把这些模型视作基础设施,而不只是驱动产品的工具,那么中国若想成为整个「全球南方」*的标准,似乎就占据了巨大优势。
注:全球南方,发展中国家和新兴市场国家的集合体,通常包括非洲、拉丁美洲、亚洲和太平洋岛屿等地区的发展中国家。
Nathan Lambert:为什么中国在训练语言模型上看起来这么顺利?
Ross Taylor:我不想泛泛而谈,毕竟很多中国新机构在创新上做得不错,比如这周的 GSPO (Qwen 3 的 RL 算法)就是个好例子。但总体感觉是,一旦某种模式被验证可行,它的实现本质上就成了一个工程问题,而传统上,中国的工程文化很适合在这种情况下取得成功。
另一个角度是,尤其在 DeepSeek 之后,政府很擅长识别成功方向并允许资源投入,特别是在公私合作方面。我今天早上就在 Twitter 看到一个讨论:清华大学有了自己最先进的语言模型,为什么麻省理工学院(MIT)没有?
Nathan Lambert:他们好像资源不足。
Ross Taylor:是啊。我觉得美国会意识到这一点。不过,智谱是从清华大学孵化的创业公司,所以这个类比可能不太恰当。而且阿里巴巴显然是大赢家,既有通义千问(Qwen),又投资了月之暗面,好像也投了智谱。
我更感兴趣的是,他们为什么都选择开源?这比人才问题重要得多。美国当然也有大学孵化的模型机构,但并非所有大学都这样做,MIT 也许会做,但例子还是少数。不过我也同意,美国应该为学术界部署更多算力,很多大学正在建设中,只是需要时间。这里面因素很复杂。
我觉得人们对事情的实际运作方式有点信息不对称,谁也不知道内部到底发生了什么。另外,人们总把开源模型看作一个同质化的类别,但其实它们的用例大不相同。比如我想发一篇关于推理的新论文,可能会用 Qwen 模型;但如果要做模型蒸馏,我就会用 DeepSeek 或者 Kimi。
这又回到了 OpenAI 的问题上。我确信他们会发布很棒的模型,但不太清楚它会如何融入现有的生态系统。它会成为人们做研究的基础吗?如果它是一个经过后训练(post-trained)的模型,那大概率不会。
Nathan Lambert:OpenAI 最近的宣传重点是安全,我怀疑新模型推迟发布与此有关,这很符合他们的文化。如果真是因为安全问题,他们大概率不会发布基础模型。所以我认为,这次发布不会改变整个生态系统,顶多算一个有趣的独立发布。
Ross Taylor:是的。可以理解为,他们只是想提炼现有基础设施的精华,填补市场空白,而非公开自己的架构选择。回到之前的问题,Nathan,你觉得 OpenAI 的开源模型在用例上更像 Kimi、DeepSeek,还是和 Qwen 一个级别?或者会是完全不同的东西,比如更小的端侧模型?
Nathan Lambert:我预计它会更小。如果强化学习(RL)是 OpenAI 的强项,那在开源社区发布 RL 模型的一大挑战是,训练基础设施必须和推理基础设施相匹配。所以,除非他们在一个大家普遍能用的开源环境(比如 vLLM)里训练,否则不可能直接发布模型说「你们可以在自己的开源栈里做搜索和代码执行了」。我觉得工具使用天生会巩固闭源模型的地位,因为让工具与模型完美匹配能带来巨大优势。
Ross Taylor:是的。我看到 Qwen 在函数调用等方面做得不错;Kimi 的基准测试中,在智能体(agentic)工具使用上表现还可以。另外,他们有个不错的训练创新,就是调用 MCP 服务器,这是一种很好的合成数据策略。但这也得看情况,毕竟我们看到的主要是头条新闻里的评测数据,这些不能全信。
Nathan Lambert:我认为 Claude 3 Opus 的发布,在某种程度上终结了追逐评测分数的风气。单看纸面数据,它的发布平平无奇,但给所有人的实际体验都非常扎实。
Ross Taylor:我几个月前就在思考一个问题:一个模型发布后的影响力时间线是怎样的?第一天,说实话,都是些基准测试分数,比如「我在 MMLU Pro 上拿了多少分」。第二天,人们开始在 Twitter 上做各种奇怪的定制化评测。
Nathan Lambert:比如关于鹈鹕、旋转六边形和球之类的测试。
Ross Taylor:到这个时候,你的信心会更足一些。因为你会想,除非模型公司特别聪明——我相信有些人确实聪明——否则不太可能针对第二天的这些基准测试做优化。这时你才会开始相信,这个模型可能真的具备泛化能力。然后要再过一到两周,才能得出真正的结论:「我在多个实际场景中都用过了,它确实很棒。」
Nathan Lambert:我有一个观点,你来反驳看看:相比 OpenAI、Google 和 Anthropic,中国的模型供应商是否更侧重于针对基准测试进行优化?在我看来,这一点显而易见。
Ross Taylor:是的,而且因为一些有利因素,这个问题还没有完全暴露出来。试想,你是一位研究推理论文的学者,你自然会在数据可得的领域做研究,比如数学和代码——而这些恰好是他们优化过的领域。所以,即便有些研究反过来强化了 Qwen 的使用场景,也未必能测试出模型泛化能力的边界。毕竟我们知道 Qwen 在数学和代码上经过了大量中间步骤的训练,可能并没有在更有趣的边缘场景中去测试它。
02
顶尖人才很重要,
但不是决定性因素
Nathan Lambert:如何为训练语言模型设计高效的组织架构和文化?之前聊过这个,展开谈谈吧。
Ross Taylor:在社交媒体上,你会看到一个普遍趋势,就是像 NFL 选秀一样官宣某人被某机构招募。其实研究人员在不同机构间流动很正常,不算新鲜事,很多被大肆宣传的跳槽就是常规的人员流动。
但我觉得,至少在 Twitter 上,大家普遍认为许多语言模型项目的瓶颈是「技术问题」。可根据我的个人经验,并非如此。有很多方式可以论证这一点,我想从一个基本点说起:机器学习是一门高度依赖经验的科学。在这种背景下,「天才」或「天赋」到底意味着什么?
当然,有些技能很有用,比如设计最小可行性实验、快速迭代以避免研究方向走入死胡同。但很多时候,这归结于努力工作、良好的基础设施和充足的资源。在这种情况下,大多数机构即便在某些公开的失败之前,也都拥有非常优秀的人才。老实说,不同机构间的人才差异并没有那么大,聪明人最终总能想出办法。
所以,好模型和坏模型的差异,往往反映的是将资源输送给人才的效率问题。我认为这是根本。你可能会反驳:「Ross,如果真是这样,扎克伯格为什么要花那么多钱招人?」 我觉得这是另一个问题。
Nathan Lambert:不,这正是问题的核心。你怎么看 Meta 大手笔招人的举动?
Ross Taylor:我对此有些矛盾。一方面,我觉得新团队很可能做出非常好的模型,他们都是聪明人。而且成立新机构也是正确的做法,在领导层看来,可能就是:「我们已经尝试过很多次,态度非常认真,也有资源,所以要下最大的赌注。」 我觉得这大体上是正确的,虽然开销大,但还不算天文数字。
但另一方面,我确实为一些人感到惋惜。这并非特指 Meta,而是一种普遍现象。很多机构没有好的机制来识别内部那些努力工作的优秀现有人才,反而倾向于另起炉灶。我觉得这才是悲剧所在。所以我的想法很矛盾:既认为他们会做出很棒的模型,从头开始是正确的策略;又觉得那些为前几代模型成长做出贡献的人,有时在贡献价值后,就被当作消耗品,然后公司再转向新的一批人才。这不止是 Meta 的问题,非常普遍。
Nathan Lambert:你曾把大模型实验室比作「绞肉机」,消耗人才。具体来说,研究员是被动地分配任务,还是有很大自由度在一线自主探索?
Ross Taylor:我觉得是这样。不幸的是,很多成功科技公司的模式就是招募非常年轻、积极、聪明的员工,他们愿意为宏大的使命投入大量时间——就像马斯克最初经营公司的方式。很多前沿实验室也是这种模式:有一群「士兵」,表面上像十年前对冲基金里的量化分析师,愿意为自认为有影响力的事业投入难以置信的长时间工作;同时还有一种友好的竞争文化,每个人都想成为最优秀的那个。
Nathan Lambert:我认识不少 OpenAI 的人,他们的工作时间确实很长。
Ross Taylor:是的。而且决策通常由经验更丰富,或者至少有过成功经验的人来做。但在这种环境下,你需要「士兵」,因为竞争太激烈了。我觉得这很可惜。至少我现在创业,就在思考:我们当然需要努力工作,但有没有替代方案?能不能投资于员工,而不是把他们当成消耗品,用完就换一批?这正是我在摸索的答案。
Nathan Lambert:如今科技界很多人都变得有些愤世嫉俗,包括我自己。比如,我收到一个刚毕业本科生的求职邮件,写得非常好,我觉得两三年后这人肯定很厉害。我跟同事聊「该怎么留住这样的人才」,他们却说:「反正留不住,两年后他就会去 OpenAI,我们什么好处也得不到。」
所以,在 Llama 4 的传闻里,有人说他们在进行史上最「牛仔式」的疯狂模型训练,比如中途修改预训练数据配比。这是否说明,高压环境和晋升压力导致了这些混乱?
Ross Taylor:有意思的是,从我听到的情况来看,所有这些实验室内部其实都很混乱,可能每周都在改变方向。这就是我们所处领域的本质。但有些实验室确实很擅长在外部营造「一切尽在掌握」的形象,甚至宣称内部已经有了 AGI 之类的。
事实是,到处都是一团糟。关键在于,既然注定要乱,至少要做一个能正常运转、能产出好模型的「乱摊子」。在我看来,实验室文化倾向于过分看重原始天赋,尤其是在这门经验科学里。如果你认为经验科学主要关乎「实验速度」,那你不仅会重视基础设施,还会重视那些乐于协作、愿意帮助别人的人。在一个推崇个人能力的领域,这听起来可能有点虚,但我真的觉得,在做边际招聘决策时,应该考虑这个人能为现有团队带来多少增值。这些因素其实被低估了,因为现在大家想的都是:找到最聪明的人,让他们去完成那些看似高深的任务。所以我觉得在人才方面有新的玩法可以探索,但这很难。
Nathan Lambert:这么说,如今的差异化,其实在于那些愿意投入更多高度专注的时间去「拧螺丝」的人。
Ross Taylor:这或许能引出另一个可能更具争议的观点:即使是机器学习中那些看似更像新颖研究的领域,也可以看作是一种坚持,而非灵感的迸发。比如去年这个时候,我们都在猜测 o1 和 Strawberry 是什么,总让人觉得是了不起的新东西。但实际上揭晓时,它们基本就是我们两年前就在做的事:强化学习和可验证的奖励机制。只不过他们可能用了很好的基础模型,还做了足够的消融实验来找到有效的组合。
我知道这是事后诸葛亮式的过度简化,但关键是,他们必须通过大量工作才能找到那个「好食谱」。这归根结底是实验速度,以及拥有合适的基础设施和足够好的基础模型。在这样的世界里,「天赋」是什么?是那个说「我们应该让模型思考得更多」的人,还是在一线做消融实验、找出哪个「食谱」有效的人?
Nathan Lambert:既然这些机构内部如此混乱,这对技术进步的上限意味着什么?如果内部这么乱,我倾向于认为上限还远未达到。
Ross Taylor:我觉得这很有趣。因为即便在组织混乱的环境中,仍然会有一些东西「水涨船高」。近期的好例子就是像国际数学奥林匹克(IMO)那样的金牌级成果。我记得好像是三个不同的实验室,用不同的方法,都跨过了那个门槛。如果把时间拉长,比如 20 年后回望现在,你会关注这些研究者用的具体方法吗?还是只会说:「哦,他们只是达到了某个计算的临界阈值,然后事情就开始起作用了。」
不幸的是,计算能力是驱动这一切的巨大指数级因素。如果缩短时间的尺度,就会看到更多具体问题,比如当前瓶颈在哪里。也许智能体模型的瓶颈在环境,也许推理能力提升的瓶颈在更长的上下文窗口。这些都是短期问题。但从根本上说,只要计算能力持续增长,我觉得趋势就向好。所有这些组织上的混乱都只是短期噪音,会稍微拖慢进程,但长远来看意义不大。
03
更难的不是 RL,
而是好的模型能力评测
Ross Taylor:你认为一年后,大家所关注的大语言模型关键基准会是什么样的?
Nathan Lambert:肯定会是和某种智能体(agentic)相关的。我认为,单纯靠扩大模型规模已经不是主要的发展路径了,所有市场宣传都在转向「智能体」。部分原因是扩大参数规模已经不容易了。强化学习的规模化正在发生,但不会带来巨大飞跃,因为每条强化学习的曲线都是对数图,我们已经实现了性能的第一个对数级增长。但智能体相关的应用效果也很好。
我觉得这是个有趣的市场营销问题,所有实验室都需要重新思考如何传达模型的优势。Claude 3 Opus 发布时没能成功传达其优势,但因为它本身足够好,所以没关系。但现在所有人都需要改变这种叙事方式。
Ross Taylor:我同意你的看法。过去几年我做 Papers with Code 平台时,非常注重评测(evals)。我觉得,现在能做出好的评测,可能比以往任何时候都有更大的影响力。但在机器学习领域,这很奇怪,因为传统上做评测不是那么重要,研究人员宁愿去训练模型。但现在,定义指标的能力,比如定义一种你希望看到的能力,像模型擅长交易股票或做科学研究等等,都会带来巨大的杠杆效应。哪怕仅仅是在在大学的研究中。他们可以说:「这就是我们智能体应该努力实现的新北极星指标」,并通过这种方式来掌控话语权。
Nathan Lambert:是的,我们发布了一个替代 IFEval 的评测,叫 IFBench,目标就是让前沿实验室使用它。我给 OpenAI 的人发了消息,他们说:「哦,我们上周已经用上了。」
Ross Taylor:是的,这影响力太大了。另一个有趣的点是,制作和使用好的评测的门槛会越来越高了。比如 OpenAI 的一些评测,在某些基准测试中,强化学习智能体需要有 GPU 才能做机器学习研究,还得启动大量服务器。那种只有两个 CSV 文件(一个训练集一个测试集)的旧时代已经一去不复返了。
这还只是用户端。在评测创建者那边,随着模型能力越来越强,一个糟糕的评测只会导致模型出现极其严重的 「奖励投机」(reward hacking),什么也学不到。
Nathan Lambert:你认为后训练(post-training)阶段的评测,是不是最难做好的?
Ross Taylor:是的,而且你会看到越来越多声称效果不错的案例,但细看会发现是极其疯狂的「奖励投机」(reward hacking)。最近有个梗是 KernelBench 评测,数据中惊人的加速比,却连硬件配置的基本信息都没提供。这说明,即便对于这类任务,做出好的评测也需要大量工作。问题不在于 KernelBench 本身,而在于发表论文却不仔细看结果的人。所以我认为,在「机器学习的下一个任务是什么」这个问题上,还有巨大的蓝海,有人可以去定义它,而且定义这个并不需要庞大的算力集群。
Nathan Lambert:关于模型推理方面,你对过去六个月里相关的学术研究有什么看法?有进展吗?
Ross Taylor:我认为模型推理的研究进展甚微。字面意义上的「甚微」,但确实有一些。这个问题可以从不同方面展开。DeepSeek 出现后,开源领域至少有两种主流技术方向:要么走蒸馏路线,做小模型;要么走强化学习(RL)的训练路线。从实践工程角度来看,蒸馏相对小参数的模型远比做 RL 高效。但显然,从学术角度看,大家更想做 RL。
这里的困难是个经典问题:算力不够时,你不知道强加的结构能否泛化。我担心很多研究成果是在相对较低的算力预算下得出来的,这既包括决定 RL 方法学习效果的基础模型,也包括训练步数。所以除非有巨大的性能提升,否则很难看出什么技术是真正重要的。
在我看来,最有用的东西反而相当无聊。比如 DAPO 论文里说的,不应该过滤过长的序列,不应该有偏见。还有一些有趣的工作表明,即便在 GRPO 中一些简单方法(比如裁剪)也可能有效。但即便如此,我们还是没法确定哪种算法能泛化到智能体上。
Nathan Lambert:最近新出来的 GSPO 算法,也就是「分组序列策略优化」,你为什么更看好这个算法?
Ross Taylor:本质上,在 GRPO 中,你为整个序列分配一个奖励,也就是优势函数。但你有一个重要性权重,即新策略与旧策略的可能性比率。问题是,虽然奖励是统一应用于序列中的每个 token,但重要性权重是针对序列中每个单独的 token 计算的。如果你只基于单个序列来计算,实际上会引入大量的方差。
GSPO 的做法是,不再看单个 token 的可能性,而是看整个序列的可能性。所以现在,裁剪不再是基于单个 token,而是看你组里的一个序列,然后说:「哦,这个序列的可能性较低,我们就忽略它。」从他们展示的结果来看,这似乎大大提高了样本效率,提升不是几个百分点那么简单。我之所以更相信这个算法,是因为它非常简单,而且从重要性采样的基本原理来看,它的方向似乎是正确的。
Nathan Lambert:我还是持怀疑态度。我觉得 GSPO 的序列概念挺有意思,但它真能算重大进步吗?不过,对初级研究者来说,这个时代的好处之一是,通过研究这些算法、思考实现方式,能真正学到数学知识。
Ross Taylor:是的,很有趣。在 ChatGPT 火起来之后,我看到越来越多人读论文,总体是好事,但很多人读论文的方式不对。对我来说,基本逻辑是:论文报告的增益有多大?引入了多少复杂性?如果增益不大但复杂性高,很可能经不起时间考验;如果相对简单却有不错的增益,才可能流传下来。
Nathan Lambert:这就是 o1 带来的教训:简单的东西胜出。RL 研究里有种说法:如果某个东西只比基线好几个百分点,很可能没用;但如果是两倍的提升,那才是真正的创新。
Ross Taylor:完全正确。推理领域还有一点,我理解人们专注于数学和代码,因为那里有数据。但我真的觉得,基于 AIME 和 GPQA 基准的论文,远没有之前那么有趣了。
Nathan Lambert:代码可以做得更好,但很难衡量。目前在学术论文中,没有在做相关研究的。
Ross Taylor:是的,即使是成熟的基准测试也是一样。比如 SWE-bench,虽然是好的测试基准,但绝大多数问题都来自 Django。我不是贬低它,它确实很棒。但做出好的编码基准或其他类型的基准,还有很多细节工作要做。
我现在的处境挺矛盾的:一方面,看着那些只在数学和代码上「爬山」的论文,觉得根本上很无趣;另一方面,也同情他们,除了这个还能做什么呢?开源社区里目前没有多少好的开源推理数据集,而那些开源的,我认为基本上不能用。
Nathan Lambert:这倒是个很好的转折点。除了数学和代码,强化学习(RL)的规模化和泛化现状如何?
Ross Taylor:首先,我认为「RL 无法泛化到数学和代码之外」的说法被严重夸大了。实际情况是:OpenAI 最初非常专注于数学、逻辑和谜题,后来不得不拓宽范围,因为模型变得过于理性,只关注那些基准。但 RL 能否泛化到其他基准,从来都不是问题。
我们从数学和代码开始的原因是,因为它们很容易被验证。通过应用 RL,模型学到了一些策略,比如「不应该过早回答」「应该检查工作」「应该考虑其他可能性」。从宏观来看,如果模型能思考更长时间、更多地检查工作、考虑更多事情,那么在数学之外的领域也同样有用。
虽然这样讲,但如果想在数学和代码之外达到所谓的「超级智能」,确实需要针对性的基准测试。问题不在于能否泛化,而是在于实现的性能要有多好。
04
下一步的问题是,
验证变得越来越难了
Nathan Lambert:「评估准则」(Rubric)这个词最近很火,但我理解,它不就是一个人针对特定问题的、用语言模型作为裁判(LLM as a judge)的评估单元吗?
Ross Taylor:是的。它最近很流行是因为 DeepMind 的一项研究。有传言说,OpenAI 实际上不需要太多样本就能在这些任务上做得很好,不需要成千上万的 「评估准则」,可能只需要一两千个精心设计的问题准则。它在教模型浏览互联网、综合知识方面显然非常有效。
Nathan Lambert:对于深度研究类任务,「评估准则」会是什么样的?
Ross Taylor:可以有不同主题。比如,关于答案的整体风格;或者,假设要一篇关于最新 RL 推理算法的综述,可能会有宏观标准,比如「至少比较几种方法」「应该有表格比较底层算法」;然后可能有更具体的标准,比如「现在可能应该提到 GSPO」。本质上,它就是一个标准列表。但你真正想要的是平滑、连续的奖励,让模型能逐渐学习,而不是尖锐的信号。
Nathan Lambert:你觉得「奖励塑造」(reward shaping)会一直存在,还是会被算力增长的浪潮淹没?
Ross Taylor:我认为会被淹没,但在此期间,手工制作优质评测仍有很大价值。长远来看,它会被淘汰,因为没有什么是比人类更强的神经网络做不到的。但短期内,仍有很多模型搞不定的角落。
Nathan Lambert:能通过训练大量基于「评估准则」的数据来创建一个生成式奖励模型吗?
Ross Taylor:可以。我认为验证也是能从「思考时间」中受益的任务。总的来说,最简单的思路是:当进入长智能体轨迹的场景后,「奖励模型」只需回答一个简单问题——「智能体在实现目标的过程中是否有进展?」但这个问题其实很复杂,比如在《宝可梦》评测中,需要模型对游戏有基础的了解判断。
Nathan Lambert:我确实觉得我们会在这方面学到更多,这很重要。
Ross Taylor:是的,现在正处在「评估准则狂热」时期。更长期的问题是:当验证从根本上变得更困难时会怎样?我对科学发现很感兴趣,但像生物学这类领域,得靠物理实验来验证,不能简单地跑程序。其实在多数科学领域,我觉得人们高估了「思考」的力量。他们想到的是爱因斯坦,却很少想到数据生成机制和实验仪器。没有望远镜就没有开普勒,没有 X 射线晶体学就没有生物学的进步。
在 RL 的语境下说这个可能有点偏,但想解决现实中极难的问题,最终会受限于:「我其实需要造个更好的仪器来获取数据。」 听起来像题外话,但我想说的是,从长远看,会遇到这些验证瓶颈。但短期内,我们仍能解决像黎曼猜想这类有趣的问题,尽管可能也需要很长时间。
Nathan Lambert:我最近读了很多关于模型推理轨迹的研究,Qwen 和 DeepSeek 的思考过程往往是长时间的混乱,然后突然「噗」的一下得出正确答案。这感觉不像能带来科学发现的机制。
Ross Taylor:我对推理模型有个偏悲观的观点。二战后全球科研人员数量大增,但能说科学进步也同等加速了吗?反倒感觉很多领域的进展放缓了。这可能是因为这些领域的低垂果实已经被摘完了。这也是我看空 AI 的一个理由:很多地方的瓶颈不是原始智力,而是「我需要加快物理过程」「需要更好的测量仪器」。
我只是想打破那种「解决了推理,明年超级智能就来了」的心态。

一个人,40 款应用、百万级用户,验证 MVP 这事,没那么复杂
转载原创文章请添加微信:founderparker
内容中包含的图片若涉及版权问题,请及时与我们联系删除