智源社区 20小时前
基模下半场:开源、人才、模型评估,今天的关键问题到底是什么?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期,中国开源模型如 Kimi、Qwen、智谱等表现强劲,在 Hugging Face 上占据热门榜单,阶跃星辰的 Step-3 也加入开源行列。与此同时,Meta 的 Llama 系列模型动向引发关注。此次对话深入探讨了中国模型成为开源标准的影响、中国在训练语言模型上的优势,以及人才、组织架构、模型评测等关键问题。专家认为,中国在工程化实现和资源整合方面具有优势,开源模型有望成为发展中国家的标准。人才差异并非决定性因素,效率和基础设施更重要。同时,评测能力的提升将是未来 AI 竞争的关键,定义新的评测标准将带来话语权。RL 在数学和代码之外的泛化能力被夸大,验证的难度正在增加,而简单的、能带来显著提升的算法更有生命力。

🌟 中国模型在开源领域迅速崛起,如 Kimi、Qwen、智谱等,已成为 Hugging Face 上的热门选择,甚至可能成为“全球南方”国家的基础设施标准。这得益于中国在验证可行模式后的工程化实现能力,以及政府在资源投入方面的支持。例如,Qwen 3 的 RL 算法和智谱从清华孵化的背景都体现了这一点。

🧠 人才差异并非大模型竞争的决定性因素,聪明的人才最终总能找到解决问题的方法。好模型与坏模型的差异更多地体现在资源和人才利用效率上。Meta 大举招募人才虽然可能带来优秀模型,但也引发了对现有团队价值被忽视的担忧,以及对“绞肉机”式工作模式的讨论,即研究员的付出与公司对其的价值评估之间可能存在脱节。

📊 模型评测能力的重要性日益凸显,好的评测能够带来新的话语权。当前,定义新的、更具前瞻性的评测指标,例如与智能体(agentic)能力相关的评测,比单纯扩大模型规模更能影响行业格局。Claude 3 Opus 的发布标志着对纸面数据之外的实际体验的重视,而制作和使用高质量评测的门槛正在提高,需要避免“奖励投机”。

🚀 RL 无法泛化到数学和代码之外的说法被夸大,关键在于验证的便利性。数学和代码因易于验证而成为起点,但 RL 的策略如“不应过早回答”等同样适用于其他领域。然而,缺乏针对性的基准测试以及算力限制可能影响了 RL 在非数学和代码领域的实际表现,而简单的、能带来显著提升的算法(如 GSPO)更有可能实现泛化和规模化。

💡 科学发现的瓶颈往往在于物理实验和测量仪器,而非单纯的智力。AI 领域也面临类似挑战,解决现实难题需要更好的数据获取和验证机制。虽然计算能力的增长是基础,但组织混乱、瓶颈在于物理过程或测量仪器等因素,可能会拖慢AI的整体进程,而非直接导向超级智能的到来。因此,在“机器学习的下一个任务是什么”这个问题上,定义评测标准具有巨大潜力。

关于基模的讨论又重新热闹起来了。

Kimi、Qwen、智谱的开源模型接力发布,Hugging Face 上中国模型基本垄断了热门榜。就在今天,阶跃星辰的 Step-3 也开源了。

另外一方面,小扎疯狂挖人重新做 Llama,最近的公开信又暗示说 Llama 5 可能不会开源。

开源模型的标准眼瞅着要变成中国模型,大模型的竞争实质上已经变成了中美 AI 的比拼。

RL、CoT、Agentic、Coding……相比较这些技术或能力的讨论,今天的大模型,可能更需要一个能够更好评测它们能力的好的基准测试。是的,依旧是 AI 下半场的问题。

Interconnects 作者,Ai2 研究科学家 Nathan Lambert 最近采访了 Meta AI 的前推理团队负责人 Ross Taylor ,他曾主导 Llama 2 和 Llama 3 等模型的研发工作,就今天开源模型的现状、模型训练团队的优劣,以及模型评测的问题等,两人进行了一场深聊。基于对谈,Founder Park 进行了编译,整理了对谈的精华内容。

TLDR: 

    一旦某种模式被验证可行,它的实现本质上就成了一个工程问题,而中国最擅长处理工程问题。

    如果把模型视为基础设施,中国的开源模型未来会成为发展中国家的模型标准。

    不同机构间的人才差异并没有那么大,聪明人最终总能想出办法。好模型和坏模型的差异,往往反映的是资源和人才利用效率的问题。

    找到模型的正确方向,归根结底是实验速度,以及拥有合适的基础设施和足够好的基础模型,不仅仅只是人才。

    现在能做出好的评测,可能比以往任何时候都有更大的影响力。好的评测可以带来新的话语权。

    在「机器学习的下一个任务是什么」这个问题上,还有巨大的蓝海,有人可以去定义它,而且定义这个并不需要庞大的算力集群。

    RL 无法泛化到数学和代码之外的说法被严重夸大了,从数学和代码开始的原因是,因为它们很容易被验证。

超 10000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者,飞书扫码加群: 
进群后,你有机会得到:

    最新、最值得关注的 AI 新品资讯; 

    不定期赠送热门新品的邀请码、会员码;

    最精准的AI产品曝光渠道


01 

中国模型成为开源标准,

意味着什么?

Nathan Lambert两周,中国的模型动作很频繁,智谱的 GLM-4.5 到月之暗面的 Kimi 2,再到阿里的 Qwen3 ,势头很猛,发展速度惊人。你认为,对美国市场产生什么影响?未来半年,行业格局会怎么变?

Ross Taylor难得一天没刷 Twitter,早上你跟我说这些新模型 GLM-4.5 时,我赶紧补了课。这大概能说明,在开源领域,哪怕一天不关注,都可能感觉像落后了两个月——当然这有点夸张。我觉得大趋势就是快速变化的。

回顾一年前,Llama 2 模型还是相当稳固的行业「标杆」。虽然之前中国的大模型有动作,但远不如现在的铺天盖地。尤其中国的商业文化,一旦发现某个方向可行,就特别擅长集中资源追赶,所以我们才看到这个领域竞争异常激烈。

从不同维度看,这个背景都很有意思。比如地缘政治维度,就像你之前提到的:如果开源标准变成了中国模型,会意味着什么?如果把这些模型视作基础设施,而不只是驱动产品的工具,那么中国若想成为整个「全球南方」*的标准,似乎就占据了巨大优势。

注:全球南方,发展中国家和新兴市场国家的集合体,通常包括非洲、拉丁美洲、亚洲和太平洋岛屿等地区的发展中国家。

Nathan Lambert为什么中国在训练语言模型上看起来这么顺利?

Ross Taylor我不想泛泛而谈,毕竟很多中国新机构在创新上做得不错,比如这周的 GSPO (Qwen 3 的 RL 算法)就是个好例子。但总体感觉是,一旦某种模式被验证可行,它的实现本质上就成了一个工程问题,而传统上,中国的工程文化很适合在这种情况下取得成功。

另一个角度是,尤其在 DeepSeek 之后,政府很擅长识别成功方向并允许资源投入,特别是在公私合作方面。我今天早上就在 Twitter 看到一个讨论:清华大学有了自己最先进的语言模型,为什么麻省理工学院(MIT)没有?

Nathan Lambert他们好像资源不足。

Ross Taylor是啊。我觉得美国会意识到这一点。不过,智谱是从清华大学孵化的创业公司,所以这个类比可能不太恰当。而且阿里巴巴显然是大赢家,既有通义千问(Qwen),又投资了月之暗面,好像也投了智谱。

我更感兴趣的是,他们为什么都选择开源?这比人才问题重要得多。美国当然也有大学孵化的模型机构,但并非所有大学都这样做,MIT 也许会做,但例子还是少数。不过我也同意,美国应该为学术界部署更多算力,很多大学正在建设中,只是需要时间。这里面因素很复杂。

我觉得人们对事情的实际运作方式有点信息不对称,谁也不知道内部到底发生了什么。另外,人们总把开源模型看作一个同质化的类别,但其实它们的用例大不相同。比如我想发一篇关于推理的新论文,可能会用 Qwen 模型;但如果要做模型蒸馏,我就会用 DeepSeek 或者 Kimi。

这又回到了 OpenAI 的问题上。我确信他们会发布很棒的模型,但不太清楚它会如何融入现有的生态系统。它会成为人们做研究的基础吗?如果它是一个经过后训练(post-trained)的模型,那大概率不会。

Nathan LambertOpenAI 最近的宣传重点是安全,我怀疑新模型推迟发布与此有关,这很符合他们的文化。如果真是因为安全问题,他们大概率不会发布基础模型。所以我认为,这次发布不会改变整个生态系统,顶多算一个有趣的独立发布

Ross Taylor是的。可以理解为,他们只是想提炼现有基础设施的精华,填补市场空白,而非公开自己的架构选择。回到之前的问题,Nathan,你觉得 OpenAI 的开源模型在用例上更像 Kimi、DeepSeek,还是和 Qwen 一个级别?或者会是完全不同的东西,比如更小的端侧模型?

Nathan Lambert我预计它会更小。如果强化学习(RL)是 OpenAI 的强项,那在开源社区发布 RL 模型的一大挑战是,训练基础设施必须和推理基础设施相匹配。所以,除非他们在一个大家普遍能用的开源环境(比如 vLLM)里训练,否则不可能直接发布模型说「你们可以在自己的开源栈里做搜索和代码执行了」。我觉得工具使用天生会巩固闭源模型的地位,因为让工具与模型完美匹配能带来巨大优势。

Ross Taylor是的。我看到 Qwen 在函数调用等方面做得不错;Kimi 的基准测试中,在智能体(agentic)工具使用上表现还可以。另外,他们有个不错的训练创新,就是调用 MCP 服务器,这是一种很好的合成数据策略。但这也得看情况,毕竟我们看到的主要是头条新闻里的评测数据,这些不能全信。

Nathan Lambert我认为 Claude 3 Opus 的发布,在某种程度上终结了追逐评测分数的风气。单看纸面数据,它的发布平平无奇,但给所有人的实际体验都非常扎实。

Ross Taylor我几个月前就在思考一个问题:一个模型发布后的影响力时间线是怎样的?第一天,说实话,都是些基准测试分数,比如「我在 MMLU Pro 上拿了多少分」。第二天,人们开始在 Twitter 上做各种奇怪的定制化评测。

Nathan Lambert比如关于鹈鹕、旋转六边形和球之类的测试。

Ross Taylor到这个时候,你的信心会更足一些。因为你会想,除非模型公司特别聪明——我相信有些人确实聪明——否则不太可能针对第二天的这些基准测试做优化。这时你才会开始相信,这个模型可能真的具备泛化能力。然后要再过一到两周,才能得出真正的结论:「我在多个实际场景中都用过了,它确实很棒。」

Nathan Lambert我有一个观点,你来反驳看看:相比 OpenAI、Google 和 Anthropic,中国的模型供应商是否更侧重于针对基准测试进行优化?在我看来,这一点显而易见。

Ross Taylor是的,而且因为一些有利因素,这个问题还没有完全暴露出来。试想,你是一位研究推理论文的学者,你自然会在数据可得的领域做研究,比如数学和代码——而这些恰好是他们优化过的领域。所以,即便有些研究反过来强化了 Qwen 的使用场景,也未必能测试出模型泛化能力的边界。毕竟我们知道 Qwen 在数学和代码上经过了大量中间步骤的训练,可能并没有在更有趣的边缘场景中去测试它。

02 

顶尖人才很重要,

但不是决定性因素

Nathan Lambert如何为训练语言模型设计高效的组织架构和文化?之前聊过这个,展开谈谈

Ross Taylor在社交媒体上,你会看到一个普遍趋势,就是像 NFL 选秀一样官宣某人被某机构招募。其实研究人员在不同机构间流动很正常,不算新鲜事,很多被大肆宣传的跳槽就是常规的人员流动。

但我觉得,至少在 Twitter 上,大家普遍认为许多语言模型项目的瓶颈是「技术问题」。可根据我的个人经验,并非如此。有很多方式可以论证这一点,我想从一个基本点说起:机器学习是一门高度依赖经验的科学。在这种背景下,「天才」或「天赋」到底意味着什么?

当然,有些技能很有用,比如设计最小可行性实验、快速迭代以避免研究方向走入死胡同。但很多时候,这归结于努力工作、良好的基础设施和充足的资源。在这种情况下,大多数机构即便在某些公开的失败之前,也都拥有非常优秀的人才。老实说,不同机构间的人才差异并没有那么大,聪明人最终总能想出办法。

所以,好模型和坏模型的差异,往往反映的是将资源输送给人才的效率问题。我认为这是根本。你可能会反驳:「Ross,如果真是这样,扎克伯格为什么要花那么多钱招人?」 我觉得这是另一个问题。

Nathan Lambert不,这正是问题的核心。你怎么看 Meta 大手笔招人的举动?

Ross Taylor我对此有些矛盾。一方面,我觉得新团队很可能做出非常好的模型,他们都是聪明人。而且成立新机构也是正确的做法,在领导层看来,可能就是:「我们已经尝试过很多次,态度非常认真,也有资源,所以要下最大的赌注。」 我觉得这大体上是正确的,虽然开销大,但还不算天文数字。

但另一方面,我确实为一些人感到惋惜。这并非特指 Meta,而是一种普遍现象。很多机构没有好的机制来识别内部那些努力工作的优秀现有人才,反而倾向于另起炉灶。我觉得这才是悲剧所在。所以我的想法很矛盾:既认为他们会做出很棒的模型,从头开始是正确的策略;又觉得那些为前几代模型成长做出贡献的人,有时在贡献价值后,就被当作消耗品,然后公司再转向新的一批人才。这不止是 Meta 的问题,非常普遍。

Nathan Lambert你曾把模型实验室比作「绞肉机」,消耗人才。具体来说,研究员是被动地分配任务,还是有很大自由度在一线自主探索?

Ross Taylor我觉得是这样。不幸的是,很多成功科技公司的模式就是招募非常年轻、积极、聪明的员工,他们愿意为宏大的使命投入大量时间——就像马斯克最初经营公司的方式。很多前沿实验室也是这种模式:有一群「士兵」,表面上像十年前对冲基金里的量化分析师,愿意为自认为有影响力的事业投入难以置信的长时间工作;同时还有一种友好的竞争文化,每个人都想成为最优秀的那个。

Nathan Lambert我认识不少 OpenAI 的人,他们的工作时间确实很长。

Ross Taylor是的。而且决策通常由经验更丰富,或者至少有过成功经验的人来做。但在这种环境下,你需要「士兵」,因为竞争太激烈了。我觉得这很可惜。至少我现在创业,就在思考:我们当然需要努力工作,但有没有替代方案?能不能投资于员工,而不是把他们当成消耗品,用完就换一批?这正是我在摸索的答案。

Nathan Lambert如今科技界很多人都变得有些愤世嫉俗,包括我自己。比如,我收到一个刚毕业本科生的求职邮件,写得非常好,我觉得两三年后这人肯定很厉害。我跟同事聊「该怎么留住这样的人才」,他们却说:「反正留不住,两年后他就会去 OpenAI,我们什么好处也得不到。」

所以,在 Llama 4 的传闻里,有人说他们在进行史上最「牛仔式」的疯狂模型训练,比如中途修改预训练数据配比。这是否说明,高压环境和晋升压力导致了这些混乱?

Ross Taylor有意思的是,从我听到的情况来看,所有这些实验室内部其实都很混乱,可能每周都在改变方向。这就是我们所处领域的本质。但有些实验室确实很擅长在外部营造「一切尽在掌握」的形象,甚至宣称内部已经有了 AGI 之类的。

事实是,到处都是一团糟。关键在于,既然注定要乱,至少要做一个能正常运转、能产出好模型的「乱摊子」。在我看来,实验室文化倾向于过分看重原始天赋,尤其是在这门经验科学里。如果你认为经验科学主要关乎「实验速度」,那你不仅会重视基础设施,还会重视那些乐于协作、愿意帮助别人的人。在一个推崇个人能力的领域,这听起来可能有点虚,但我真的觉得,在做边际招聘决策时,应该考虑这个人能为现有团队带来多少增值。这些因素其实被低估了,因为现在大家想的都是:找到最聪明的人,让他们去完成那些看似高深的任务。所以我觉得在人才方面有新的玩法可以探索,但这很难。

Nathan Lambert这么说,如今的差异化,其实在于那些愿意投入更多高度专注的时间去「拧螺丝」的人。

Ross Taylor这或许能引出另一个可能更具争议的观点:即使是机器学习中那些看似更像新颖研究的领域,也可以看作是一种坚持,而非灵感的迸发。比如去年这个时候,我们都在猜测 o1 和 Strawberry 是什么,总让人觉得是了不起的新东西。但实际上揭晓时,它们基本就是我们两年前就在做的事:强化学习和可验证的奖励机制。只不过他们可能用了很好的基础模型,还做了足够的消融实验来找到有效的组合。

我知道这是事后诸葛亮式的过度简化,但关键是,他们必须通过大量工作才能找到那个「好食谱」。这归根结底是实验速度,以及拥有合适的基础设施和足够好的基础模型。在这样的世界里,「天赋」是什么?是那个说「我们应该让模型思考得更多」的人,还是在一线做消融实验、找出哪个「食谱」有效的人?

Nathan Lambert既然这些机构内部如此混乱,这对技术进步的上限意味着什么?如果内部这么乱,我倾向于认为上限还远未达到。

Ross Taylor我觉得这很有趣。因为即便在组织混乱的环境中,仍然会有一些东西「水涨船高」。近期的好例子就是像国际数学奥林匹克(IMO)那样的金牌级成果。我记得好像是三个不同的实验室,用不同的方法,都跨过了那个门槛。如果把时间拉长,比如 20 年后回望现在,你会关注这些研究者用的具体方法吗?还是只会说:「哦,他们只是达到了某个计算的临界阈值,然后事情就开始起作用了。」

不幸的是,计算能力是驱动这一切的巨大指数级因素。如果缩短时间的尺度,就会看到更多具体问题,比如当前瓶颈在哪里。也许智能体模型的瓶颈在环境,也许推理能力提升的瓶颈在更长的上下文窗口。这些都是短期问题。但从根本上说,只要计算能力持续增长,我觉得趋势就向好。所有这些组织上的混乱都只是短期噪音,会稍微拖慢进程,但长远来看意义不大。


03 

更难的不是 RL,

而是好的模型能力评测

Ross Taylor你认为一年后,大家所关注的大语言模型关键基准会是什么样的?

Nathan Lambert肯定会是和某种智能体(agentic)相关的。我认为,单纯靠扩大模型规模已经不是主要的发展路径了,所有市场宣传都在转向「智能体」。部分原因是扩大参数规模已经不容易了。强化学习的规模化正在发生,但不会带来巨大飞跃,因为每条强化学习的曲线都是对数图,我们已经实现了性能的第一个对数级增长。但智能体相关的应用效果也很好。

我觉得这是个有趣的市场营销问题,所有实验室都需要重新思考如何传达模型的优势。Claude 3 Opus 发布时没能成功传达其优势,但因为它本身足够好,所以没关系。但现在所有人都需要改变这种叙事方式。

Ross Taylor我同意你的看法。过去几年我做 Papers with Code 平台时,非常注重评测(evals)。我觉得,现在能做出好的评测,可能比以往任何时候都有更大的影响力。但在机器学习领域,这很奇怪,因为传统上做评测不是那么重要,研究人员宁愿去训练模型。但现在,定义指标的能力,比如定义一种你希望看到的能力,像模型擅长交易股票或做科学研究等等,都会带来巨大的杠杆效应。哪怕仅仅是在在大学的研究中。他们可以说:「这就是我们智能体应该努力实现的新北极星指标」,并通过这种方式来掌控话语权。

Nathan Lambert:是的,我们发布了一个替代 IFEval 的评测,叫 IFBench,目标就是让前沿实验室使用它。我给 OpenAI 的人发了消息,他们说:「哦,我们上周已经用上了。」 

Ross Taylor是的,这影响力太大了。另一个有趣的点是,制作和使用好的评测的门槛会越来越高了。比如 OpenAI 的一些评测,在某些基准测试中,强化学习智能体需要有 GPU 才能做机器学习研究,还得启动大量服务器。那种只有两个 CSV 文件(一个训练集一个测试集)的旧时代已经一去不复返了。

这还只是用户端。在评测创建者那边,随着模型能力越来越强,一个糟糕的评测只会导致模型出现极其严重的 「奖励投机」(reward hacking),什么也学不到。

Nathan Lambert你认为后训练(post-training)阶段的评测,是不是最难做好的?

Ross Taylor是的,而且你会看到越来越多声称效果不错的案例,但细看会发现是极其疯狂的「奖励投机」(reward hacking)。最近有个梗是 KernelBench 评测,数据中惊人的加速比,却连硬件配置的基本信息都没提供。这说明,即便对于这类任务,做出好的评测也需要大量工作。问题不在于 KernelBench 本身,而在于发表论文却不仔细看结果的人。所以我认为,在「机器学习的下一个任务是什么」这个问题上,还有巨大的蓝海,有人可以去定义它,而且定义这个并不需要庞大的算力集群。

Nathan Lambert关于模型推理方面,你对过去六个月里相关的学术研究有什么看法?有进展吗?

Ross Taylor我认为模型推理的研究进展甚微。字面意义上的「甚微」,但确实有一些。这个问题可以从不同方面展开。DeepSeek 出现后,开源领域至少有两种主流技术方向:要么走蒸馏路线,做小模型;要么走强化学习(RL)的训练路线。从实践工程角度来看,蒸馏相对小参数的模型远比做 RL 高效。但显然,从学术角度看,大家更想做 RL。

这里的困难是个经典问题:算力不够时,你不知道强加的结构能否泛化。我担心很多研究成果是在相对较低的算力预算下得出来的,这既包括决定 RL 方法学习效果的基础模型,也包括训练步数。所以除非有巨大的性能提升,否则很难看出什么技术是真正重要的。

在我看来,最有用的东西反而相当无聊。比如 DAPO 论文里说的,不应该过滤过长的序列,不应该有偏见。还有一些有趣的工作表明,即便在 GRPO 中一些简单方法(比如裁剪)也可能有效。但即便如此,我们还是没法确定哪种算法能泛化到智能体上。

Nathan Lambert最近新出来的 GSPO 算法,也就是「分组序列策略优化」,你为什么更看好这个算法?

Ross Taylor本质上,在 GRPO 中,你为整个序列分配一个奖励,也就是优势函数。但你有一个重要性权重,即新策略与旧策略的可能性比率。问题是,虽然奖励是统一应用于序列中的每个 token,但重要性权重是针对序列中每个单独的 token 计算的。如果你只基于单个序列来计算,实际上会引入大量的方差。

GSPO 的做法是,不再看单个 token 的可能性,而是看整个序列的可能性。所以现在,裁剪不再是基于单个 token,而是看你组里的一个序列,然后说:「哦,这个序列的可能性较低,我们就忽略它。」从他们展示的结果来看,这似乎大大提高了样本效率,提升不是几个百分点那么简单。我之所以更相信这个算法,是因为它非常简单,而且从重要性采样的基本原理来看,它的方向似乎是正确的。

Nathan Lambert我还是持怀疑态度。我觉得 GSPO 的序列概念挺有意思,但它真能算重大进步吗?不过,对初级研究者来说,这个时代的好处之一是,通过研究这些算法、思考实现方式,能真正学到数学知识。

Ross Taylor是的,很有趣。在 ChatGPT 火起来之后,我看到越来越多人读论文,总体是好事,但很多人读论文的方式不对。对我来说,基本逻辑是:论文报告的增益有多大?引入了多少复杂性?如果增益不大但复杂性高,很可能经不起时间考验;如果相对简单却有不错的增益,才可能流传下来。

Nathan Lambert这就是 o1 带来的教训:简单的东西胜出。RL 研究里有种说法:如果某个东西只比基线好几个百分点,很可能没用;但如果是两倍的提升,那才是真正的创新。

Ross Taylor完全正确。推理领域还有一点,我理解人们专注于数学和代码,因为那里有数据。但我真的觉得,基于 AIME 和 GPQA 基准的论文,远没有之前那么有趣了。

Nathan Lambert代码可以做得更好,但很难衡量。目前在学术论文中,没有在做相关研究的。

Ross Taylor是的,即使是成熟的基准测试也是一样。比如 SWE-bench,虽然是好的测试基准,但绝大多数问题都来自 Django。我不是贬低它,它确实很棒。但做出好的编码基准或其他类型的基准,还有很多细节工作要做。

我现在的处境挺矛盾的:一方面,看着那些只在数学和代码上「爬山」的论文,觉得根本上很无趣;另一方面,也同情他们,除了这个还能做什么呢?开源社区里目前没有多少好的开源推理数据集,而那些开源的,我认为基本上不能用。

Nathan Lambert这倒是个很好的转折点。除了数学和代码,强化学习RL)的规模化和泛化现状如何?

Ross Taylor首先,我认为「RL 无法泛化到数学和代码之外」的说法被严重夸大了。实际情况是:OpenAI 最初非常专注于数学、逻辑和谜题,后来不得不拓宽范围,因为模型变得过于理性,只关注那些基准。但 RL 能否泛化到其他基准,从来都不是问题。

我们从数学和代码开始的原因是,因为它们很容易被验证。通过应用 RL,模型学到了一些策略,比如「不应该过早回答」「应该检查工作」「应该考虑其他可能性」。从宏观来看,如果模型能思考更长时间、更多地检查工作、考虑更多事情,那么在数学之外的领域也同样有用。

虽然这样讲,但如果想在数学和代码之外达到所谓的「超级智能」,确实需要针对性的基准测试。问题不在于能否泛化,而是在于实现的性能要有多好。


04 

下一步的问题是,

验证变得越来越难了

Nathan Lambert「评估准则」(Rubric)这个词最近很火,但我理解,它不就是一个人针对特定问题的、用语言模型作为裁判(LLM as a judge)的评估单元吗?

Ross Taylor是的。它最近很流行是因为 DeepMind 的一项研究。有传言说,OpenAI 实际上不需要太多样本就能在这些任务上做得很好,不需要成千上万的 「评估准则」,可能只需要一两千个精心设计的问题准则。它在教模型浏览互联网、综合知识方面显然非常有效。

Nathan Lambert对于深度研究类任务,「评估准则」会是什么样的?

Ross Taylor可以有不同主题。比如,关于答案的整体风格;或者,假设要一篇关于最新 RL 推理算法的综述,可能会有宏观标准,比如「至少比较几种方法」「应该有表格比较底层算法」;然后可能有更具体的标准,比如「现在可能应该提到 GSPO」。本质上,它就是一个标准列表。但你真正想要的是平滑、连续的奖励,让模型能逐渐学习,而不是尖锐的信号。

Nathan Lambert你觉得「奖励塑造」(reward shaping)会一直存在,还是会被算力增长的浪潮淹没?

Ross Taylor我认为会被淹没,但在此期间,手工制作优质评测仍有很大价值。长远来看,它会被淘汰,因为没有什么是比人类更强的神经网络做不到的。但短期内,仍有很多模型搞不定的角落。

Nathan Lambert能通过训练大量基于「评估准则」的数据来创建一个生成式奖励模型吗?

Ross Taylor可以。我认为验证也是能从「思考时间」中受益的任务。总的来说,最简单的思路是:当进入长智能体轨迹的场景后,「奖励模型」只需回答一个简单问题——「智能体在实现目标的过程中是否有进展?」但这个问题其实很复杂,比如在《宝可梦》评测中,需要模型对游戏有基础的了解判断。

Nathan Lambert我确实觉得我们会在这方面学到更多,这很重要。

Ross Taylor是的,现在正处在「评估准则狂热」时期。更长期的问题是:当验证从根本上变得更困难时会怎样?我对科学发现很感兴趣,但像生物学这类领域,得靠物理实验来验证,不能简单地跑程序。其实在多数科学领域,我觉得人们高估了「思考」的力量。他们想到的是爱因斯坦,却很少想到数据生成机制和实验仪器。没有望远镜就没有开普勒,没有 X 射线晶体学就没有生物学的进步。

在 RL 的语境下说这个可能有点偏,但想解决现实中极难的问题,最终会受限于:「我其实需要造个更好的仪器来获取数据。」 听起来像题外话,但我想说的是,从长远看,会遇到这些验证瓶颈。但短期内,我们仍能解决像黎曼猜想这类有趣的问题,尽管可能也需要很长时间。

Nathan Lambert我最近读了很多关于模型推理轨迹的研究,Qwen 和 DeepSeek 的思考过程往往是长时间的混乱,然后突然「噗」的一下得出正确答案。这感觉不像能带来科学发现的机制。

Ross Taylor我对推理模型有个偏悲观的观点。二战后全球科研人员数量大增,但能说科学进步也同等加速了吗?反倒感觉很多领域的进展放缓了。这可能是因为这些领域的低垂果实已经被摘完了。这也是我看空 AI 的一个理由:很多地方的瓶颈不是原始智力,而是「我需要加快物理过程」「需要更好的测量仪器」。

我只是想打破那种「解决了推理,明年超级智能就来了」的心态。

更多阅读

一个人,40 款应用、百万级用户,验证 MVP 这事,没那么复杂

AI 产品经理们的挑战:在「审美」之前,都是技术问题

0 融资、10 亿美元营收,数据标注领域真正的巨头,不认为合成数据是未来

「All in AI」的 Shopify,分享了他们的全员 AI 落地实践,全是干货

转载原创文章请添加微信:founderparker

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 开源模型 AI 评测 人才效率 RL
相关文章