孔某人 2025-04-14 20:04 北京
Google DeepMind 的首席研究科学家Jack Rae
本文是2025.4.5《Cognitive Revolution》播客采访 Google DeepMind 的首席研究科学家Jack Rae的文稿全文,文字经过凝练以降低阅读成本。
title:
Scaling "Thinking":
Gemini 2.5 Tech Lead Jack Rae on Reasoning, Long Context,
& the Path to AGI
url:
https://www.youtube.com/watch?v=u0iIPxfwjKU
date: 20250405
个人评论
这个播客本身的价值一般。不过Gemini 2.5 Pro确实是个重要的模型,在很多方面表现很不错,在很多场景都值得一试。
Google在LLM上终于翻身了,Gemini 2.5 Pro标志着Google终于摸到了目前最前沿LLM方案的路,并且成功把成果拿出来。
摘要
(根据个人偏好而有所取舍)
Gemini 2.5 Pro的发布标志着Google DeepMind的大语言模型进入了一个全新的阶段。这次模型最大的特点是实现了超长上下文能力,能够有效处理数十万甚至更长的token输入。在具体应用中,它展现出精确掌握复杂代码库结构与细节的能力,能在原有代码基础上高效地进行扩展与协作开发。实现这些突破的关键因素包括强化学习的广泛应用和长期积累的工程细节优化。
关于模型推理过程中预训练与后训练各自的作用,Jack Rae认为预训练阶段主要是在学习大量的抽象特征与模式,提供给模型丰富的基础表达能力,以捕捉文本分布中的各种行为,这其中既包括有效的推理模式,也包含一些不理想的模式。而后训练阶段则是在预训练获得的大量模式中进行选择与精炼,去除无关或低效的行为,专注于特定的推理与响应模式。如果强化学习阶段能够成功实施,还能进一步组合已有的基础能力,发展出更高阶的技能,以应对更复杂、更关键的任务。
Jack Rae对于强化学习为何在当前取得成功提供了具体的观察:此前小模型上简单使用强化学习难以生效的主要原因,是模型的规模不足以涌现出稳定的复杂推理结构。当模型规模达到一定阈值后,初步的内部推理机制自然产生,这些内部机制构成了强化学习发挥效果的基础。在经过系统性优化后,强化学习可以帮助模型稳定地展现出自我纠正、探索多种推理路径等复杂行为,显著提升实际应用的表现。这些复杂的推理模式是预训练阶段无法单独实现的,它们需要在后训练阶段通过强化学习获得和巩固。
Jack Rae认为目前行业内普遍采用的“思维链”方法之所以快速流行,是因为这种显式表达内部推理过程的方法本身就非常直观。一旦模型规模足够大并具备相应能力,思维链方法便能够快速验证并获得明显效果,因此被广泛应用。
在模型内部机制的具体处理上,Gemini团队倾向于允许模型自然展现内部思维过程,尽可能少地人为干预。他们也注意到内部推理过程中可能出现语言单一化、模板化的现象,但总体而言,认为这些问题并不构成严重障碍,而是模型真实内部机制的自然体现。Gemini团队明确提出不倾向对思维链额外施加可能诱导模型欺骗或混淆推理的奖励压力,确保推理过程真实有效。
在人类数据用于模型训练的问题上,Jack Rae的经验是:当人为要求人们详细显式地记录推理过程时,所得到的数据质量往往较低,而自然状态下产生的详尽表述对模型的训练帮助更大。此外,利用模型自身生成的合成数据进行训练,在实际操作中也展现了相当大的实用价值,能有效地帮助模型学习复杂推理结构。
在记忆机制方面,Jack Rae指出,虽然当前模型的百万甚至千万token的上下文处理能力已经带来了重要的提升,但在长期理解和终身学习的场景下,仍需结合专门的外部记忆机制(如之前DeepMind研究过的Neural Turing Machine或可微分神经计算机)以进一步实现高效长期记忆能力。这种外部记忆机制与模型深度思维能力的结合,被Gemini团队视为未来模型通向更高通用智能的一个重要路径。
在多模态能力的深度整合方面,Jack Rae从开始就强调这一点。他观察到,深度多模态集成在文本和图像之间的有效结合远超于简单的工具调用,极大增强了模型整体的理解与表现。他们同时也注意到,在考虑其他领域或数据类型(例如生物数据)是否纳入统一多模态训练时,需要具体评估数据规模、信息密度以及跨领域正向知识迁移的效果。这种务实的评估策略反映出Gemini团队目前优先从信息密集和规模较大、明确能提升模型整体能力的模态开始整合,未来再逐步拓展到其他模态领域。
正文
00:00:00
Nathan Labenz:
欢迎收听 Cognitive Revolution。今天我很荣幸邀请到了 Google DeepMind 的首席研究科学家Jack Rae,他是 Google 思维和推理时间扩展工作的技术负责人。作为 Gemini 2.5 Pro 的核心贡献者之一,Jack 对大语言模型技术进步有着深刻的见解,同时对通往 AGI 的发展路径也有着极具说服力的观点。
Gemini 2.5 Pro 标志着 Google AI 发展的重要里程碑。这是首次我和许多观察者都认为 Google 的模型在多个重要维度上达到了行业领先水平。这种领先不仅仅体现在评测指标上,更重要的是实际应用效果。
在 Google PR 团队联系我安排这次采访之前,我就已经开始使用 Gemini 2.5。它的表现让我感到惊喜,远远超出了我的预期,这促使我不得不重新思考 AI 当前的能力边界,并开始探索如何更好地利用它的独特优势。它不仅能够接受,更能展现出对数十万 token 输入内容的深度理解能力,这种实用性的提升是立竿见影的。我非常期待能与 Jack 深入讨论这些突破背后的工作,以及他对一些关键概念维度的见解。
让我们开始探讨:为什么强化学习从正确性信号的技术突然在整个行业开始如此有效地发挥作用?这是一个真正的突破,还是仅仅是持续渐进式进展最终跨越了实用性门槛的结果?
我们还需要理解一个现象:为什么几乎所有前沿模型开发者都在短时间内发布了类似的推理或思考模型?这种同步发明是由明显的技术发展路径驱动,还是背后存在更多的跨界交流?
接下来让我们思考推理与代理能力之间的关系:这些推理方面的进展是否会直接转化为代理能力?还是我们需要其他额外的突破?
关于人类数据在塑造模型行为中的作用,我想探讨两个问题:Google是如何看待收集人类推理和逐步任务处理数据的?在训练过程中,Google在让模型遵循可识别的认知行为与允许它们发展自己的问题解决方法之间做出了怎样的权衡?
在模型内部机制方面,我们需要探讨几个关键问题:模型、内部特征表示和它们利用这些特征的行为模式之间存在什么关系?在latent space中的推理是否应该让我们担忧,或者是否可以通过机制可解释性来确保安全?同时,我们也要讨论是否应该避免对思维链本身施加强化学习压力,这个问题在OpenAI最近的混淆奖励黑客论文中得到了深入探讨。
最后,让我们讨论从当前能力到AGI的路线图:还存在哪些瓶颈?是否需要记忆方面的突破,或者持续扩展上下文窗口就足以克服所有实际限制?我们是否应该期待更多模态的深度整合,就像我们最近在文本和图像方面看到的那样?
在我们的整个对话中,Jack提供了深思熟虑、细致入微的回答,这些回答确实帮助我们更好地理解了当前的AI系统、Frontier Labs的工作以及AI发展的整体轨迹。
从我的观察来看,对于我们从Frontier Labs看到的大多数进展,最简单的解释往往是最好的。在大语言模型开发领域仍有大量容易实现的改进空间。研究人员已经吸取了痛苦的教训,正在尽可能保持他们的方法简单且可扩展。我们观察到的快速进展,主要来自于追求明显的高层概念方向,然后系统地解决实现规模化所需的实际工程挑战。
这些团队都在认真对待技术的安全发展问题,同时也感受到真诚的兴奋和竞争压力,这促使他们尽可能快速地向前推进。考虑到未来的极度不确定性,以及极高的利害关系——从无匮乏、无疾病的乌托邦到存在性灾难,甚至人类灭绝的可能性都可能在未来二到二十年内出现——我对制作这个节目的责任感到极其重视。
00:04:57
Nathan Labenz:
现在,我希望大家能享受这个来自Google DeepMind首席研究科学家、Google思维和推理时间扩展工作技术负责人Jack Rae的内部视角,我们将讨论大语言模型思维的扩展以及通往AGI的路径。
我要祝贺Gemini 2.5 Pro Experimental 325的发布。虽然这个名字很长,但这确实是一个重大的发布。在我的评估和测试中,这是Google DeepMind的模型首次在诸多重要方面成为最领先的模型。
这次使用给了我一个令人震撼的体验。当我将一个40万tokens的完整研究代码库输入模型,要求它在尽可能复用现有代码的基础上进行轻量级扩展,同时要考虑到这是一个共享的协作环境,不能影响其他人的代码时,模型展现出令人惊叹的超长上下文理解能力。这种质的飞跃确实让人印象深刻。我们现在都还在适应和认知它的新能力,但用现在年轻人的话说,这次你们确实"cooked"了。
Jack Rae:
我们对这个模型非常振奋,对我们模型的发展轨迹也充满信心。这是一个真正的 Gemini 团队共同努力的杰作。从 pre-training 团队到 thinking 团队,再到 post-training 团队,以及 Gemini 各个领域的团队都做出了出色的贡献,大家齐心协力完成了这个项目,我们对最终的成果感到非常满意。
虽然一开始我们并不确定它会如何被接受,但现在看到人们真正发现它的价值,这让我们很受鼓舞。特别是看到用户能切身体会到它展现出的 AGI 特性,并在实际任务中看到显著的进步,这真的让人振奋。
我很感谢这些赞誉,这确实是 Gemini 团队的一次出色表现。我很乐意深入讨论模型开发的细节,特别是在 thinking 方面的工作。
00:07:30
Nathan Labenz:
现在我想转向一个我最近一直在深入思考的问题,我相信很多其他人也在思考这个问题。我特别想讨论的是为什么简单的RL设置现在能够工作了。当然,我知道你们在实际应用中可能使用了更复杂的技术,但我主要是在思考R1演示。在那个演示中,我们看到一个带有正确性信号的简单RL设置就能产生效果。这让我一直在思考,为什么这个方法之前没有奏效。我相信很多人在不同场景下都尝试过这种方法,但我不确定是我们错过了什么,还是模型本身缺少了什么,导致这个想法在一段时间内没有被广泛采用。而现在,这种方法到处都在奏效。
Jack Rae:
在我们的Gemini大语言模型开发中,我们至少一年前就开始越来越依赖强化学习来提升模型的推理能力。随着模型的不断发布,强化学习在准确性相关任务中的应用范围也在持续扩大。我们利用非常明确的、可验证的奖励信号来提升模型的推理能力。实际上,在thinking功能开发之前,我们就已经开始应用这种方法,并且发布了使用这种方法的模型,这确实帮助改善了模型的推理过程。
这要归功于许多杰出的推理研究人员和RL专家的持续努力。现在这项技术达到了一个重要的进展拐点,真正引起了人们的关注。对很多人来说,DeepSeek技术报告的发布可能标志着一个重要的突破性时刻。但这项技术实际上已经发挥作用很长时间了。并不是某个单一的关键因素使它突然开始发挥作用,而是它跨过了一个能力门槛,让人们真正注意到了它的价值。
Nathan Labenz:
对外界来说看起来像是突然涌现的现象,但在内部其实更像是一个幻象,实际上是一条非常平滑的曲线。
Jack Rae:
确实如此。当我们在内部追踪这些能力时,它们的提升几乎都呈现出一种令人惊讶的可预测性,很像摩尔定律式的进步。从我在预训练阶段的经验来看,每一个具体的改进,无论是强化学习配方还是模型配方,我们都无法预先确定哪些会有效。这里确实存在一定的随机性,但随着这些改进的累积,我们能看到一个清晰的进步趋势。
在公众领域,只有当模型突破某些特定门槛时,人们才会特别关注并感到兴奋,这些突破往往能真正激发人们的想象力。关键是当模型变得足够好时,再加上我们这种离散式的发布方式,就会给人一种质的飞跃的感觉。
Nathan Labenz:
在领先指标上的平滑进展与下游任务的阈值效应之间的这种并置对比,是这个领域最引人入胜的现象之一,我认为这种现象在相当长的时间内都会持续存在。
你知道,现在AI领域的一切都在呈指数级增长,发表的论文数量和不同的技术也都在保持这样的增长趋势。我想请教你是如何分配时间的?或者说你是如何考虑在阅读和跟进领域其他研究者的工作,与埋头做自己的研究之间做平衡?还有,目前是否有什么AI工具能帮助你更好地管理这些工作?
Jack Rae:
在讨论技术进展之外,我想谈谈个人研究工作方式的变化。在阅读研究和进行编码实验的时间分配上,这种变化很大程度上与职业发展阶段有关。在职业生涯早期,我会花很多时间阅读研究,因为需要补充大量知识,而且在各种会议上能接触到很多新想法。但现在随着角色从初级研究员转变为更多指导性的工作,我们面临的往往是一些已知但尚未有研究解决方案的问题,这些解决方案将在日常工作的团队中被发现。与5-10年前相比,我现在用于阅读研究的时间明显减少了,但我仍然觉得其他人发布的新想法很有启发性和用处。
我现在主要通过X平台关注相关人员,使用arXiv过滤器来筛选感兴趣的论文、博客文章、播客访谈或YouTube视频。现在这些内容通过各种不同的格式呈现。
在工具方面,我现在经常使用Gemini来阅读和总结论文,并提出问题。这可能听起来有点老套或可预见,但这确实是Gemini的强项,我可以信任它处理整篇论文,甚至是多篇相关论文。随着阅读研究经验的增加,我们往往会更注重直接找到关键想法和关键结果。如果没有时间通读全文,用模型来完成这项工作很有帮助。Gemini在处理长文本方面的能力确实很强,它在处理长篇技术文本的问答和总结方面表现出色,这是我现在最常用的工具。
00:13:44
Nathan Labenz:
我有一个非常引人注目的观察,在过去的一年里,几乎所有(虽然可能不是完全所有的)前沿模型开发者都走上了一条看起来非常相似的道路。我们现在看到出现了一整类新的推理模型,它们都遵循类似的范式——通过思维链进行一系列推理思考,最后才给出最终答案。
这种趋同现象让我很想深入理解。这可能是“同时发明”的案例,因为条件已经成熟到使得这成为必然的下一步。另一种解释是,开发者们在旧金山的各种聚会上交流分享他们的工作。我很想听听你是如何理解这种现象的,为什么大家都在同时开发如此相似的技术?
Jack Rae:
这个现象其实在SF科技圈聚会之前就已经存在了。我认为人们总是在寻找进步的方向,现在即使是很小的模型改进信息也会被快速注意到。这是因为我们现在有空前数量的聪明人在从事AI工作,有空前规模的计算资源让我们能够快速做出反应,这导致了前所未有的发展速度和进展速率。当出现新范式时,比如test time compute,而且这个领域有大量性能和能力可以探索时,人们会迅速涌入这个方向。
如果以我们在Google的Gemini项目为例,我们在去年9月、10月组建了专门研究thinking和test time compute的团队。在专注这个领域仅一个月左右,我们就发现了一些令人兴奋的建模突破。这让我们能够在12月发布第一个基于flash with thinking的实验性模型。
当我回顾团队的进展过程,这是一个很自然的过程:团队成员在这个领域深入探索,越来越多的人积极参与思考、运行实验,进展非常快。我认为这种现象在这些非常优秀的研究团队中很常见,这就是为什么你会看到在短时间内突然出现一批reasoning模型。这是一种非常自然的现象,源于人们的好奇心、探索欲和人才的聚集。现在的研究人员都非常积极地寻找下一个重大突破,并尽可能快地探索它。
Nathan Labenz:
让我总结一下,这个想法本身就是一个显而易见的候选方向,而且一旦开始探索,就会发现这个领域就像一个富含低垂果实的果园,或者说是一条极其丰富的矿脉。这解释了为什么所有主要的开发团队都在探索这个方向,并且都认为这是一个值得大量投入的领域。
Jack Rae:
这确实是我们Gemini团队的发展历程。我们看到了很多初步迹象表明这个方向很有前景,并且已经取得了一些初步成果。特别值得一提的是,在Google,我们在语言模型上应用强化学习方面有着非常深厚的积累,而且一直都很热衷于这个领域。这让我们能够很自然地探索这个空间,并发现了一些真正突破性的能力提升。虽然我无法评论其他实验室的具体情况,但我猜测整个行业都在经历类似的发展。
00:17:52
Nathan Labenz:
在R1论文中有一个很有趣的细节,他们提到在较小模型上尝试强化学习基本上无法让它工作。这些研究者显然非常厉害,所以他们肯定用了很聪明的方法。但现在看来,这项技术似乎在各个地方都能工作了。我想了解一下,为什么之前有人在较小的基础模型上尝试应用强化学习时会失败?
Jack Rae:
这个观察完全正确。这些技术的难度远超人们的想象。即使是预训练,现在人们认为这是完全解决、完全明显的问题,但我回想六年前做预训练时,训练一个1000亿参数以上的大语言模型,会遇到数百万个可能出错或发散的地方。在强大的语言模型上应用强化学习,让它们进行更深入的推理和思考,这个过程就像炼金术。很多人尝试过但都失败了,因为有太多关键细节需要处理。当你同时面对5个问题时,可能修复了其中一个,但看不到任何改善,这会让人感到沮丧,甚至怀疑这条路是否可行。但只要不断迭代,当越来越多的问题得到解决,整个系统就会开始发光发亮。
去年我们看到了一些令人振奋的突破,通过强化学习,模型开始展现出真正的思考能力。我们观察到了一些非常酷的现象,比如自我纠正、探索不同想法等。这正是我们希望从强化学习中自然涌现的结果,但直到我们在自己的实验中亲眼看到这些现象,才确信这确实是可能实现的。
00:22:38
Nathan Labenz:
这些越来越广为人知的认知行为,显然可以通过多种方式在模型中形成。比如,为什么强化学习在小模型上效果不理想,一种可能的解释是需要足够大的模型规模和训练量,这些行为才能开始形成,这样强化学习才能将它们充分发展出来。当然,这些认知行为也可以通过监督式微调来学习,或者通过持续的强化学习来实现半随机式的涌现。你们团队是如何在不同训练阶段来塑造和精心培养这些认知行为的?
Jack Rae:
这个问题在团队内确实有不同观点。我们是一个完全以结果为导向的团队,会采用能带来最佳效果和模型泛化性能的方案。从更宏观的角度来看,这个领域存在一些基本的思路和观点。我个人特别倾向于最简单的训练方案,这是一种奥卡姆剃刀的思维方式——如果能在施加较少先验假设的情况下得到一个强大的模型,让所有能力更纯粹地从数据中学习,这通常是更好的方法。
在实践中,我们会探索人类数据,使用基于模型的合成蒸馏数据,也会尽可能通过端到端强化学习来实现各种功能。最终的模型和混合方案的选择主要基于效果,同时会特别注重简单性和良好的泛化性。由于我们的训练方案在快速演进,而且涉及一些内部信息,我只能分享这些基本原则。
Nathan Labenz:
我理解你们不能透露所有细节。使用人类数据训练的模型可能会表现得更像人类,当然我们也不应过分强调这种相似性。我很好奇,在RL论文中提到的思维链 context中的语言切换行为,我在Grok中也观察到了,但在Gemini中却没有发现。你们是否也观察到了这种或其他异常的思维链行为?你们是否采取了措施来筛选这些行为,或者设置了合适的先验来预防这些现象?
Jack Rae:
我们的根本原则是希望模型能够使用thinking tokens来提升自身能力。从这个角度来看,即使思维过程中出现一些异常现象,比如循环性思维或看似无用的文本输出,只要这些行为能帮助模型更好地解决问题,我们就会允许它继续。这本质上是模型的思考空间,目的是为了提高响应的准确性、安全性和事实性。我们确实注意到了一些关于thoughts的特征。首先,Gemini的thoughts通常使用英语,即使在处理非英语的推理任务(我们称之为i18n)时也是如此。虽然模型在这些任务中表现很强,但它仍倾向于用英语进行推理。这引发了一个讨论:这是否是一个不理想的产品体验,或者我们应该允许模型保持这种方式。这与语言切换不同,可以说是thoughts始终保持在一种语言中。另一个现象是,特别是在最初的Flash thinking发布时,thoughts往往比较模板化。模型经常使用一种相对公式化的结构来分解问题并形成响应。这也是我们的一个研究方向:我们是否希望保持这种模板化?理想情况下,它应该是自然的,是模型真实的思考过程,而不是总是采用特定模板。如果模型总是遵循固定模板,可能就无法充分利用思维计算的价值。我们一直在思考如何让thinking token的使用更加高效,最大化地提升模型能力。
00:27:48
Nathan Labenz:
我想确认一下,当我看到思维链时,展示的内容究竟是什么?我主要使用AI Studio,不知道它与Gemini应用本身在展示方式上有什么不同,你能说明一下吗?
Jack Rae:
是的,完全正确。我们在12月首次发布,然后在1月又发布了2.5 Pro版本。无论是在AI Studio还是Gemini应用中,你看到的都是模型原始的思维链token。说实话,目前还真不清楚哪种展示方式是最好的。用户确实喜欢看到原始的token,但这些内容往往会比较冗长。我们在考虑创建更有用的摘要,或者进行一些转换处理。
比如在NotebookLM中,我们做了一个很酷的思维探索器,用图形结构来追踪不同的想法。这仍然是一个相当新的领域,我们还没有最终确定如何最好地展示这些思维过程,但目前展示的确实是模型真实的思维过程。
Nathan Labenz:
我很好奇,你们在决定是否要分享完整思维链时进行了什么样的讨论?因为我们知道OpenAI最初选择不这么做,他们给出了一些原因。但大多数人认为这主要是出于竞争考虑,担心别人可能通过蒸馏或SFT来复制他们的工作。不过这种竞争壁垒似乎并没有被证明是持久有效的。所以我想了解你们是如何做出这个决定的?
Jack Rae:
这类决策通常需要安全团队、研究人员和领导层的共同参与,确实是个挺复杂的决定。我没法给你一个很具体的路线图,但每次发布我们都会非常认真地考虑。比如Demis就会想要非常清楚地了解各种利弊。说实话,这不是我主要参与的领域,我的工作重点是确保模型本身非常强大,让我们有更多好的选择。
这仍然是我们在积极探索的领域,我们并没有固定在某种特定的思维展示方式上。至于OpenAI选择只展示摘要,我其实不太清楚他们的具体原因。虽然他们确实解释了一些,但我相信背后可能有更多考虑因素。
最初有些人担心,如果我们展示思维过程,可能就需要对这些思维做RLHF来让它们看起来对用户更友好,而且我们可能不希望鼓励模型产生欺骗性的思维。但另一种观点认为,有了这些思维过程,对理解模型如何得出结果很有帮助。所以现在还在讨论到底用什么方式来处理和展示这些内容最好。从我的角度,我主要关注的是确保这些思维能帮助模型产生更强大的答案,提升整体能力。
00:31:09
Nathan Labenz:
你们是否不关心思维链对用户的展示方式?OpenAI最近发布的混淆奖励黑客论文显示,即使对思维链施加压力来避免奖励黑客行为,这种行为最终还是会重新出现,只是不会在思维链中显示相关推理。这是否令你担忧?你是否同意该论文的结论,即我们不应该对思维链的质量进行选择性训练?我们可以对思维链进行强化学习来提高可读性、避免循环行为或抑制奖励黑客推理,但有观点认为这样做是有问题的。你认为这是否是一个禁忌,还是有办法避免这些问题?
Jack Rae:
我们目前展示思维链是作为实验性发布的一部分,目的是获取反馈并从真实用户行为中学习。这对于任何技术的发布都至关重要。我们认真分析这些反馈,观察实际使用情况,以便为未来如何展示思维链信息做出更明智的决定。安全性是这个决策中的重要考虑因素。
从根本上说,我们希望这些思维过程能够提升模型的事实性、安全性和能力。我们需要给模型这样的思考空间,同时确保展示的思维过程是可解释的,并且忠实反映模型的实际计算过程。我们不会添加可能导致欺骗行为的训练目标,这一点非常重要。
00:35:21
Nathan Labenz:
让我们回到混合数据类型和人类数据的话题。在我自己的工作中,我尝试过让人们记录他们的思维链。即使在这些推理相关工作出现之前,我就发现在fine-tuning数据集中包含思维链示例,哪怕只是在很少量的任务上,都能获得明显更好的效果。
所以当我和其他人一起开发AI应用时,我经常会说:"你得把裤子钉在椅子上"——我不在乎你用什么方式,可以写文字,可以开着摄像头录制,但我需要你这个专家在实际工作时记录下实时的思维链。我们需要知道的不仅是输入和输出,更重要的是了解你是如何思考的,为什么要做出这些渐进式的决定。但我发现在很多情况下,要从人们那里获取这种数据都特别困难。虽然这可能超出了你的具体职责范围,但我想知道你们团队在获取人类思维链数据方面有什么经验,或者是否因为太难而转向使用合成数据?
Jack Rae:
这个问题有两个层面:一是如何获取过程数据,也就是不仅仅是prompt和解决方案,还包括达到解决方案的整个过程;二是思维链是这种过程的一个具体实例。
有趣的是,让人真实地记录思维链确实非常困难,这是一个相当潜在的过程。实际上,Gemini等模型之所以能够进入这种思维模式,是因为人们已经在写文章或参与在线讨论时自然地详细描述了他们的思维过程。这就是为什么即使在我们通过强化学习来强化这个能力之前,只要提示模型"让我们一步一步思考",它就能够做到零样本推理。
我发现,当人为地要求人们记录推理过程时——也就是不是自然发生而是在指令下进行时,很难从这种数据中获得太多价值。但这与记录过程是两回事。如果我们能获得更多人们自然解决任务的过程示例来训练,这是非常有价值的。关键在于,当我们特意要求人们描述内心独白时,这种训练数据似乎并不那么有效。
Nathan Labenz:
说到记录过程,你是在设想记录computer use这样的场景吗?比如用户如何点击、如何与环境进行交互?
Jack Rae:
对,我主要考虑的是在解决开放性任务时的场景,需要进行很多中间计算,可能还包括具体的行动。但说实话,关于如何获取更多代理行为数据这方面的问题,并不是我的专业领域。
Nathan Labenz:
这是否意味着你认为推理能力和代理行为之间存在明显的区别?因为现在很多人认为推理能力是实现代理行为的关键突破点。
Jack Rae:
不,完全不是。推理和代理行为在研究层面是非常紧密耦合的。但我们仍然可以划分出一些关键研究问题,比如为代理创建环境这样的工作。我们有一个非常优秀的团队专门负责这部分,这是一种分工。思维领域主要在行动或响应背后的推理方面进行合作。
00:40:13
Nathan Labenz:
刚才我们提到人们难以写下自己的思维过程,这部分原因是因为这是一个在latent space的过程。我想借此机会和你深入讨论一下latent space这个话题。首先,让我分享一下我对模型推理过程的理解,这可能是个过度简化的理解,希望你能对此进行评论和补充。
我的理解是这样的:预训练过程决定了模型可以使用的抽象、表示或特征,也就是说,模型必须在这些已建立的概念基础上工作。而后训练则决定了模型如何部署这些概念,如何将它们组合起来,以及如何找到通向解决方案的路径。
Jack Rae:
我基本同意你的观点。让我用另一种方式来描述:预训练可以学习海量的函数逼近器,这使模型能够模拟整个分布中的各种行为,包括好的和坏的推理行为。预训练会获得所有类型的行为,虽然我们可以通过选择预训练数据来稍微调整,但它仍然试图反映所有类型的行为。预训练的目标是更好地预测下一个token,更好地压缩文本,可能还包括在后训练期间更好地理解整个分布。
在后训练阶段,我们会丢弃大量的模式和行为类型,真正专注于几种特定的推理和响应方式。如果我们能把强化学习做好,还可以学会组合一些基础技能来构建技能集,以完成更重要的任务。我不确定我是在评论还是在重复你的观点,但这就是我的理解。
Nathan Labenz:
我想说的是,目前大部分计算量都用在预训练上,相比之下,后训练阶段的计算量要小得多,大概小两个数量级。当然,我们也看到强化学习的规模在不断扩大。这种预训练和后训练的二分法可能会逐渐模糊,最终演变成一个连续的光谱。我特别想了解的是:模型是否在后训练阶段学习新的基础概念?还是这些概念主要是在预训练阶段就已经学习到了?当后训练阶段的计算量从1%增加到10%时,这种情况会有变化吗?
Jack Rae:
我认为在强化学习阶段必须要学习新的技能,这对于构建AGI来说是绝对关键的。如果我们希望这些模型最终能在关键任务上超越我们,就不能仅仅依靠重塑预训练阶段通过行为克隆获得的知识。这也是当前最令人兴奋的研究方向之一:我们如何通过强化学习的组合来循环提升这些模型的能力,使其变得更加强大、通用和稳健。我完全确信这种能力的提升会发生在强化学习阶段。
00:44:12
Nathan Labenz:
在主要的前沿模型开发者中,Meta是一个尚未完全投入推理研究的公司。不过他们发表了一篇很有趣但也令人担忧的论文,探讨了latent space推理。他们不是将每次前向传递的结果解码为具体的token,而是直接使用最后的latent状态作为下一个token位置的嵌入,让模型能在多个前向传递中持续处理自己的"思维"。
这种方法让我感到相当担忧,因为我希望尽可能地了解AI的思维过程。当然,这种方法也有一些优势:它存在吸引子状态,需要更少的前向传递就能达到相似的性能;而且相比于显式思维链倾向的深度优先搜索,这种方法可以进行广度优先搜索。
那么关于latent space推理,我们应该对此感到担忧吗?我们是否应该禁止这种方法?或者说,有没有什么方式可以安全地使用这种技术?
Jack Rae:
我认为,除非有极其充分的理由,否则不应该在充分研究和理解之前就禁止某项技术。在这个案例中,人们对它产生质疑主要是出于可解释性的考虑,我们确实需要这些latent状态是可解释的。如果它能带来更好的推理能力,同时又能保证可解释性和安全性,那为什么不去探索这个方向呢?
我想举一个类比的例子。在MuZero之前,我们有AlphaGo和AlphaZero这样的发展历程。AlphaZero的主要改进是只使用自我对话训练,不需要监督学习。而MuZero更进一步,它的关键创新在于在latent向量空间中进行搜索,而不是在状态空间中展开。这种方法带来了显著的性能提升,而且他们通过将latent向量解码为状态来保持可解释性。这是那个系列中最强大的进展。我认为这是一个非常有前景的方向,我们不应该在这个阶段就排除这种可能性。这看起来是个很好的想法。
Nathan Labenz:
从安全研究的角度来看,在游戏场景中,我们可以用较高的置信度解码模型的状态,因为游戏有明确的运行规则和状态空间。模型必须在这个确定的游戏状态中运作,不会偏离太远。但对于通用AI系统内部发生的事情,我们缺乏这样可以确信的基准状态。
我最近花了很多时间阅读Anthropic发布的语言模型思维追踪研究。这项研究很棒,但我觉得研究的标题可能让领域外的人对我们理解AI内部运作的能力过于乐观。实际上,他们的替代模型只能解释50%的行为,而且需要添加很多误差项来完整解释所有现象。
我的感觉是,业界普遍认为在强大或变革性AI出现之前,可解释性研究可能达不到让我们真正理解模型在想什么或为什么会有特定行为的水平。你对可解释性研究的前景怎么看?你认为我们能够更快地取得进展,在这些强大系统出现时真正理解它们的思维过程吗?
Jack Rae:
我认为,随着模型能力的快速提升,不仅会提升编程等实际任务的能力,也会加速机制可解释性研究。我不认为会出现能力指数增长而可解释性研究线性增长的巨大差距,我预计这两者会同步发展。
说到latent向量与思维内容的关系,这确实是一个非常有趣的研究问题。我们需要好的研究工具来追踪实际思维内容与底层计算之间的关系,从而预测模型的输出结果。Anthropic的这项工作非常出色,我们Gemini团队也有优秀的研究人员在做这方面的工作。无论是研究latent向量还是连续token,这种可解释性研究都是必要的,也是人们所期待的。
00:50:39
Nathan Labenz:
我认为这是一个重大问题。特别是如果我们要让AI系统运行大量的经济活动,或者——天啊,军事活动,这似乎越来越成为某些人的设想,那么了解它们为什么做出某些决定就显得尤为重要。在解释性研究中,自动解释性可能是一个重大突破,但也可能就像在转动的盘子一样随时可能崩塌。其中一个主要挑战是特征的自动标注。
Anthropic的工作在这方面做得非常漂亮。他们发布的界面设计得很好,任何出现在文章中的特征,你都可以展开查看数据集中导致该特征激活的具体段落。不过说实话,有些特征标注我看了之后会想"我绝对不会想到用这个标签"。这就变得很有哲学意味了。
你一定看过《柏拉图模型假说》这篇论文。我想知道你对这个假说的认同程度如何。对我来说,这意味着随着模型规模不断增长,不同模型之间似乎存在某种收敛性,这可能暗示它们正在趋向于某个真实的世界模型。你认为这是否正在发生?随着规模的进一步增长,我们是否应该对模型行为的解读更有信心?
Jack Rae:
也许你能重述一下问题?你是说随着所有不同模型规模的增长,它们会开始更多地趋同吗?说实话我不太确定具体含义。
Nathan Labenz:
是的,更深层次的哲学问题是:它们是否正在收敛到某种实际的现实表征,这种表征是我们可以信任的、有坚实基础的?
Jack Rae:
在预训练领域,我确实有非常强烈的理论确信。随着我们不断降低困惑度,改进文本压缩,如果我们能够达到噪声底线、触及文本的熵,某种程度上实现类似贝叶斯最优的文本压缩,我们就能得到最好地理解生成这些文本的世界模型。这个观点有着扎实的数学基础,可以追溯到Ray Solomonoff和Claude Shannon的工作。这一点在学术界经常被引用——最优的文本压缩器将拥有对生成文本过程最好的世界模型理解。
但这更像是一个哲学论点,因为即便是这样的系统也不是我们真正想要的AGI。我们不仅需要一个对现有文本动态有最优理解的系统,更希望模型能够去完成有用的任务,忠实地遵循我们的指令,完成前所未有的复杂任务,并能泛化到全新的未知环境。这些方面都不在预训练的世界模型描述范围内。
尽管我的职业生涯主要在预训练领域,但我认为预训练并不是构建AGI的唯一组成部分。某种程度上,我可能同意你提出的假设,但也要考虑它的相关性。这不是构建AGI的完整故事,所以在我的思考中,这可能不应该是唯一需要关注的方向。
我认为,当我们开始大规模使用强化学习来训练这些模型时,它们绝对不会都收敛到同一个模型。实际上,要把这件事做好需要承担很大的责任,以确保我们真正构建出有用的系统。从现在的情况来看,这些模型之间已经存在显著的差异。
在Gemini内部,我们非常谨慎地在针对特定领域开发一些能力,这些能力并不会自然而然地在所有模型中出现。不同模型之间已经有很多优缺点的差异。因此,我认为模型的发展方向是非常可控的,这绝不是在朝向一个统一的万物世界模型演进。从研究的角度来看,我们完全可以引导模型的发展方向。
当然,我不是哲学家,我只是努力让这些系统能够很好地工作。我非常期待能听到一些持续关注AI发展的哲学家对这个问题的见解。
00:55:30
Nathan Labenz:
是的,我想总结一下,经验科学确实能为哲学家们提供很多重要的启发,特别是在现在这个时代。看起来你说的是世界模型本身在向某个方向收敛。但是在如何在行为层面上应对这个世界时,我们面对的是一个巨大的信息空间和可能性空间,这里并不存在单一的正确答案。在这个空间里,品味、安全性等这些因素都有很大的探索空间,可以朝着不同的方向发展。
在最后10分钟左右,我想讨论一下从现在到AGI的路径图。当然,我不是要讨论具体的技术细节,而是想谈谈比如Gemini具有的超长上下文能力这样的特点。从我的理解来看,实现这一点从技术角度并没有太疯狂的创新,主要是通过规模化扩展,以及使用那些真正需要长上下文理解能力的训练数据就能实现。如果我理解错了请纠正我,但仅仅继续推进现有的技术方向是否就足够了?
或者说,要实现人们想象中那种能够长期运行的agent,我们是否需要一个更加集成的、整体性的记忆和遗忘处理机制?换句话说,记忆这个问题是已经通过现有的技术路线解决了,还是我们需要某种概念性的突破?
Jack Rae:
这是个很好的问题。2014年我加入DeepMind时,开始研究情景记忆(episodic memory)领域。这个方向与Demis的博士研究相关,他研究的就是情景记忆和想象力这些领域。我一直对人类记忆、情景记忆和海马体非常感兴趣。我的博士研究聚焦于具有快速和压缩记忆的终身推理,探索如何在神经网络中实现一个表达能力强、具有类似人类思维中各种时间跨度的记忆系统。
当我开始博士研究时,完全无法想象我们能取得如此巨大的进展。现在我们已经实现了100万token、1000万token这样的上下文长度,根据文本或视频的表示方式不同,这些上下文长度已经开始接近终身学习的规模。但我依然认为记忆问题还没有完全解决,我相信在记忆领域还会有一些非常令人兴奋的突破。
在DeepMind,我们开发了Neural Turing Machine和可微分神经计算机这样的系统,它们将大规模注意力系统与多种不同的读写机制结合在一起。我认为这个研究方向很可能会成功,这将是实现无限终身记忆的一个很好的方式。但这仍然是一个活跃的研究领域。
在通向AGI的路线图上,我们发现每个技术突破都能产生良好的叠加效应。就拿一年前我们在长上下文方面的突破性进展来说,它与我们当前的推理和思考工作产生了很好的协同效应。我们发现,能够长时间深入思考问题,同时能够利用大量上下文(可能是百万或数百万token)这两种能力之间存在着很有效的耦合。这种组合帮助我们解决了许多如果缺少任何一项能力就无法解决的问题。
在当前阶段,agent是一个超高优先级的领域,思考和推理能力也同样重要。我们还没有到达终点,这些模型在可靠性和通用性方面还有很长的路要走,特别是在更开放性的任务上。从我们的角度来看,还有很多已知的瓶颈需要突破,我们会继续改进系统,提升思考能力,在agent领域不断进步。
我相信,当我们能够将更好的agent能力、更强的推理能力,以及更完善的记忆系统结合起来,实现近乎终身的理解和推理能力时,这样的系统对很多人来说就会真正感觉像AGI了。说实话,对我来说,当前的系统已经给我AGI的感觉了。我在使用2.5 Pro时就有这种感觉,它能够一次性理解复杂的代码库,这在三年前还被认为是未来的技术,而现在它就在这里,而且运作得很好。
虽然我们总是渴望追求下一个突破,但我认为这些能力的组合——更好的记忆系统、更深入的思考和推理系统,以及能够使用多种工具和开放式行动空间的能力,会让人真正感受到AGI。关于AGI何时到来,很难说具体时间,但所有这些技术都在积极开发中。我感觉它来得很快。
Nathan Labenz:
我也有同感。我还有两个快速问题要问,然后再请你分享最后的想法。在你之前的描述中,我没有听到关于更多模态集成的讨论。这几周看到Gemini 2.0和GPT-4o在图像处理方面的表现,让我深受启发——文本和图像模态的深度集成展现出了惊人的威力,这与简单的工具调用式集成完全不同。
你觉得这种深度集成会扩展到更多模态吗?比如说,未来是否会出现这样的场景:Gemini不是简单地调用AlphaFold,而是与其进行深度集成,让它们的latent space能够真正融合,实现像现在的语言和图像那样的协同导航?
01:01:58
Jack Rae:
你知道,说到AlphaFold这个问题,我觉得多模态是个很好的切入点。在Gemini的开发中,我们从一开始就把多模态作为核心设计理念,这是个非常正确的决定。Gemini在图像理解、视频理解方面表现得非常出色,实际上在Gemini One的技术报告中就包含了原生的图像生成功能,只是没有在第一版本中马上发布。
说到世界模型,我认为让所有内容都深度多模态化是极其重要的。我们需要在文本、视频、图像和音频等多个模态上进行训练和整合。这是Gemini的一个很酷的特点,现在这些功能都在逐步推出。用户特别喜欢原生的图像生成功能,因为你可以直接编辑图像,进行更多互动,而不是简单地把它当作一个静态的工具来调用纯文本到图像的模型。任何能够被引入到世界模型并进行联合训练的内容,都会带来更深层次的体验和理解。
这就引出了一个关键问题:在什么时候应该把新的能力整合到预训练中,实现联合理解?我认为现在业界普遍采用的是一种务实的方法,就是先从那些信息最密集、规模最大的数据源开始。这就是为什么文本是一个很自然的起点,因为它既高度压缩又富含知识,而且有大量可用数据。至于如何扩展到规模可能较小或信息压缩程度较低的数据源,这是个难题。比如在生物领域,基因组学就很有意思,有人在尝试将基因组生成模型与大语言模型一起训练。关键是要评估联合训练相比简单工具调用能带来多少收益,以及从现有的文本、视频和图像领域的世界知识向新任务能有多少正向迁移。如果没有太多正向迁移,可能联合训练就没什么意义,直接作为工具来用可能更好。这些是我们决定是否将某个能力整合到统一世界模型中,还是保持为独立专家系统的主要考虑因素。
Nathan Labenz:
我押注于 One World model,但我们会继续关注这个领域的发展。最后一个问题——我真的很感谢你今天分享了这么多独家见解。如果我不问这个问题,大家一定会责怪我:Gemini 2.5 Pro 的系统卡片在哪里?我们本以为能看到这些系统卡片,但发现最近这几个模型都没有发布。我不知道是否有相关政策来决定哪些模型需要完整的技术报告处理?
Jack Rae:
我们发布这些实验性模型的目的,是真正想把它们交到消费者和开发者手中,获取真实反馈,了解它们的局限性。实验性这个标签意味着这些模型还没有完整的配置,比如可能还没有系统卡片这样的工件。我们正在全力加速推进,让这些模型达到可以正式发布的稳定状态,到时会提供完整的系统卡片。
Nathan Labenz:
现在是否已经完成了所有的安全测试?
Jack Rae:
我们在发布模型前进行了可能是业界前所未有规模的安全测试。对于实验性模型,我们会采用不同层级的测试标准。获取真实世界的反馈实际上也是测试过程中非常重要的一环。这些发布都要经过政策团队和安全团队的标准流程,包括大量的红队测试。现在我们正处于实验阶段,正在全力加速推进向正式发布的过渡,到时会提供更完善的配置和系统卡片。
上周我参加了一个云计算活动,很多人都在问Vertex AI什么时候会发布。我当时只说"很快",结果第二天就实现了。在很多类似的情况下,我们都是这样——承诺要保守,但实际交付要超出预期。这些进展的节奏非常快,技术本身也在飞速发展。
01:06:55
Nathan Labenz:
你们的红队测试过程是否包括第三方红队测试人员?比如Apollo、Haze Labs、Metr这些常见的机构?
Jack Rae:
是的。我们在Gemini技术报告中会详细说明外部红队测试的情况。在当前阶段,我不便透露具体的合作伙伴身份。我们有合理的考虑不总是公开红队测试合作伙伴,但我可以确认我们确实在与外部红队测试人员合作。
Nathan Labenz:
那么技术报告发布时会列出这些外部合作伙伴的名单吗?
Jack Rae:
我需要确认一下,但根据我的了解,这在我们过去的技术报告中是会提及的。
Nathan Labenz:
这是一场精彩的对话,非常感谢你详细回答了这些问题。最后想请教一下,还有什么我们没有讨论到的想法或观点想要分享吗?
Jack Rae:
我很好奇你使用2.5 Pro的体验如何,有什么特别的发现或反馈吗?
Nathan Labenz:
对我来说,最大的不同是它的长上下文能力。这让我想到一个普遍存在的问题:几乎所有RAG应用都存在这个问题,不管是IDE集成的还是其他的。这通常是个商业问题而不是技术问题。因为这些产品采用固定月费制,为了保持合理利润,他们不得不限制上下文长度来控制成本。这经常导致一些重要信息被遗漏,影响回答质量。
所以我通常的解决方案是将整个代码库导出为单个文本文件,直接提供给模型。我做很多小型个人项目和概念验证,通常在10万token以内,主流模型都能处理。
不过最近我遇到了一个研究代码库的案例——说起来,我是Emergent Misalignment论文里贡献最少的作者。我常开玩笑说自己是"AI界的阿甘",总是以配角身份出现在重要场景中。这个研究项目的代码库很有意思,它不是那种标准的生产环境代码,而是简单地用开发者名字来组织文件夹,比如"Daniel文件夹"、"Nathan文件夹"这样。我们都知道这不是最佳实践,但在研究探索阶段,我们就是这样随意组织的。这个代码库有40万token,远超出其他模型能处理的范围。
对于这个40万token的代码库,模型展现出了令人惊叹的掌控能力。我之前使用Gemini模型时,虽然它也能处理大量内容,但我从未完全确信它是否真正完全掌握了所有信息。而这次的体验让我感受到了真正的突破——模型对整个上下文的掌控能力确实令人印象深刻。
虽然我现在还没有具体的基准测试数据,但我发现我可以更有信心地向模型输入大量原始信息。当然,我们仍然需要保持适度的谨慎,但即使是那些我自己并不完全了解内容的信息转储,我也更有信心Gemini 2.5能够准确把握重要内容,帮助我处理这些深层次的上下文信息。
这对我来说是一个根本性的区别:帮助你处理自己熟悉的长上下文是一回事,而能够帮助你处理那些你并不熟悉的长上下文则是完全不同的另一回事。我认为我自己还需要做更多验证工作,显然整个社区和你们团队也都在共同努力这一点,但这种差异是确实存在的,这一点我可以确定。
01:11:42
Jack Rae:
听到这个反馈很好,因为我去年一直在与专注于长上下文的团队密切合作,当时我们正在为这项突破做准备。由于我之前长期从事预训练工作,所以与那些为2.5 Pro优化长上下文的团队保持着紧密联系。团队投入了大量工作,不仅实现了100万、200万token的处理能力,未来还会有更多进展,关键是要确保这些能力真正有效。
说实话我现在想不起那个外部评测榜单的具体名字了,但这个榜单经常在X上被分享,专注于128K上下文评测。在这个榜单上,Gemini 2.5 Pro的表现远超其他现有模型,展现出更有效的长上下文使用能力。
特别是在2.5 Pro中,我们看到它不仅能处理百万级token,而且感觉它真的读懂了所有内容,不会遗漏任何关键细节。这给人一种类似AGI的感觉,仿佛在一秒之内就能学习并掌握一个庞大的代码库,了解每个细节,达到很好的理解水平。这确实是一个非常令人惊叹的突破。
Nathan Labenz:
这确实是当之无愧的赞誉。说到这些技术的重大突破,我永远不会忘记第一次使用GPT-4的那个时刻。在过去两年半的时间里,很少有技术能给我带来如此显著的质变感受。但GPT-4确实做到了,它让我真切地感受到一个全新的能力层级被解锁。我需要重新调整自己对AI能力的认知框架,去适应这项技术开启的新可能性。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.4.14 首发于微信公众号