Z Potentials 2024年11月16日
喝点VC|红杉资本对话OpenAI o1研究员:深度强化学习已走出绝望低谷,
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI的o1项目是在通用推理时间计算领域的重要尝试,通过延长思考时间提升推理能力,在STEM等领域表现优异,展示了推理时间未被充分利用的维度,具有在科学与医疗等领域的潜在应用。

o1通过强化学习训练,能进行推理,在很多推理领域表现出色,且具有高度通用性。

推理可理解为某些问题通过思考更长时间获得更好解答,o1在STEM领域表现出色因其适合复杂推理任务。

深度强化学习与推理结合,o1首次在广泛领域应用,在解决问题时展现出独特的思维方式。

o1虽不能独立完成科研工作,但可作为伙伴为科研提供支持,如在癌症研究中帮助发现新方向。

Sequoia Capital 2024-11-15 17:55 中国

“o1真正酷的地方正是在于它的高度通用性。”

图片来源:OpenAI官网

Z Highlights

OpenAI o1研发历程与工作原理

Sonya:我们今天非常高兴能请到Noam Brown、Hunter Lightman和Ilge Akkaya,他们是OpenAI“Project Strawberry”或o1项目的三位研究员。o1是OpenAI在通用推理时间计算方面的首次重大尝试,今天我们将讨论推理、思维链、推理时间的扩展规律等话题。Ilge、Hunter和Noam,非常感谢你们能加入我们,祝贺你们成功发布o1项目。我想从第一个问题开始:你们是否从一开始就坚信这个项目会成功?

Noam:我认为我们坚信朝这个方向发展是有前途的,但具体的实现路径却一直不明朗。看看o1项目,它并不是一夜之间就成功的,背后有多年的研究投入,而这些研究很多并没有成功。不过,我认为OpenAI的领导层一直坚信这一方向是必须要成功的,他们愿意在最初遇到挫折后继续投入,这最终是得到了回报的。

Hunter:我得说,一开始我并不像Noam那样有那么大的信心。我已经研究了很长时间,试图让语言模型学习数学和其他推理任务,我觉得这类研究总是有起伏的。有时候一些方法管用,有时候则不行。当我们看到我们采用的方法开始奏效时,很多人,包括我在内,都有一种“顿悟”的时刻,开始意识到模型的输出方式不同了。这就是我信心大增的时刻。

我认为OpenAI总体上采取了非常实证主义的、数据驱动的方式来处理这些问题。当数据开始传达信息、趋势开始显现并与我们想要追求的方向一致时,我们就会追随它。而我信心大增的时刻,正是当数据支持我们的时候。

Pat:Ilge,你已经在OpenAI工作了五年半了,你从一开始就相信这个方法会成功吗?

Ilge:不,坦白讲,自我加入以来,我在通往AGI的过程中犯过几次错误。我最初认为机器人技术是前进的方向,这就是我一开始加入机器人团队的原因。我们之前认为Embodied AI(ZP注:Embodied AI 是一种将人工智能与物理体相结合的技术。它使得 AI 不仅能够处理数据和信息,还能够在现实世界或虚拟环境中感知、行动和与环境互动。与传统的基于纯数据的 AI 不同,Embodied AI强调的是智能体对物理环境的感知、决策和行动能力)是通往AGI的路径,但事实证明并不是如此。特别是在ChatGPT诞生时,那是一个巨大的范式转变,我们可以向世界展示一个通用的接口,这让我对推进未来的推理范式充满了希望。但对我来说,这一切并不是从一开始就显而易见的。

Sonya:你们可以简单解释一下o1的工作原理吗?你们能公开的部分有多少?

Ilge:o1系列模型通过强化学习训练,能够进行推理。你可以称之为推理,也可能是其他名字。与我们之前所使用的大语言模型根本不同,我们看到它在很多推理领域都表现出色,这是我们最近分享的成果。我们对这一新模型家族带来的范式转变感到非常兴奋。

Pat:对于那些不太熟悉当前语言模型最新进展的人来说,推理到底是什么?你们如何定义推理?它为什么如此重要?

Noam:这是个好问题。我认为推理可以理解为某些问题通过思考更长时间从而获得更好的解答。你知道,在人类中有一种经典的系统一(快速、直觉的反应)和系统二(慢速、过程驱动的反应)的思维模式。对于某些任务,思考更长时间并没有帮助,比如问你“不丹的首都是哪里?”,无论你思考多长时间也不一定能正确回答。但对于一些问题,显然思考更长时间会有好处,比如数独问题。

我认为AI领域的很多人对“推理”有不同的定义。而我并不声称我的定义是权威的。我把推理看作是那些通过考虑更多选项和进行更长时间思考后,解答能够得到相应提升的问题。你可以称之为“生成-验证差距”,意思是说有时候生成一个正确的解答十分困难,而去验证一个已有的解答是否正确简单得多。而在验证比生成简单的情况下,思考更长的时间对于解答更有好处。

所有问题都可以用“生成-验证差距”进行分类:有些问题验证比生成容易得多,比如数独谜题;而有些问题验证和生成一样难,比如说出不丹的首都。

与AlphaGo的对比与优化策略

Sonya:Noam,你之前在扑克和其他游戏领域做了很多出色的工作。你认为从游戏中学到的经验在多大程度上与o1的工作类比?它们之间有哪些不同?

Noam:我认为o1的一个非常酷的特点是,它确实能够通过更长时间的思考获得明显的优势。当回顾很多AI的重大突破时,AlphaGo是一个经典的例子。其中一个在当时被低估的非常明显的特点,是这个AI在行动之前思考了很长时间。它下每一步棋可能需要 30 秒。如果你让它立即做出反应,它其实并不比顶级人类玩家强,甚至明显不如他们。所以它显然从额外的思考时间中获益很多。

现在的问题是,AlphaGo在较长的思考时间使用的是一种叫做多重蒙特卡洛树搜索的方法,这是一种适用于围棋的特定推理方式。但这种方法在像扑克这样的游戏中并不起作用,而我的早期研究就是关于扑克的。因此,尽管AlphaGo背后的神经网络,也就是AI的“系统一”部分非常通用,但很多用于推理和更长时间思考的方法仍然是针对特定领域的。而o1真正酷的地方正是在于它的高度通用性。

o1用于延长思考时间的方式非常通用,可以适用于许多不同的领域。这是我们通过交付给用户使用,观察用户能够用它做些什么,从而发现的一点。

Hunter:对我来说,语言模型的一个吸引力点在于,它的接口是文本接口,因此可以适应各种不同类型的问题,但这已不是一件新鲜事了。而我们现在感到兴奋的是,我们认为我们找到了一种方法,能对这种通用接口进行强化学习,看它未来能带来什么是我们十分期待的一点。

Ilge:让我兴奋的一件事是,这次发布让很多新人可以亲自体验o1,看看它的工作方式,了解它擅长解决哪些问题,以及在哪些问题上表现不佳。

我认为这实际上是 OpenAI 核心战略之一,即迭代式部署。我们把自己构建的技术和开发的研究成果带入现实世界,这样我们可以安全地观察世界如何与之交互,并了解我们可能尚未完全理解的方面。因此,我们非常期待能够从中获得更多洞见。

在思考我们方法的局限性时,我认为通过推特观察o1的表现,看到它能做什么和不能做什么确实很有启发性。我希望这能启发整个世界,帮助大家理解这些新工具的用途。此外,我也希望我们能够有效地回收这些信息,从而进一步优化我们的流程、研究和产品。

Pat:顺便问一下,你们在推特上有没有看到什么让你们感到惊讶的内容?是否有人以你们没有预想到的方式使用了o1?

Ilge:有一件事让我很激动。我看到许多医学博士和研究人员把这个模型当作头脑风暴的伙伴。他们提到自己已经在癌症研究领域工作了很多年,并且将他们的一些关于基因发现和基因治疗的想法与模型讨论。通过与模型互动,他们找到了非常新颖的研究方向。当然,模型本身并不能完成研究,但它可以作为人类的良好合作伙伴。我对模型能够推动科学研究这条路径的发展感到非常兴奋。虽然这并不是我们团队正在做的事情,但我认为,这是我们希望看到的现象。模型可以在我们之外的领域带来巨大好处。

深度强化学习与推理的结合应用

Pat:Noam,你发推文说深度强化学习(Deep RL)已经走出了绝望低谷。你能详细说说这是什么意思吗?

Noam:我认为这个低谷大概是从DeepMind的Atari成果开始的。那个时候深度强化学习非常火。我当时还在读博士,记得2015年到2018年、2019年左右,深度强化学习非常流行。虽然进行了大量的研究,有一些方面被忽视了。我觉得其中一个被忽视的点是,大规模数据训练的力量,比如GPT方法的训练。很多人没有意识到这一点,但OpenAI看到了一些初步成果,并有信心加大投资。

后来,GPT-3以及其他大规模语言模型的成功,证明不需要深度强化学习也能取得很大的成就,导致很多人对深度强化学习失去了信心。但现在通过o1,我们发现深度强化学习仍然有其重要的作用,特别是与其他元素结合时,它依然非常强大。

Sonya:AlphaGo取得的深度强化学习成果大多局限于特定的游戏领域,而o1是否是首次在更加广泛的、没有明确边界的领域应用深度强化学习?

Noam:对的。深度强化学习的许多精彩成果都相对狭窄,应用范围有限。虽然有一些相对通用的强化学习成果,但它们的影响力无法与像GPT-4这样的大型语言模型相比。我认为未来我们会看到深度强化学习在这个新范式中产生类似的巨大影响。

Pat:AlphaGo与李世乭比赛中的37号棋步曾让所有人惊讶。在o1项目中,是否也出现了类似的令人惊讶的时刻?你觉得这种时刻已经到来,还是还要等到O2、O3?

Hunter:我能想到的一个例子是在我们为IOI(国际信息学奥林匹克)比赛做准备时,o1用了一种非常奇怪的方法解决了一个编程竞赛的问题。我们的编程专家都无法理解为什么模型要用这种方法,虽然这不算什么“天才一笔”的时刻,但的确让我们觉得有趣。模型解决问题的方法与人类不太一样,它有时会陷入困境,但会通过不断尝试来找到解决方案。

Ilge:我还见过模型解决几何问题,它的思维方式让我很惊讶。你可以问它一些概率问题,它会说“让我们来可视化这个问题”,然后通过这种方式帮助它自己思考。这和我们人类的思考方式有些相似,看到o1也能这么做真的很有趣。

Hunter:我觉得o1的一个特别之处在于它的推理过程是人类可以理解的。我们可以看到它的思维链,并探讨它的思维方式。

Pat:你们在开发过程中有“顿悟”的时刻吗?Hunter,你之前提到自己一开始并不完全相信这一方向是正确的,有没有哪一刻让你转变了想法,认为“这确实会成功”?

Hunter:是的,我在OpenAI工作了大约两年半,大部分时间都在努力提高模型解决数学问题的能力。我们尝试了各种不同的系统,有一次我们训练了一个新模型,结果在数学评估中的得分比以往任何系统都高,阅读它的思维链时,我们看到它表现出了不同的特点:当它卡住时,会说“等等,这不对,让我退一步再看看”,我们称之为“回溯”。那一刻我意识到,模型的某些能力开始显现,可能超出了我最初的预期。

Noam:对我来说也是差不多的时刻。我刚加入时的想法是,ChatGPT不会在响应前花时间思考,它的反应非常快,但我们看到在游戏中,如果AI能花更多时间思考,结果会更好。我当时很好奇,如何把这个能力引入语言模型。我们尝试了很多方法,最后发现,只要让AI有更多的时间思考,它会逐渐展现出一些非常强大的能力,比如回溯和自我纠错。

Hunter:Noam其实低估了自己对推理时间计算的信心。我记得他刚加入时,我们的每次一对一会议里,他都会提到推理时间计算的重要性。很多次他都会说:“为什么不让模型多思考一会儿?”然后我们尝试了,果然效果变好了。

Sonya:在你们的评估中,o1在STEM领域表现得尤为出色,甚至比之前的模型更好。你们认为这背后的原因是什么?

Noam:我之前提到过,有些任务比较容易验证而难以生成解答,而STEM问题通常属于这一类需要复杂推理的问题,这是o1在STEM领域表现出色的一个重要原因。

Pat:我们在你们发布的研究论文中看到,o1在你们的研究工程师面试中的通过率相当高。你怎么看待这一点?这是否意味着未来OpenAI会雇用o1来代替人类工程师?

Hunter:我认为我们还没到那个阶段,还有很多事情需要解决。但我确实觉得o1已经比其他模型更像一个更好的编程伙伴了。它甚至已经在我们的代码库中提交了几个PR(Pull Requests)。所以在某些方面,它已经在像软件工程师一样工作了。我觉得软件工程是另一个受益于长期推理的STEM领域。也许随着我们继续扩大推理时间计算,o1会变得越来越好,甚至能够处理更多的任务。

Sonya:你认为o1要在人文学科领域表现出色还需要做什么?你觉得在逻辑推理和STEM领域的优秀表现自然会延伸到人文学科吗?还是说在推理时间的扩大下,它的发展路径会有所不同?

Noam:就像我们发布模型后所说的,我们很好奇它擅长哪些领域,不擅长哪些领域,以及人们最终会用它做什么。我认为模型的原始智能和它在各种任务中的实际用途之间显然存在一个差距。在某些方面它已经非常有用,但我觉得它在很多领域还有潜力可以挖掘,我们还需要进一步迭代来解锁它的更广泛应用。

AGI的定义与思维链

Pat:我想问一个关于应用生态系统的问题。你们如何看待模型能力与现实工作之间的差距?你们是否有一个内部的思维过程来决定哪些工作应该成为模型的一部分,哪些则应该留给围绕你们API构建的生态系统去解决?

Noam:我加入OpenAI之前,一直听说OpenAI非常专注于AGI,说实话,我对此有些怀疑。但在我入职的第一天,公司召开了一次全体会议,萨姆·奥尔特曼站在公司全体员工面前,明确阐述了短期和长期的优先事项。很明显,AGI是真正的优先目标。因此,最清楚的答案是,AGI是我们的终极目标。

Pat:你有AGI的定义吗?

Noam:每个人都有自己的定义。

Hunter:我不确定是否有一个明确的定义。我认为AGI的关键在于我们的AI系统能够执行具有经济价值的工作的比例。我认为在接下来的几年里,这个比例会迅速增加。你可能会“感觉到它的存在”,然后我们会不断重新定义这个目标,直到有一天我们和AI同事一起工作,它们将可以完成我们现在工作的大部分内容。同时,人们的工作千差万别,因此整个工作生态系统将发生根本性变化。

Pat:你们的一位同事曾对推理在AGI道路上的重要性作了很好的阐述,大意是,任何任务在执行过程中都会遇到障碍,而能够克服这些障碍的能力正是推理。我觉得这个观点很好地连接了推理的重要性与AGI目标的关系,你们如何看待推理及其重要性?你们是否有其他框架来理解推理的作用?

Hunter:我认为这是一个仍在探索中的问题。我们在开发这些AI系统时不断发现新的不足之处和问题。举例来说,这个开发过程像是做一名出色的产品经理,需要很多头脑风暴、创意生成,以及理解用户需求等能力。我们还在学习这些能力与推理之间的关系。也许在某些时候,这些都会被归结为推理,但也可能会有新的词汇和新的步骤来描述这些过程。

Ilge:每当我思考这个推理问题时,数学领域的例子总是对我很有帮助。我们花了很多时间研究模型在解决数学问题时的思维过程。很明显,它会遇到障碍,然后进行回溯,重新尝试解决问题。当你看到它的思维过程时,你会想象它可能会推广到数学之外的领域,这让我充满了期待。

Hunter:令我有些犹豫的是,o1在数学领域已经比我强了,但它在软件工程方面还没有超过我,所以让它推广到数学之外的领域还是有一些差距。

Pat :既然你提到了“思维链”和能够观察背后的推理过程,我想问一个问题,可能是你们不便回答的,但只是出于好奇。在你们的博客中解释了隐藏“思维链”的部分原因是出于竞争考虑。我很好奇,这个决定有没有在内部引发争议?你们是否有过将其公开的想法?

Noam:我不认为这是一个有争议的决定。我认为这与不公开前沿模型的权重是出于类似的考虑。

Sonya:你能用通俗的语言解释一下什么是“思维链”吗?能举个例子吗?

Ilge:比如说,如果你被要求解一个积分问题,大多数人需要纸和笔来逐步简化方程,直到得出最终答案。这个过程中的每个步骤都可以看作是“思维链”。

推理时间的扩展规律与意义

Pat :让我们谈谈未来的路径。推理时间的扩展规律对我来说是你们研究中最重要的内容之一,它看起来像是一个具有深远意义的成果,类似于之前训练阶段的扩展规律。你们是否同意这个结果的影响深远?它对整个领域意味着什么?

Noam:我认为它确实非常深远。当我们准备发布o1时,我也曾想过,大家是否能够意识到它的重要性。我们在发布中提到了它,但这其实是一个比较微妙的点。我对很多人能理解它的意义感到惊讶和欣慰。很多人担心AI可能会遇到瓶颈,因为预训练的成本越来越高,也有人担心数据是否足够但o1的一个重要成果是:它展示了在推理时间上有一个未被充分利用的维度,这意味着AI的上限远比很多人预想的要高。

Pat:你们觉得如果让模型思考数小时、数月甚至数年,结果会怎样?

Hunter:我们还没有让o1运行这么久,但理论上它可能会越来越好。

Pat :是不是有一个任务一直在后台运行,比如“解决世界和平问题”之类的。

Hunter:在艾萨克·阿西莫夫的小说《最后的问题》中,人们问超级计算机如何逆转熵,计算机回答“我需要更多时间来思考”。故事继续发展,十年后它还在思考,一百年后、一千年后、甚至一万年后,它还在思考。

Ilge:对,类似“有意义的问题但目前没有足够的信息提供有意义的答案”。

Sonya:你们有没有猜测过推理时间和计算能力无限扩展的结果是什么?我看到报告中说,o1的智商相当于120左右。你们觉得随着推理时间的增加,它会达到无限智商吗?

Hunter:首先,模型的120智商是某些测试中的表现,这并不意味着它在所有领域的推理能力都达到了这个水平。比如我们也提到,模型在一些领域的表现,比如创意写作,可能还不到4.0分。因此我们还不能确定随着推理时间的增加,模型在不同领域的表现会如何。

Noam:对,我认为这是个重要的点。我们讨论这些基准测试时,常常是以某些评估人类智能的标准作为参考,但这些标准在AI身上可能意味着不同的东西。因此,虽然它可能在某些测试中表现优异,但这并不意味着它在所有领域都超越了人类。

Hunter:我希望通过延长推理时间,模型在已经表现不错的领域会变得更好。举个例子,我曾看到一位数学教授发推特说他对o1的表现印象深刻,因为他给o1出了一个曾被人类解决过但从未被AI解决过的证明题,o1竟然成功解答了。这让我觉得我们正处于一个有趣的边缘,o1可能很快就能成为进行创新数学研究的有用工具。

推理时间计算的瓶颈与极限

Pat:在推理时间计算的扩展过程中,瓶颈在哪里?预训练的瓶颈显而易见,比如需要大量的计算资源、数据和资金。那么推理时间计算的瓶颈是什么?

Noam:当GPT-2和GPT-3发布时,大家普遍认为只要投入更多的数据和GPU,模型的表现就会更好。即便如此,从GPT-2到GPT-3再到GPT-4之间,花费了好几年的时间。要把一个看似简单的想法扩展到大规模实际应用,这背后有大量的工作。而推理时间的扩展也是类似的挑战——虽然想法简单,但实现起来却非常复杂。

Hunter:是的,我觉得一个常常被低估的问题是,在开发这些大型系统时,工程问题往往比研究问题更难。构建和运行这些大规模系统,以及在从未被尝试过的系统上运行全新的算法,这非常困难。

Ilge:此外,我们还需要知道该如何测试模型。我们有标准的评估基准,但可能还有我们尚未测试到的领域。因此我们也在寻找更多可以投入计算资源的领域,以获得更好的结果。

Sonya:我有点难以理解的是,当你赋予模型接近无限的计算能力时,它的表现会是什么样子?作为人类,即便是像陶哲轩那样的数学天才,思维能力也是有限的。但你可以为模型提供更多的计算资源,这是否意味着所有的数学定理最终都能通过这种方式解决?这个过程的极限在哪里?

Hunter:回到刚才提到的阿西莫夫的故事,或许模型真的需要数千年的时间才能解决一些尚未解决的核心数学问题。

Noam:是的,理论上来说,如果你给它足够的时间,模型可以逐一尝试每个可能的证明,最终找到正确的定理。

Hunter:对,我们已经有算法理论上可以解决所有数学问题,只是需要足够的时间。

Noam:是的,给定无限的时间,确实可以做到很多事情。但显然,思考时间越长,回报就会逐渐递减。

反馈与展望

Pat :你认为关于o1最大的误解是什么?

Noam:我认为一个很大的误解是,当“Strawberry”这个项目代号泄露时,大家以为这是因为网络上流传的那个关于AI回答不出来“草莓有几个R”的段子,但其实这完全是巧合。我们的项目命名为Strawberry时,我们甚至还担心是否有内部信息泄露,但事实上,这只是一个完全的巧合。

但老实说,我对大家对o1的理解程度感到很满意。发布之前,我们还不确定它会得到什么样的反响。我们内部有很多讨论,担心人们会觉得o1没有完全达到他们的预期,但最终的反馈非常积极。

Sonya:你觉得对o1的批评有哪些是合理的?

Hunter:o1确实并没有在所有领域都表现得更好。它是一个很有趣的模型,还有很多值得探索的地方。我很期待看到生态系统与我们的平台结合,开发出更智能的产品。

Pat:我们还没有谈到o1 Mini,我听说大家对o1 Mini非常期待。你对o1 Mini和它所代表的方向有什么看法?

Ilge:o1 Mini对我们来说也非常激动人心,因为它速度快,普遍适用。它们各有各的用途和优势,Mini版本更便宜也更快,而完整版本则更强大但较慢。

Sonya:对于那些在AI领域创业的人来说,他们应该如何看待使用GPT-4和o1?是否与STEM相关、编程相关或者数学相关,才适合使用o1?他们应该如何思考这个问题?

Hunter:我很希望他们能替我们找到答案。

Noam:我们发布o1体验版的一个动机就是看看人们最终会用它来做什么,以及他们如何使用它。实际上,曾有过是否值得发布o1体验版的讨论。但我们希望通过早期将它交到用户手中,了解它在哪些用例中表现优异,在哪些用例中不够好,并从中获得反馈,改进模型,使它更加实用。

Sonya:你认为目前大家对o1最被低估的地方是什么?

Hunter:我觉得我们已经在命名上有所进步,没有把它叫做“GPT-4.5推理模式”之类的。

Pat :我觉得“推理模式”倒是挺顺耳的。你们对O2、O3,或者未来的版本最感兴趣的是什么?

Noam:我们目前还有许多想法等待探究,所以我很期待看看未来的发展。我们会继续进行研究,但我最期待的是用户的反馈。作为研究人员,我们对我们能理解的领域会有偏见,但通过用户的使用反馈,我们可能会发现一些我们之前没有想象到的有趣方向。

Hunter:我认为我们有一个研究趋势线,这在我们发布的博客文章中有所展示。我很期待看到这条趋势线未来会如何延伸。

原视频:OpenAI's Noam Brown, Ilge Akkaya and Hunter Lightman on o1 and Teaching LLMs to Reason Better

https://www.youtube.com/watch?v=jPluSXJpdrA

编译:Spring Liu

-----------END-----------

我们正在招募新一期的实习生

我们正在寻找有创造力的00后创业者

关于Z Potentials

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI o1项目 推理能力 深度强化学习 科学应用
相关文章