孔某人 2025-03-20 10:58 北京
什么是LLM的 consistency checking token?
title: GTC March 2025 Keynote with NVIDIA CEO Jensen Huang
url: https://www.youtube.com/watch?v=_waPvOwL9Z8
Date: 20250318
孔某人说明:
GTC大会的内容有一些价值,但对于我的读者来说意义有限。不过,老黄的发布会确实也掺杂了一些不错的科普,有兴趣的可以去看。
这次老黄稍微提到了一些多路LLM推理的方案,例如提到了reasoning tokens 和 consistency checking tokens,前者我们很清楚,但consistency checking tokens具体是什么呢?是不是很能联想到o1 Pro mode的实现方式?这个名字给了我们一些更多的信息。
个人摘录
关于LLM多路推理的方案:
00:41:19
首先让我们从AI能做什么开始,我从结果往回推。我前面提到的自主代理AI,其基础是推理。我们现在拥有的AI可以进行推理,这从根本上是关于如何逐步分解问题。也许它会以几种不同的方式处理问题,然后选择最佳答案。或者它可能以多种方式解决同一个问题,并通过一致性检查确保得到最佳答案。又或者在得出答案后,它会把答案代回方程,比如二次方程,来确认这确实是正确答案,而不是一次性地脱口而出。
The first part is let's just go from what the AI can do. Let me work backwards. Agentic AI, as I mentioned as the foundation, is reasoning. We now have AI that can reason, which is fundamentally about breaking a problem down step by step. Maybe it approaches a problem in a few different ways and selects the best answer. Maybe it solves the same problem in a variety of ways and ensures the best answer with consistency checking. Or maybe after it's done deriving the answer, it plugs it back into the equation, maybe a quadratic equation to confirm that in fact that's the right answer instead of just one shot blurting it out.
记得两年前我们开始使用ChatGPT时吗?它虽然是个奇迹,但对于许多复杂问题和很多简单问题,它都无法给出正确答案,这是可以理解的。它采用的是一次性回答。它通过研究预训练数据学到的任何知识,它从其他经验、预训练数据中看到的任何东西,它都像独白一样直接脱口而出。
现在我们有了能够推理的AI,这种AI使用一种叫做思维链(chain of thought)的技术,通过最佳N选择、一致性检查、各种不同的路径规划以及各种不同的技术,能够一步一步地推理。我们现在拥有能够推理的AI,能够分解问题并一步一步地进行推理。
We now have AI that can reason step by step using a technology called chain of thought, best-of-n, consistency checking, a variety of different path planning, a variety of different techniques. We now have AI that can reason, break a problem down reason step by step by step.
01:23:49
我们已经确定,如果你希望你的AI更智能,你需要生成大量token。这些token用于执行推理过程、一致性检查、提出多种可能方案然后从中选择最佳答案等工作。这些token可能代表AI的自我质疑过程,比如它在问自己"这是你能做的最好的工作吗?"它会与自己对话,就像我们人类经常与自己内心对话一样。因此,生成的token越多,你的AI就越智能。
Well, we've already established that if you want your AI to be smarter, you want to generate a whole bunch of tokens. Those tokens are reasoning tokens, consistency checking tokens, coming up with a whole bunch of ideas so they can select the best of those ideas tokens. And so those tokens might they, it might be second guessing itself, it might be, is this the best work you could do?
关于RL post training相关的一段,很适合作为科普:
00:45:52
我们有数百个这样的问题空间,可以生成数百万个不同的例子,给AI数百次机会一步一步地解决,同时我们使用强化学习随着它表现越来越好进行奖励。因此,你把数百个不同的主题、数百万个不同的例子、数百次不同的尝试加在一起,每次尝试生成成千上万的token。把这些所有因素结合起来考虑,我们谈论的是数万亿个token来训练这个模型。现在有了强化学习,我们有能力生成海量的token,实现合成数据生成,基本上是使用自动化方法来训练AI。这两者的结合给行业带来了前所未有的计算挑战。
We have hundreds of these problem spaces where we can generate millions of different examples and give the AI hundreds of hundreds of chances to solve it step by step as we use reinforcement learning to reward it as it does a better and better job. So as a result, you take hundreds of different topics, millions of different examples, hundreds of different tries, each one of the tries generating 10s of thousands of tokens. You put that all together, we're talking about trillions and trillions of tokens in order to train that model. And now with reinforcement learning, we have the ability to generate an enormous amount of tokens, synthetic data generation, basically using a robotic approach to teach an AI. The combination of these two things has put an enormous, enormous challenge of computing in front of the industry.
正文
(不同的视频来源前面的等待时间长短不一,本文时间戳以上述链接的版本为准。)
(为了更准确地还原原意,本文采用直译,没有经过我常用的文字凝练过程。)
00:31:24
Jensen Huang:
迎来到GTC。这真是令人惊喜的一年。我们想在NVIDIA举办这个活动,所以通过人工智能的魔力,我们要带您参观NVIDIA的总部。我想我正在带您参观NVIDIA的总部。这是什么地方?你们觉得呢?这就是我们工作的地方。这就是我们工作的地方。这真是令人惊喜的一年,我们有很多精彩内容要分享。我想让您知道,我在台上完全靠临场发挥,没有脚本,没有提词器,而且我有很多内容要讲。那么,让我们开始吧。
首先,我要感谢所有的赞助商,所有参与这次大会的杰出人士。几乎各行各业都有代表:医疗保健行业、交通行业、零售业,还有,gosh,计算机行业——计算机行业的每一家公司都在这里。所以,看到你们所有人真的,真的非常棒,感谢你们的赞助。
GTC最初是从GeForce开始的,一切都始于GeForce。今天,我在这里展示GeForce 5090和5090。难以置信的是,25年后,在我们开始研发GeForce的25年后,GeForce在全球各地都处于售罄状态。这是5090,Blackwell世代。与4090 Hopper世代相比,它的体积小了30%,散热效能提升了30%,性能令人难以置信,简直难以用言语形容。这一切都归功于人工智能。GeForce将CUDA带给了世界,CUDA使人工智能成为可能,而现在人工智能又反过来彻底革新了计算机图形学。你们所看到的是实时计算机图形,100%路径追踪。对于每一个渲染的像素,人工智能预测了另外15个像素。想一想这意味着什么:对于我们通过数学方式渲染的每一个像素,人工智能推断出了另外15个。而且它必须做到如此精确,使得图像看起来正确,并保持时序准确性,这意味着从一帧到下一帧再到下一帧,无论是向前还是向后,因为这是计算机图形学,它必须保持时序稳定性。真是令人难以置信,人工智能已经取得了非凡的进步。
现在才过去了10年。我们谈论AI的时间比这还要长一点,但AI真正进入全球意识大约是在十年前。一开始是感知AI、计算机视觉、语音识别,然后是生成式AI。
在过去的五年里,我们主要关注生成式AI,教会AI如何从一种模态转换到另一种、再到另一种模态。文本转图像,图像转文本,文本转视频,氨基酸、蛋白质特性、化学物质,以及各种不同的方式,我们可以使用AI来生成内容。
生成式AI从根本上改变了计算的方式。从一个检索计算模型,我们现在有了一个生成计算模型。过去我们几乎所有的工作都是提前创建内容,存储多个版本,然后在使用时获取我们认为在那一刻最合适的版本。而现在,AI能够理解上下文,理解我们在问什么,理解我们请求的含义,并生成它所知道的内容。如果需要,它会检索信息,增强它的理解,并为我们生成答案。不再是检索数据,而是生成答案。这彻底地、从根本上改变了计算的方式。
计算的每一层在过去几年都经历了彻底的变革。在过去2-3年中,人工智能领域发生了重大突破。我们称之为Agentic AI。Agentic AI基本上意味着你拥有一个具有自主能力的AI。它能够感知并理解环境的上下文。它能够推理,非常重要的是,它能够推理如何回答问题或解决问题。它能够规划行动。它能够规划并采取行动。
它可以使用各种工具,因为它现在能理解多模态信息。它可以访问网站并查看网站的格式、文字和视频,甚至可能播放视频,从中学习,理解所学内容,然后回来利用这些新获得的知识和信息来完成任务。在Agentic AI的基础上,当然还有一个非常新的能力,那就是推理。
当然,下一波浪潮已经开始出现。我们今天将会谈论很多相关内容。机器人技术得以实现,这归功于能够理解物理世界的物理AI。它理解诸如摩擦和惯性、因果关系、物体永久性等概念。物体永久性指的是当某人或某物从视野中消失时,它仍然存在,只是暂时看不见而已。这种理解物理世界、三维世界的能力,将会开启AI的新时代。我们称之为物理AI,它将使机器人技术成为可能。
每一个阶段,每一个浪潮都为我们所有人开辟了新的市场机会。它为GTC带来了更多的新合作伙伴。因此,GTC现在已经人满为患。在GTC容纳更多人的唯一方法是我们必须扩大圣何塞,而且我们正在努力。我们有很多土地可以利用。我们必须扩大圣何塞,这样我们就可以让GTC现场活动蓬勃发展。你知道,当我站在这里时,我希望你们所有人都能看到我所看到的。我们正站在一个体育场的中央。去年是我们恢复现场活动的第一年,那感觉真的就像一场摇滚音乐会。当时GTC被描述为AI的伍德斯托克(美国著名音乐节)。而今年,它被描述为AI的超级碗。唯一的区别是在这个超级碗中每个人都赢了,每个人都是赢家。因此,每年都有更多的人参加,因为AI能够为更多的行业和更多的公司解决更多有趣的问题。
00:39:17
今年我们将重点讨论agentic AI和物理AI。在其核心,每一波AI的浪潮和每个阶段的AI发展,本质上都涉及三个基本问题。第一个是如何解决数据问题?之所以这很重要,是因为AI是一种数据驱动的计算科学方法。它需要数据来学习,需要数字化经验来学习,获取知识并积累数字经验。那么,我们该如何解决这个数据问题呢?第二个是如何在没有人工干预的情况下解决训练问题?人工干预之所以从根本上具有挑战性,是因为我们的时间有限。我们希望AI能够以超人的速度学习,以超出实时速率的方式学习,能够以人类无法跟上的规模进行学习。因此,第二个问题是如何训练模型?第三个问题是如何扩展?如何创建?如何找到一种算法,使得你提供的资源越多,无论是什么资源,AI就变得越智能?这就是扩展定律(The scaling law)。
过去的这一年,几乎整个世界都在这一点上有所误判:计算需求。AI的扩展规律比我们想象的更具弹性,实际上是超加速的。在这一点上,由于自主代理AI(agentic AI),由于推理能力的出现,我们现在需要的计算量比去年这个时候我们认为需要的轻松高出100倍。让我们来思考一下为什么会这样。
00:41:19
首先让我们从AI能做什么开始,我从结果往回推。我前面提到的自主代理AI,其基础是推理。我们现在拥有的AI可以进行推理,这从根本上是关于如何逐步分解问题。也许它会以几种不同的方式处理问题,然后选择最佳答案。或者它可能以多种方式解决同一个问题,并通过一致性检查确保得到最佳答案。又或者在得出答案后,它会把答案代回方程,比如二次方程,来确认这确实是正确答案,而不是一次性地脱口而出。
The first part is let's just go from what the AI can do. Let me work backwards. Agentic AI, as I mentioned as the foundation, is reasoning. We now have AI that can reason, which is fundamentally about breaking a problem down step by step. Maybe it approaches a problem in a few different ways and selects the best answer. Maybe it solves the same problem in a variety of ways and ensures the best answer with consistency checking. Or maybe after it's done deriving the answer, it plugs it back into the equation, maybe a quadratic equation to confirm that in fact that's the right answer instead of just one shot blurting it out.
记得两年前我们开始使用ChatGPT时吗?它虽然是个奇迹,但对于许多复杂问题和很多简单问题,它都无法给出正确答案,这是可以理解的。它采用的是一次性回答。它通过研究预训练数据学到的任何知识,它从其他经验、预训练数据中看到的任何东西,它都像独白一样直接脱口而出。
现在我们有了能够推理的AI,这种AI使用一种叫做思维链(chain of thought)的技术,通过最佳N选择、一致性检查、各种不同的路径规划以及各种不同的技术,能够一步一步地推理。我们现在拥有能够推理的AI,能够分解问题并一步一步地进行推理。
We now have AI that can reason step by step using a technology called chain of thought, best-of-n, consistency checking, a variety of different path planning, a variety of different techniques. We now have AI that can reason, break a problem down reason step by step by step.
你可以想象,因此我们生成的token数量大幅增加,而AI的基础技术仍然是一样的——生成下一个token,预测下一个token。只是现在,下一个token构成了第一步,然后在生成了第一步之后,第一步已经进入AI的输入,随后它再生成第二步、第三步和第四步。所以它不是仅仅生成一个接一个的token或词,而是生成一系列代表推理步骤的词。因此生成的token数量大大增加,我很快会向你展示,轻松增加了100倍。
现在,100倍意味着什么?这意味着它可以生成100倍的token。正如我前面解释的那样,你可以看到这种情况正在发生;或者模型更复杂,它生成10倍的token。为了保持模型的响应性和交互性,这样我们不会失去耐心等待它思考,我们现在必须计算速度快10倍。所以,10倍的token,10倍的速度。我们必须进行的计算量轻松增加了10到100倍。因此,在接下来的演示中你会看到这一点:我们为推理所需进行的计算量比以前要大得多。
那么,问题就变成了,我们如何教AI做我刚才描述的事情,如何执行这种思维链(chain of thought)?一种方法是我们必须教AI如何推理。正如我之前在谈论训练时提到的,我们必须解决两个基本问题:数据从哪里来?数据从哪里来?以及我们如何不受人在循环中的限制?我们能提供的数据量和人类演示是有限的。因此,这就是过去几年中的重大突破,强化学习、可验证结果,基本上是AI在逐步尝试解决或参与解决问题时的强化学习。
我们在人类历史上已经解决了许多问题,我们知道答案,我们知道二次方程的公式,知道如何解决毕达哥拉斯定理,直角三角形的规则。我们知道许多数学、几何、逻辑和科学的规则。我们有可以给它施加约束的益智游戏,约束类型的问题比如数独等类型的问题,不一而足。
00:45:52
我们有数百个这样的问题空间,可以生成数百万个不同的例子,给AI数百次机会一步一步地解决,同时我们使用强化学习随着它表现越来越好进行奖励。因此,你把数百个不同的主题、数百万个不同的例子、数百次不同的尝试加在一起,每次尝试生成成千上万的token。把这些所有因素结合起来考虑,我们谈论的是数万亿个token来训练这个模型。现在有了强化学习,我们有能力生成海量的token,实现合成数据生成,基本上是使用自动化方法来训练AI。这两者的结合给行业带来了前所未有的计算挑战。
We have hundreds of these problem spaces where we can generate millions of different examples and give the AI hundreds of hundreds of chances to solve it step by step as we use reinforcement learning to reward it as it does a better and better job. So as a result, you take hundreds of different topics, millions of different examples, hundreds of different tries, each one of the tries generating 10s of thousands of tokens. You put that all together, we're talking about trillions and trillions of tokens in order to train that model. And now with reinforcement learning, we have the ability to generate an enormous amount of tokens, synthetic data generation, basically using a robotic approach to teach an AI. The combination of these two things has put an enormous, enormous challenge of computing in front of the industry.
00:46:53
你可以看到行业正在响应。我即将向你们展示的是四大云服务提供商(CSP)的Hopper出货量。这四大CSP,那些拥有公有云的CSP,包括Amazon、Azure、GCP和OCI。四大CSP,不包括AI公司,这部分没有计入。不包括所有初创公司,没有计入。不包括企业用户,没有计入。还有很多其他方面都未计入其中。只是这四家,只是为了让你们能够比较Hopper的巅峰年度与Blackwell的第一年的情况。
从中你可以清楚地看到,AI确实正在经历一个拐点(inflection point)。它变得更加有用,因为它更智能了,它能够进行推理,它的使用率也更高。你能明显感觉到它的使用率增加了,因为现在无论何时你去使用ChatGPT,似乎都要等待越来越长的时间——这其实是一件好事,因为这表明有大量用户正在有效地使用它,而且训练和推理这些模型所需的计算量已经呈现爆发式增长。
所以仅仅一年时间内——而Blackwell才刚刚开始出货——仅仅一年时间内,你就能看到AI基础设施的惊人增长速度。
这已经反映在整个计算领域。我们现在看到的图表中,紫色部分是分析师对全球数据中心资本支出的预测,包括云服务提供商(CSPs)、企业等在内的全球数据中心到这个十年末的增长情况,也就是到2030年。我之前曾说过,我预计数据中心建设将达到1万亿美元,而且我非常确信我们很快就会达到这个数字。
同时有两种动态正在发生。第一种动态是,这种增长的绝大部分可能会加速,这意味着我们已经知道一段时间,通用计算已经走到了尽头,我们需要一种新的计算方法。世界正在经历一个根本性的平台转变,从在通用计算机上运行手写代码的时代,转向在加速器和GPU上运行机器学习软件的新时代。这种计算方式此时已经过了临界点,我们现在看到全球数据中心建设正在发生拐点。这个拐点不仅已经到来,而且正在全球数据中心建设中加速显现。所以第一件事是我们进行计算方式的转变。
第二是人们越来越认识到,未来的软件需要资本投资。这是一个非常重大的概念。过去我们编写软件并在计算机上运行它,而未来计算机将为软件生成token。因此,计算机已经从文件检索器转变为token生成器,我们正从基于检索的计算方式转向基于生成的计算方式,从建设传统数据中心转向构建全新的基础设施。我称它们为AI工厂,因为它们只有一个任务,那就是生成这些令人难以置信的token,而我们再将这些token重新组合成音乐、文字、视频、研究成果、化学物质或蛋白质。我们将它重构为各种不同类型的信息。
所以世界正在经历一场转变,不仅是在即将建造的数据中心数量上的转变,也是它们的建造方式上的转变。数据中心的一切都将被加速,但并不是所有加速都是为了AI。对此我想多说几句。
00:51:09
你知道,这张幻灯片,这张幻灯片确实是我最喜欢的。原因是因为所有这些年来参加GTC的你们,一直在听我谈论这些库。实际上,这就是GTC的全部意义所在,就是这一张幻灯片。事实上,很久以前,20年前,这是我们唯一拥有的幻灯片。一个又一个的库。
你不能直接加速软件。就像我们需要AI框架来创建AI系统并对这些AI框架进行加速一样,你需要为物理学、生物学、多物理场以及各种不同的量子物理学提供框架。你需要各种各样的库和框架,我们称之为CUDA X库,为每个科学领域提供加速框架。
这第一个非常令人惊叹。这是CuPy。NumPy是全世界下载量最多、使用最广泛的Python库,去年下载量达到了4亿次。CuPy是一个零修改即插即用的NumPy加速版本。所以,如果你们当中有人正在使用NumPy,不妨试试CuPy。你绝对会爱上它的。
cuLitho,一个计算光刻库。在过去四年中,我们已经完成了处理光刻的整个流程,即计算光刻技术,这实际上是晶圆厂中的第二个工厂。一个是制造晶圆的工厂,另一个是制造信息来指导晶圆制造的工厂。
未来,每个行业、每家拥有工厂的公司都将有两个工厂:一个用于制造他们的产品,另一个用于数学模型和AI算法。比如汽车工厂和汽车AI工厂,智能音箱工厂和智能音箱AI工厂。
cuLitho是我们的计算光刻技术,得到了台积电、三星、ASML以及我们的合作伙伴新思科技、Mentor等公司的全力支持。我认为这项技术现在已经到了临界点,在未来五年内,每个掩模版、每一项光刻工艺都将在NVIDIA CUDA平台上处理。
Aerial是我们的5G技术库,它可以将GPU变成5G无线电基站,为什么不呢?信号处理本来就是我们非常擅长的领域。一旦我们实现了这一点,我们就可以在其上叠加AI技术,打造AI RAN(AI驱动的无线接入网络)。下一代无线网络将深度融入AI技术。为什么我们要受制于信息理论的限制呢?
因为我们能获取的信息频谱是有限的。但如果我们加入AI以及COPT这种数值或数学优化工具,情况就不同了。几乎每个行业都在使用这种技术:当你规划航班座位、库存和客户、工厂与工人、司机与乘客等等。在有多重约束条件、大量变量的情况下,你需要优化时间、利润、服务质量、资源使用率等各种目标。
NVIDIA在我们的供应链管理中就使用了CuOPT,这是一个非常强大的库。它能将原本需要几小时的计算缩短到几秒钟。这一点意义重大,因为我们现在可以探索更大的解决方案空间。我们宣布将开源CuOPT,而目前几乎所有人都在使用Gurobi、IBM CPLEX或FICO。我们正在与这三家公司合作,整个行业都非常兴奋。我们即将大幅加速整个行业的发展。
Parabricks用于基因测序和基因分析;MONAI是世界领先的医学成像库;Earth-2多物理模拟用于预测高分辨率的局部天气;cuQuantum和CUDA Q面向量子计算。我们将在GTC举办我们的首个量子日。我们正与生态系统中几乎所有成员合作,帮助他们研究量子架构、量子算法,或构建经典加速的量子异构架构。这方面的工作令人非常兴奋。CUDA Equivariance和cuTensor用于张量收缩、量子化学计算。
当然,这个技术栈在全球享有盛名。人们以为CUDA只是一个软件,但实际上CUDA之上有一系列库,它们集成到生态系统和软件基础设施的各个部分,使AI成为可能。
今天我要在这里宣布一个新的库:cuDSS稀疏解算器,这对CAE(计算机辅助工程)非常重要。这是去年发生的最重要的事情之一,我们与Cadence、Synopsys、ANSYS以及所有系统公司合作,现在几乎所有重要的EDA和CAE库都可以获得加速。
令人惊讶的是,直到最近,NVIDIA一直在使用运行缓慢软件的通用计算机来为其他人设计加速计算机。原因是我们之前没有为CUDA优化的软件库,直到最近才有。所以现在随着我们转向加速计算,整个行业将获得超级动力。
cuDF数据框架用于结构化数据。我们现在可以直接加速Spark和Pandas,这非常惊人。此外,我们还有Warp,这是一个在Python中运行的物理库,专为CUDA设计的Python物理库。关于CUDA,我们有一个重大公告,稍后我会介绍。以上只是使加速计算成为可能的众多库中的一部分示例。
这不仅仅关乎CUDA。我们对CUDA感到非常自豪。但如果不是因为CUDA以及我们拥有如此庞大的安装基础,这些库对于使用它们的开发者,对于所有使用它们的开发者来说都不会有用。
你使用它是因为,首先,它将给你带来令人难以置信的加速,它将给你带来令人难以置信的扩展能力。其次,因为CUDA的部署基础现在无处不在。它存在于每个云平台,存在于世界上每家计算机公司提供的每个数据中心,真的是无处不在。因此,通过使用这些库中的任何一个,你开发的软件,那些令人惊叹的软件将能够触达所有人。
所以我们现在已经达到了加速计算的拐点。CUDA使这一切成为可能。而你们所有人,这就是GPU技术大会(GTC)的意义所在,就是生态系统。你们所有人使这一切成为可能。因此我们为大家准备了一段简短的视频。
00:59:04
旁白:
致创造者们、先驱者们、未来的建设者们,CUDA为你们而生。自2006年以来,来自200多个国家的600万开发者使用CUDA并改变了计算方式。凭借超过900个CUDA-X库和AI模型,你们正在加速科学发展,重塑行业,并赋予机器观察、学习和推理的能力。如今,NVIDIA Blackwell的速度比第一代CUDA GPU快50,000倍。这些速度和规模方面数量级的提升正在缩小模拟与实时数字孪生之间的差距。对你们来说,这仅仅是个开始。我们迫不及待地想看到你们接下来的创造。
Jensen Huang:
我热爱我们所做的工作,但我更热爱你们用它创造的成果。在我33年的职业生涯中,有一件事最让我感动,一位科学家曾对我说,"Jensen,因为你们的工作,我能够在有生之年完成我毕生的研究。"说真的,如果这都不能触动你的心,那你大概已经没有心跳了。所以,这一切都是为了你们大家。谢谢你们。
好的,接下来我们要谈谈AI,但你们知道,AI是在云端起步的。它在云端起步是有充分理由的,因为事实证明AI需要基础设施。它是机器学习。如果科学称之为机器学习,那么你就需要机器来进行这项科学研究。因此,机器学习需要基础设施。而云数据中心拥有基础设施。他们还拥有卓越的计算机科学水平,出色的研究能力,这为AI在云端和各大云服务提供商(CSPs)中起飞创造了完美条件。但AI并不仅限于此。AI将会无处不在。今天我们将以多种不同方式讨论AI。
当然,云服务提供商,他们,他们,他们非常喜欢我们的领先技术。他们喜欢我们拥有全栈技术的事实,因为加速计算,正如你所知道的,正如我之前解释的那样,不仅仅是关于芯片。它甚至不仅仅是芯片加上库。加速计算是关于芯片、编程模型,以及在其上运行的一大堆软件。这整个技术栈非常复杂。这些层中的每一层,这些库中的每一个本质上都像SQL一样。SQL,你知道的,在结构化计算领域是一个重大突破,是IBM推动的计算革命。SQL只是一个库,而我刚才给你们展示了一大堆库。在AI的情况下,还有更多的库。所以这个技术栈是非常复杂的。
云服务提供商还非常喜欢这样一个事实:NVIDIA CUDA开发者也是CSP的客户,因为从根本上来说,他们的目标是为全世界构建可用的基础设施。因此,丰富的开发者生态系统真的非常有价值,也备受赞赏和重视。
01:03:11
现在,我们准备将AI推广到世界各地,而世界各地有着不同的系统配置、运行环境差异、特定领域的库差异以及使用方式差异。因此,当AI向企业IT、制造业、机器人技术或自动驾驶汽车领域扩展,甚至扩展到那些创建GPU clouds的公司时,情况各不相同。有一大批公司,大约20家,是在NVIDIA发展的这段时间里创立的。他们只专注于一件事——托管GPU,他们称自己为GPU云服务。我们的一个重要合作伙伴CoreWeave正在进行上市流程,我们为他们感到非常自豪。这些GPU clouds有着他们自己的需求,但我特别兴奋的一个领域是边缘计算。
今天我们宣布,我们今天宣布Cisco、NVIDIA、T-Mobile——全球最大的电信公司、Cerberus、ODC将在美国共同打造无线电网络的完整技术栈。这将是第二个技术栈。
今天我们宣布的这个当前技术栈将把AI带入到边缘计算。请记住,全球每年有1000亿美元的资本投资用于无线电网络和未来通信所需的所有数据中心。毫无疑问,在我看来,这些都将是融合AI的加速计算领域。AI将更好地适应无线电信号,让massive MIMO系统适应不断变化的环境和流量条件。当然会这样。当然,我们会使用强化学习来实现这一点。当然,MIMO本质上就是一个巨大的无线电机器人。当然如此。所以我们当然会提供这些能力。当然,AI可以彻底革新通信。
你知道,当我打电话回家时,只需几个词就能沟通。因为我妻子知道我在哪工作,环境如何,对话是从昨天继续的。她大致记得我喜欢什么,不喜欢什么,通常只需几个词,你就能表达很多内容。这是因为有上下文和人类的先验知识。结合这些能力可以彻底革新通信。看看AI在视频处理方面所做的成就,看看我刚才描述的在3D图形领域的进展。当然,我们也将为边缘计算做同样的事情。
所以我对我们今天宣布的消息感到非常兴奋。T-Mobile、Cisco、NVIDIA、Cerberus、ODC将共同打造完整的技术栈。AI将进入每个行业,这只是其中之一。
01:06:32
AI最早进入的行业之一就是自动驾驶汽车。当我第一次看到AlexNet时——而我们在计算机视觉领域已经工作了很长时间——那一刻真的是如此鼓舞人心,如此令人兴奋。它促使我们决定全力以赴投入自动驾驶汽车的开发。所以现在我们研究自动驾驶汽车已经超过十年了。
我们打造的技术几乎被每一家自动驾驶汽车公司所使用。这些技术可能部署在数据中心,例如特斯拉在数据中心使用大量NVIDIA的GPU。或者技术同时应用在数据中心和汽车上,比如Waymo和Cruise在数据中心和汽车上都使用NVIDIA的计算机。有时候可能只是在汽车上,这种情况很少见,但确实存在,或者他们使用我们所有的软件。
此外,我们也与整个汽车行业合作。无论汽车行业希望如何与我们合作,我们都构建了三种计算机:训练计算机、模拟计算机和机器人计算机(也就是自动驾驶汽车计算机),以及其上的所有软件栈、模型和算法,就像我们为我之前展示的所有其他行业所做的那样。
今天我非常兴奋地宣布,通用汽车已选择NVIDIA作为合作伙伴,共同打造他们未来的自动驾驶汽车车队。自动驾驶汽车的时代已经到来,我们期待与通用汽车在三个AI领域展开合作:一是用于制造的AI,使他们可以彻底革新制造方式;二是企业AI,使他们可以彻底革新工作方式、汽车设计和汽车模拟;三是车内AI。我们将为通用汽车提供AI基础设施,携手合作构建他们的AI系统。对此我感到非常兴奋。
我深感自豪但很少受到关注的一个领域是汽车安全。在我们公司,它被称为Halos。安全需要从硅到系统、系统软件、算法、方法论的各种技术,包括确保多样性、监控和透明度,以及可解释性等各种理念。所有这些不同的理念必须深深地融入到系统开发的每一个部分。同样,它们也必须融入到软件开发的每一个环节中。
我相信我们是世界上第一家让每一行代码都经过安全评估的公司。700万行代码全部经过了安全评估。我们的芯片、系统、系统软件和算法都由第三方进行安全评估,他们检查每一行代码,以确保其设计能保证多样性、透明度和可解释性。
我们已经申请了超过1000项专利。在这次GTC大会期间,我真心鼓励你去参观Halos研讨会,这样你就能看到为确保未来的汽车既安全又能自动驾驶所需的各种技术组合。这是我非常引以为豪的事情,但它很少受到关注。所以这次我想多花点时间来谈论这个话题。
好的,说回NVIDIA Halos,你们都看到了汽车可以自己驾驶,比如Waymo机器人出租车的表现真的令人难以置信。我们制作了一个视频,与大家分享我们用来解决数据处理、模型训练和多样性挑战的技术,这样我们就可以利用AI的能力来创造新的AI。让我们来看看。
01:11:03
旁白:
NVIDIA正通过Omniverse和Cosmos加速人工智能自动驾驶系统开发。DRIVE Sim的预测和推理能力支持AI优先的端到端可训练的自动驾驶系统,采用全新的开发方法:模型蒸馏、闭环训练和合成数据生成。
首先是模型蒸馏,适用于策略模型。Cosmos的驾驶知识从较慢但智能的教师模型转移到更小更快的、可在车内推理的学生模型。教师策略模型展示最优轨迹,学生模型随后跟随学习,通过多次迭代直到性能几乎达到与教师相同的水平。这种蒸馏过程可以引导策略模型,但复杂场景仍需进一步调整。
闭环训练使策略模型得以精细调整。系统将日志数据转换为3D场景,在基于物理的Omniverse神经重建仿真中进行闭环驾驶。通过创建这些场景的变体来测试模型的轨迹生成能力。随后,Cosmos行为评估器对生成的驾驶行为进行评分,衡量模型性能。新生成的场景及其评估创建了大型数据集用于闭环训练,帮助自动驾驶系统更稳健地应对复杂场景。
最后,3D合成数据生成增强了自动驾驶系统适应多样环境的能力。Omniverse通过融合地图和图像构建详细的4D驾驶环境,生成真实世界的数字孪生,包括分割功能以引导Cosmos,对每个像素进行分类。Cosmos随后通过生成准确多样的场景扩展训练数据,缩小模拟到现实的差距。
Omniverse和Cosmos使自动驾驶系统能够学习、适应并智能地驾驶,推进更安全的出行方式。
Jensen Huang:
英伟达是做这件事的完美公司。天哪,这就是我们的命运。使用AI来创造AI。我们刚才向你展示的技术与你正在体验的技术非常相似,它带你进入我们称为Omniverse的数字孪生世界。
好的,让我们谈谈数据中心。这还不错,是吧?顺便说一下Gaussian splats,Gaussian splats。好,让我们谈论数据中心。Blackwell现在已经进入全面生产阶段,这就是它的样子。这真是令人难以置信,真的难以置信,你知道的,对于我们,对于所有人来说。这是一幅美丽的景象。你们同意吗?这怎么会不美呢?这怎么会不美呢?
这是一件大事,因为我们在计算机架构上实现了根本性的转变。我想让你们知道,事实上,我大约3年前就向你们展示过这个版本。它当时被称为Grace Hopper,系统名称是Ranger。Ranger系统大约有屏幕宽度的一半大小,它是世界上第一个NVLink32。三年前我们展示了正在运行的Ranger,它当时体积太大,但这正是我们试图解决的正确理念——向上扩展(Scale up)。
分布式计算是利用大量不同的计算机协同工作来解决非常大规模的问题,但在你向外扩展(Scale out)之前,向上扩展是无可替代的。两者都很重要,但你应该先向上扩展,然后再向外扩展。然而,向上扩展是非常困难的,没有简单的解决方案。
你不能简单地像Hadoop那样向外扩展。Hadoop的方式是将一堆普通计算机连接到一个大型网络中,然后使用存储计算。Hadoop是一个革命性的理念,正如我们所知,它使超大规模数据中心能够使用现成的计算机解决巨大规模的问题。然而,我们试图解决的问题如此复杂,以至于那种扩展方式会消耗太多电力和能源,深度学习根本就不会发生。所以我们必须要做的是先向上扩展。
这就是我们向上扩展的方式。我不会把这个设备拿起来,因为它重达70磅。这是上一代系统架构,称为HGX。它彻底革新了我们所知道的计算,彻底革新了人工智能。这里有8个GPU,每一个GPU都类似这种。这是2个Blackwell GPU组成的一个Blackwell包,2个Blackwell GPU在一个Blackwell包中。在这底下有8个这样的组件。
这连接到我们称之为NVLink8的系统,然后连接到CPU架子,就像那样。所以有双CPU位于顶部。我们通过PCI Express将它们连接起来。然后,许多这样的系统通过InfiniBand互连,形成一个AI超级计算机。这就是过去我们的构建方式。
01:17:50
这就是方法。这就是我们开始的方式。这是我们在开始横向扩展之前,纵向扩展所能达到的极限,但我们想要进一步纵向扩展。我之前告诉过你们,Ranger系统在这个系统的基础上进行了横向扩展,同时还将其纵向扩展了额外4倍。我们拥有了NVLink32,但整个系统变得太庞大了。因此,我们不得不做一些非常了不起的事情——从工程角度重新设计NVLink的工作方式和纵向扩展的实现方式。
所以我们做的第一件事是,NVLink交换机在这个系统中是嵌入在主板上的。我们需要,我们需要将NVLink系统解耦并把它取出来。所以这就是NVLink交换机,这是一个NVLink交换机。这是世界上有史以来制造的性能最高的交换机。它使得每个GPU能够在完全相同的时间以全带宽与其他所有GPU进行通信。OK,所以这是NVLink交换机。我们将它解耦了,我们把它取出来,并将它放在机箱的中心位置。所以那里有全部这些,十八个这样的交换机分布在九个不同的机架中,9个不同的交换机托盘,我们称它们为交换机托盘。然后交换机被解耦了。计算单元现在就位于这里。这在计算能力上相当于这两个东西。
令人惊叹的是,这套系统是完全液冷的,通过液冷技术,我们可以将所有这些计算节点压缩到一个机架中。这是整个行业的重大变革。在场的所有观众,我知道有多少人在这里,我想向你们表达我的感谢。感谢你们促成了这一根本性转变:从集成式NVLink到分离式NVLink,从风冷到液冷,从每台计算机约60,000个组件到每个机架600,000个组件。120千瓦完全液冷,因此我们在一个机架中拥有AI exaflops(百亿亿次浮点运算)级计算机。这真是令人难以置信!这就是我们的计算节点,现在它可以安装在这里面了。整个系统重达约1360公斤,配有5000条线缆,总长约3.2公里,真是难以置信的电子设备,包含600,000个部件。我认为这相当于20辆汽车的零部件总量,全部集成在一台超级计算机中。
01:21:04
好的,我们的目标就是做到这一点。我们的目标是扩大规模,现在它的样子就是这样。我们本质上是想要构建这种芯片,只是没有任何制程工艺能做到这一点。没有任何工艺技术能实现这一点。它拥有130万亿个晶体管,20万亿个计算边缘。所以不是说你无法尝试,而是在可预见的未来根本无法合理地制造出这样的芯片。因此,解决这个问题的方法是像我描述的那样,将其分解为Grace Blackwell NVLink72机架。但作为结果,我们已经实现了终极规模扩展。这是世界上有史以来完成的最极端的规模扩展。
这台机器的计算能力非常惊人,内存带宽达到每秒570TB。现在这台机器中的一切都以TB为单位计量,所有数值都以万亿为单位,你拥有exaFLOPS级别的性能,也就是每秒百万万亿次浮点运算。
我们之所以要做到这一点,是为了解决一个极端问题。这个极端问题被很多人误解为简单的问题,但实际上它是终极的极端计算问题——那就是推理。原因很简单:推理是工厂进行的token生成过程,而工厂是创造收入和利润的地方,或者可能成为亏损源。因此,这个工厂必须以极致的效率和极致的性能来构建,因为这个工厂的一切都直接影响着你的服务质量、收入和盈利能力。
让我给你解释如何解读这张图表,因为我们接下来还会多次回到这个话题。基本上,你有两个坐标轴,X轴是每秒token数量。当你聊天时,当你向ChatGPT输入prompt时,输出的是什么?输出的是token。这些token被重新组合成单词。你知道,一个词通常需要用多个token表示。系统会对内容进行tokenize处理,比如"THE"这个token可以用于表示"the",也可以用于"them","theory","theatrics"等各种词语。所以"THE"就是一个token的例子。系统会将这些token重新组合形成完整的单词。
01:23:49
我们已经确定,如果你希望你的AI更智能,你需要生成大量token。这些token用于执行推理过程、一致性检查、提出多种可能方案然后从中选择最佳答案等工作。这些token可能代表AI的自我质疑过程,比如它在问自己"这是你能做的最好的工作吗?"它会与自己对话,就像我们人类经常与自己内心对话一样。因此,生成的token越多,你的AI就越智能。
Well, we've already established that if you want your AI to be smarter, you want to generate a whole bunch of tokens. Those tokens are reasoning tokens, consistency checking tokens, coming up with a whole bunch of ideas so they can select the best of those ideas tokens. And so those tokens might they, it might be second guessing itself, it might be, is this the best work you could do?
但如果AI回答问题的时间太长,用户就不会再次使用。这和网页搜索没什么不同。在返回一个智能答案之前能花费的时间是有实际限制的。所以你面临着这两个维度的矛盾。你试图生成大量token来提高智能水平,但同时又要尽可能快地完成它。因此,token生成速率变得至关重要。你希望为每个用户提供尽可能快的每秒token处理速度。
然而,在计算机科学和工厂生产中,延迟(响应时间)和吞吐量之间存在根本性的矛盾。原因很简单。如果你从事大规模高产量业务,你会采用批处理技术。这就是所谓的batching(批处理)。你将大量用户需求批量处理,然后为所有人制造某种统一的产品供之后使用。但是,从批量处理开始到最终交付给用户,中间可能会有很长的时间延迟。
计算机科学也是如此,生成token的AI工厂也不例外。所以你面临这两个根本性的矛盾。一方面,你希望用户体验尽可能好,拥有既聪明又快速的AI。另一方面,你试图使你的数据中心为尽可能多的用户生成token,以最大化你的收入。理想的答案是能够到达右上角区域。理想情况下,性能曲线的形状应该是一个矩形,让每个用户都能获得非常高的每秒token处理速度,直到达到工厂的极限,但没有工厂能做到这一点。所以实际上它可能是某种曲线,你的目标是最大化曲线下的面积。也就是X和Y的乘积,你越能将曲线向外推进,意味着你建造的工厂性能越好。
事实证明,在整个工厂的总体每秒token数和单个用户响应时间的每秒token数这两个维度上,一个需要大量计算能力(FLOPS),另一个则需要大量带宽和计算能力。所以这是一个非常难以解决的问题。好的解决方案是你应该具备大量的FLOPS、大量的带宽、大量的内存和各种资源。这是最好的起点,这也是为什么这台计算机如此出色的原因。你从尽可能多的计算能力、尽可能大的内存、尽可能高的带宽开始,当然,还有尽可能优秀的架构、尽可能高的能源效率。而且你必须有一个编程模型,能够让你在这种极其复杂的系统上运行软件,这是非常困难的,但这样你才能实现这些目标。
01:27:28
现在,让我们看一下这个演示,给你一个关于我所说内容的直观感受。请播放它。
旁白:
传统LLM捕获基础知识,而推理模型则帮助通过思考token解决复杂问题。这里,一个prompt要求在婚礼餐桌周围安排座位,同时遵守传统、照相角度和有矛盾的家庭成员等约束条件。传统LLM以不到500个token快速回答,但在安排客人座位时出现错误;而推理模型则通过超过8000个token的思考得出正确答案——需要一位牧师来维持和平。
Jensen Huang:
好的,正如你们所有人都知道的,如果你有一个300人的婚礼派对,你试图为每个人找到完美的、最优的座位安排,这是一个只有AI或者岳母才能解决的问题。这是普通LLM无法解决的问题之一。所以,你在这里看到的是,我们给它一个需要推理的问题。你看到DeepSeek R1开始推理,它尝试各种不同的场景,并在测试中给出答案。它会问自己是否做对了。与此同时,上一代语言模型进行one shot(单次推理)。这种one shot用了439个token,它速度快,效率高,但结果是错误的。所以这是439个完全浪费掉的token。
另一方面,为了让你能够对这个问题进行推理——而这其实只是一个非常简单的问题。你知道,我们只要再增加几个更复杂的变量,它就会变得非常难以推理通过。这个过程消耗了8000,接近9000个tokens,而且因为模型更复杂,需要更多的计算资源。
好的,这是一个维度。在我展示一些结果之前,让我先解释另一件事。如果你看看Blackwell系统和它的NVLink 72扩展版本。我们首先要做的是处理这个模型,而这个模型并不小。比如R1,人们认为R1很小,但它有680亿参数。下一代模型可能会有数万亿参数。
解决这个问题的方法是,你需要把这些数万亿参数的模型分布到整个GPU系统中。你可以使用tensor parallel,将模型的一层分布在多个GPU上运行。你可以把流水线的一部分切片并称之为pipeline parallel,将它放在多个GPU上。你可以把不同的experts分布到不同的GPU上,我们称之为expert parallel。
pipeline parallel、tensor parallel和expert parallel的组合方式数不胜数。根据模型、工作负载和具体情况,你必须改变计算机的配置方式,以便获得最大吞吐量。有时你需要优化以获得极低的延迟,有时你则需要优化吞吐量。因此,你必须进行一些in-flight批处理,以及使用各种不同的批处理技术和工作聚合方式。所以,这些AI工厂的操作系统复杂得令人难以置信。
我们有一个观察发现,这是拥有像NVLink72这样的统一架构的一个极其优秀的特点,就是每一个GPU都能执行我刚才描述的所有功能。我们观察到这些推理型模型在执行几个不同的计算阶段。
其中一个计算阶段是思考。当你在思考时,你并不产生大量的token,你产生的token可能仅供你自己使用。你可能在思考,也许在阅读,在消化信息。这些信息可能是PDF文档,可能是网站。你甚至可以观看视频,以超线性的速率吸收所有信息,然后利用这些信息来制定答案,规划如何回答。这种信息消化和上下文处理是非常计算密集型的。
另一方面,下一阶段被称为解码(decode)。我们把第一部分称为预填充(prefill),而紧接着的解码阶段虽然需要浮点运算,但它需要大量的带宽,并且相对容易计算。
01:32:36
你知道,如果你有一个包含几万亿参数的模型,它每秒就需要几TB的数据处理能力。注意我刚才提到的每秒576TB的带宽。从HBM内存中拉取模型并仅生成1个token,就需要每秒TB级的数据吞吐量。
之所以每次只生成1个token,是因为这些大型语言模型的工作原理就是预测下一个token。这就是为什么我们说下一个token。它不是同时预测所有token,而是一次只预测下一个token。现在我们有各种新技术,比如推测性解码(speculative decoding)等,可以加快这个过程。但最终分析来看,你就是在预测下一个token,对吧?
所以整个过程是:我们将整个模型和上下文(我们称之为KV缓存,key-value cache)加载到内存中。然后我们生成1个token。接着我们拿这个token,将它放回到模型中,再生成下一个token。每一次,每一次我们这样做,都是将万亿级的参数拉进来,生产1个token;再将万亿级参数拉进来,生产另一个token;然后再次将万亿级参数拉进来,生产又一个token。
注意在刚才的演示中,我们总共生成了8600个token。这意味着万亿字节的信息、万亿级参数的信息被反复送入我们的GPU,每次只为了生成1个token。这基本上就是为什么你需要NVLink这种高速互连技术的根本原因——处理这种海量的数据传输需求。
NVLink使我们能够将所有GPU整合起来,将它们变成一个巨大的GPU。这是终极的规模扩展。
第二点是,现在所有设备都连接到NVLink上,我可以将prefill和decode分开,并决定为prefill使用更多的GPU,而decode则使用更少的。因为当AI在思考、执行任务并以智能体形式工作时,它需要阅读大量信息并进行深度研究。
在深度研究过程中,刚才我听到Michael谈论他的研究经历。我也做同样的事情。我们会为我们的AI撰写这些非常长的研究计划。我非常喜欢这样做,因为你知道,我已经为它付费了,而且我就是喜欢让我们的GPU工作起来,没有什么比这更让我开心的事了。所以我写出研究计划,然后AI就会去执行所有这些研究,它访问了大约94个不同的网站,阅读了所有内容。当我在阅读这些信息时,它开始整理答案并撰写报告。这真是太不可思议了!
在整个过程中,prefill非常忙碌,但它实际上并没有生成那么多token。另一方面,当你与聊天机器人交谈,而且数百万人同时也在这样做时,这就是非常token生成密集型的工作,非常依赖decode,明白吗?所以根据工作负载的不同,我们可能决定在decode环节放置更多GPU,或者根据不同工作负载在prefill环节放置更多GPU。
这种动态操作真的非常、非常复杂。我刚才描述了pipeline parallel、tensor parallel、expert parallel、in-flight batching、disaggregated inferencing、workload management。然后我还必须处理这个叫做KV cache的东西,必须将它路由到正确的GPU上,通过所有内存层次结构进行管理。这部分软件复杂得令人难以置信。
01:36:13
因此,今天我们宣布推出NVIDIA Dynamo。NVIDIA Dynamo可以完成所有这些工作,它本质上是AI工厂的操作系统。在过去,我们运行数据中心的方式中,操作系统通常是像VMware这样的产品。我们会用它来协调大量不同的企业应用,现在我们仍然这样做——你知道,我们是VMware的重要用户,用它在企业IT基础架构上协调各种应用。但在未来,应用不再是企业IT,而是代理(agents)。操作系统也不再是像VMware这样的产品,而是像Dynamo这样的系统。这个操作系统运行的不是数据中心,而是AI工厂。
我们将其命名为Dynamo是有充分理由的。如你所知,发电机(Dynamo)是启动上一次工业革命的第一个设备,那是能源的工业革命。水流入,电力输出,这非常神奇。水流进来,经过加热产生蒸汽,带动涡轮,然后输出的是这种看不见却极其有价值的东西。虽然之后花了80年才发展出交流电,但一切的起点就是发电机,就是发电机。
所以,我们决定将这个操作系统、这款极其复杂的软件命名为NVIDIA Dynamo。它是开源的,它是开源的,我们非常高兴有这么多合作伙伴与我们一起合作开发。其中一个我最喜欢的合作伙伴——我真的非常喜欢他们,不仅因为他们所做的革命性工作,也因为Aravind是一位非常出色的人——Perplexity是我们在这个项目上的重要合作伙伴。总之,这真的非常棒。
好的,现在我们将不得不等待我们扩展所有这些基础设施。但与此同时,我们已经进行了大量非常深入的模拟。我们使用超级计算机来模拟我们的超级计算机,这很合理。现在我要向你们展示我刚才所说的一切的好处。
记住工厂图表,X轴是...不对,在Y轴上是工厂的每秒tokens吞吐量,而X轴是用户体验的每秒tokens数。你想要超级智能的AI,而且你想生产大量这样的AI。这就是Hopper。
OK,这是Hopper,它能够为每个用户生产大约每秒100个tokens。这是8个GPU,通过InfiniBand连接,我正在将其标准化为每兆瓦每秒tokens数。所以它是一个1兆瓦的数据中心,这不算是非常大的AI工厂,但无论如何,就是1兆瓦,OK。
所以它可以为每个用户每秒生产100个tokens。在这个水平上,它能为那个1兆瓦数据中心每秒生产10万个tokens,或者如果进行高度批处理且客户愿意等待很长时间,它可以每秒生产约250万个tokens用于该AI工厂。明白吗?好的,点头吧,因为你们知道,每次GTC都有入场费,就是你们要被数学折磨。OK,只有在NVIDIA,你才会被数学折磨!
好的,所以Hopper,你得到了250万。那这250万是什么意思?如何理解这250万?记住,ChatGPT大约是每百万tokens 10美元,对吧,每百万tokens 10美元。我认为这个每百万tokens 10美元可能在图表的下方这里,OK,我可能会说它在下方这里,但让我假设它在上方,因为250万乘以10,所以是每秒2500万美元。明白吗?这就是你思考它的方式。
或者另一方面,如果它在下方这里,那么问题就是,你知道,它是10万,只要除以10,OK,每秒每工厂25万美元。然后一年有3100万,3000万秒,这转化为那个1兆瓦数据中心的收入。
所以这是你的目标。一方面,你希望你的tokens速率尽可能快,这样你就可以制造真正智能的AI。如果你有智能AI,人们会为此付给你更多钱。另一方面,AI越智能,你能大量生产的就越少。这是非常合理的权衡。这是我们试图弯曲的曲线。
我现在向你们展示的是世界上最快的计算机,Hopper。它是革命性改变一切的计算机。那么我们如何让它变得更好?
01:41:48
我们首先推出搭载NVLink8的Blackwell,就是这个Blackwell,同一款产品,相同的计算能力。这个计算节点配备NVLink8,使用FP8浮点精度。Blackwell就是更快、更大、更多晶体管,各方面都有提升。但我们想做得更多,所以我们引入了一种新的精度格式。这不仅仅是简单的4位浮点数,但通过使用4位浮点数,我们可以量化模型,用更少的能源完成相同的工作。结果就是,当你使用更少的能源做同样的事情时,你就能做得更多。
请记住,未来每一个数据中心都将受到功率限制。你的收入将受功率限制。你可以根据可用的功率计算出你的收入会是多少。这与许多其他行业没有什么不同。现在我们是一个受功率限制的行业,我们的收入将与此相关联。基于这点,你希望确保拥有尽可能高能效的计算架构。
接下来,我们用NVLink72进行扩展。看看这个差别,NVLink72配合FP4精度。因为我们的架构非常紧密集成,现在我们又加入了Dynamo,Dynamo可以进一步扩展这一能力。你们都能跟上我说的吗?Dynamo也帮助了Hopper,但Dynamo对Blackwell的帮助更为显著。没错。只有在GTC才会有人为此鼓掌。
现在请注意我放置的那两个闪亮部分。那大概就是你们的Max queue所在。那很可能是你们运行工厂操作的地方。你们正在寻找最大吞吐量和最高AI质量之间的平衡——最智能的AI,以及最多数量的AI,就是这两点。那个XY交叉点实际上就是你在优化的目标。如果你查看那两个方块下面,Blackwell比Hopper强大得多。
请记住,这不是相同数量芯片的比较,这是相同功耗下的比较。这才是终极的摩尔定律。这就是摩尔定律过去一直关注的,现在在这里,我们实现了一代内相同功耗下的25倍性能提升。这不是相同数量的芯片,不是相同数量的晶体管,而是相同功耗——这是终极限制因素。我们只能为数据中心提供有限的能源。因此,在相同功耗下,Blackwell比Hopper快25倍。
现在看看这条彩虹曲线。太不可思议了!这是最有趣的部分。看看Pareto下面所有这些不同的配置,我们称之为Pareto前沿,对,就是Pareto前沿。在Pareto前沿下有数百万个配置点,这些都是我们可能用来配置数据中心的方式。我们可以通过各种不同方式来并行化、拆分工作和分片工作,而我们找到了最优解,也就是那个Pareto前沿。
每个点的颜色都表明它是一个不同的配置,这也正是为什么这张图非常清晰地表明:你需要一个尽可能同质化且可替换(fungible)的可编程架构,尽可能具有高度可替换性,因为工作负载在整个前沿上变化如此剧烈。
看,在顶部我们有专家并行8,批处理大小3000,关闭了数据分解(disaggregation),关闭了Dynamo。在中间部分,我们有专家并行64,然后呃,那个26%,26%是用于上下文的。所以Dynamo开启时使用了26%的上下文,而其余74%不是上下文。这里有批处理大小64,一边是专家并行64,另一边是专家并行4。然后在最底部,你有张量并行16,专家并行4,批处理大小2,1%的上下文。
计算机的配置在这整个光谱上都在不断变化,然后这就是我们看到的效果。
这是关于输入序列长度的测试。这是一种通用的测试用例,是你可以相对容易进行基准测试的测试用例。输入是1000个token,输出是2000个。请注意,我们刚才给大家展示的演示中,输出非常简单地达到了9000,对吧?哦,是8000个。好的。所以很明显,这不只是代表了那一次单独的对话。而现在这个测试用例更具代表性。这就是我们的目标,你知道的,就是为下一代工作负载构建这些下一代计算机。
01:47:08
这里有一个推理模型的例子。在推理模型中,Blackwell的性能是Hopper的40*40倍。这真的非常惊人。
你知道,我之前说过,也有人问我为什么会这么说,但我确实说过:一旦Blackwell开始大规模出货,你想免费送人Hopper都没人要了。这就是我的意思,这很合理。
如果你还在考虑购买Hopper,不用担心,这没问题。但我是首席营收破坏者(自嘲)。我的销售团队都在说:哦,不,别这么说。确实有些情况下Hopper是可以的,这是我能对Hopper说的最好的话了。有些情况下它还可以使用,但如果让我猜测的话,这样的情况并不多。
所以这就是我的观点。当技术发展如此之快,而且工作负载又非常密集,你们正在构建的这些系统本身就是工厂。我们真的希望你们能够投资在正确的版本上。
好的,为了给大家一个直观概念,这就是100兆瓦工厂的样子。一个基于Hopper架构的100兆瓦工厂,你需要45,000个芯片裸片,1400个机架,它每秒能产生3亿个tokens。好的。而这是使用Blackwell架构的样子。你只需要80个裸片。是的,我知道这听起来没有任何道理。好的,所以,所以我们并不是想卖给你更少的东西,明白吗?我们的销售人员现在都在抱怨说:"你们卖给客户的产品更少了。"但实际上这样反而更好,知道吗。所以,总之,你买得越多,省得越多。但不,其实比这更好。现在的情况是,你买得越多,赚得越多,懂我意思吗?
01:49:41
所以,无论如何,请记住现在一切都在AI工厂的背景下。虽然我们谈论了芯片,但你总是要从扩展开始,从全面扩展开始。你能扩展到最大程度是多少?现在,我想向你们展示AI工厂的样子。但AI工厂非常复杂。我刚才给你举了一个机架的例子,它有60万个部件,重达3000磅。现在你必须把它与其他许多设备连接起来。因此,我们开始构建我们称之为数据中心数字孪生的系统。在建设数据中心之前,你必须先建立一个数字孪生。让我们来看看这个,这真是令人难以置信的美丽。
旁白:
世界正在竞相建设最先进的大规模AI工厂。建立一个AI超级工厂是一项非凡的工程壮举,需要数万名来自供应商、建筑师、承包商和工程师的工作人员来建设、运输和组装近5亿个组件和超过20万英里的光纤,几乎相当于从地球到月球的距离。NVIDIA Omniverse Blueprint用于AI工厂数字孪生,使我们能够在实际建设开始很久之前设计和优化这些AI工厂。在这里,NVIDIA工程师使用Blueprint来规划一个1吉瓦的AI工厂,整合了最新NVIDIA DGX Superpods的3D和布局数据,以及来自Vertiv和Schneider Electric的先进电力和冷却系统,并通过NVIDIA Air优化网络拓扑,这是一个用于模拟网络逻辑、布局和协议的框架。这些工作传统上是在各自的领域单独完成的。Omniverse Blueprint让我们的工程团队能够并行协作工作,让我们探索各种配置以优化TCO(总体拥有成本)和电力使用效率(PUE)。NVIDIA使用Cadence Reality数字孪生,由CUDA和Omniverse库加速,来模拟空气和液体冷却系统,以及Schneider Electric与ETAP,这是一个用于模拟电力块效率和可靠性的应用程序。实时模拟让我们能够迭代并在几秒钟内运行大规模的假设场景,而不是几小时。我们使用数字孪生向大量团队和供应商传达指令,减少执行错误并加快启动时间。在规划改造或升级时,我们可以轻松测试和模拟成本和停机时间,模拟成本和停机时间。确保AI工厂面向未来。
Jensen Huang:
这是第一次有人构建数据中心的——哦,太美了。好的,我必须抓紧时间了,因为我有很多内容要告诉你们。如果我讲得有点太快,不是因为我不关心你们,只是我有太多信息需要分享。
首先是我们的路线图。我们现在已经开始Blackwell的全面生产。全球各地的计算机公司正在大规模加速部署这些令人难以置信的机器。我非常高兴,也非常感激你们所有人在过渡到这个新架构的过程中付出的努力。
今年下半年,我们将顺利过渡到升级版。我们有Blackwell Ultra NVLink72,它的浮点运算性能提升了1.5倍,还配备了一个专门用于注意力机制的新指令。同时内存容量也增加了1.5倍,所有这些额外的内存对KV缓存等功能都非常有用。它的网络带宽提升了两倍,让数据传输更加高效。现在我们已经有了相同的架构基础,可以顺畅地过渡到这个新版本,这就是所谓的Blackwell Ultra,它将在今年下半年推出。
现在,有个原因为什么在任何公司里,只有我们的产品发布会上,大家都在喊下一个。其实,这正是我期待的反应。这是因为:看,我们正在建造AI工厂和AI基础设施。这需要多年的规划。这不像买一台笔记本电脑,这不是可自由支配的开支。这是我们必须提前计划的投入。因此,我们必须规划土地和电力资源,准备好资本支出,组建工程团队,并且必须提前2-3年进行规划。这就是为什么我向你们展示未来2-3年的路线图,这样我们就不会在5月份突然给你们惊喜,说嘿,下个月我们将推出这个令人难以置信的新系统。我稍后会给你展示一个例子。我们规划了多年的计划。
下一个阶段,一年后的产品是以一位天文学家命名的,她的孙子们也在这里。她的名字是Vera Rubin,她发现了暗物质。Vera Rubin系统非常出色,因为它的CPU性能是Grace的两倍,拥有更多内存和更大带宽,但只是一个小小的50瓦CPU,真的相当惊人。Rubin还配备了全新的GPU CX9,全新的网络技术,智能网卡,NVLink 6,全新的NVLink和全新的HPM 4内存。基本上除了机箱外,所有组件都是全新的。这样我们就可以在一个方向上承担很大风险,而不必冒险改变与基础架构相关的其他许多因素。所以,Vera Rubin NVLink 144将在明年下半年推出。
现在有一点我需要纠正,请大家注意这一次调整。Blackwell实际上是一个芯片中包含两个GPU。我们之前把这整个芯片称为一个GPU,这是错误的。原因是这会搞乱所有的NVLink命名规则等内容。所以从现在开始,我们不去修改Blackwell的说法,但今后当我说NVLink 144时,意思是它连接到144个GPU,而每一个GPU就是一个GPU芯片。它可能会被组装在某种封装中,组装方式可能会不时变化,但要理解每个GPU芯片就是一个GPU,每个NVLink都连接到GPU,所以这是Vera Rubin NVLink 144。
这为再下一年的产品奠定了基础。那时我们会推出Rubin Ultra。所以是Vera Rubin,然后是Rubin Ultra。我知道这个消息会让你们兴奋。这是Vera Rubin和Rubin Ultra,将在2027年下半年推出。
01:57:30
这是NVLink576极致纵向扩展系统,每个机架功率600千瓦,含250万个零部件,好的,当然还有大量的GPU,各项规格都提升了很多倍。计算能力增加了14倍,从1 exaflops提升到15 exaflops,正如我之前提到的,现在是15 exaflops的纵向扩展性能,好的。它拥有4.6 PB(即4600 TB)每秒的纵向扩展带宽。我强调的不是总带宽,而是纵向扩展带宽,当然还有全新的NVLink交换机和CX9,好的。注意,这里有16个站点,一个封装中集成了4个GPU,以及极其庞大的NVLink规模。从这个角度来看,它是这样的。
现在这个部分会很有趣。你们现在只是在加速部署Grace Blackwell而已。我不想让它看起来像笔记本电脑,但让我们来看看,好的。这就是Grace Blackwell的样子,而这是Rubin的样子。这是ISO尺寸对比,保持相同比例。这是另一种表达方式:在横向扩展之前,你必须先纵向扩展。这说得通吗?在横向扩展之前,先纵向扩展。之后你就可以使用我稍后展示的惊人技术进行横向扩展,好的。所以,首先进行纵向扩展,这样你就能感受到我们前进的步伐。
这是纵向扩展后的浮点运算能力。Hopper算作1X,Blackwell达到68X,而Rubin将达到900X的纵向扩展浮点运算能力。如果把这转化为总体拥有成本(TCO),上面是功耗因素,每单位功率的功耗。下面则是我之前提到的曲线下方的面积,也就是那个方块区域,基本上代表浮点运算能力乘以带宽,好的?这样理解,判断你的AI工厂是否取得进步的一个简单直观方法就是:用瓦数除以这些数值。你可以看到Rubin将会极大地降低成本,好的。
02:00:03
所以这就是NVIDIA路线图的简要介绍。每年就像时钟一样准时更新一次。好,我们如何进行扩展?我们介绍了我们正在准备进行横向扩展,而纵向扩展则通过NVLink实现。我们的横向扩展网络是InfiniBand和Spectrum X。
大多数人对我们进入以太网世界感到非常惊讶。我们之所以决定做以太网,是因为如果我们能帮助以太网变得像InfiniBand一样,具备InfiniBand的品质,那么网络本身对所有人来说就会更容易使用和管理。于是我们决定投资Spectrum,我们称之为Spectrum X,并为其带来了拥塞控制、极低延迟的特性,以及作为我们计算架构网络一部分的大量软件。结果,我们使Spectrum X的性能变得极其强大。
我们用Spectrum X搭建了有史以来最大的单GPU集群,作为一个巨型集群,那就是Colossus。还有很多其他类似的例子。Spectrum X无疑是我们的一个巨大的成功,堪称完美击中目标。让我非常兴奋的一个领域是,许多大型企业网络公司正在将Spectrum X整合到他们的产品线中,这样他们就能帮助全球企业转型成为AI公司。
我们的CX7、CX8现在已经达到10万规模,CX-8正在推出,CX9也即将面世。在Rubin的时间框架内,我们希望将GPU的数量扩展到数十万个。现在,将GPU扩展到数十万个的挑战在于连接方式——横向扩展和纵向扩展的连接都使用铜缆。
我们应该尽可能地使用铜缆,大约一两米的距离内是最佳选择。铜缆连接非常优秀,可靠性极高,能源效率很好,成本也很低。所以在纵向扩展时,我们尽可能地使用铜缆。但在横向扩展方面,如今数据中心已经达到了体育场的规模,我们需要一种更适合长距离运行的解决方案。这正是硅光子学发挥作用的地方。
硅光子学的挑战在于收发器在将电信号转换为光信号时消耗大量能源,这个过程需要经过一系列收发器和多个转换阶段。所以每一个这样的组件,每一个这样的环节——等一下,我是不是只有我一个人在这里讲?大家都能听到吗?我的网络技术团队在哪里?能把那个显示在这里吗?对,对,让我们把它调出来,这样我就可以向大家展示我在讲的内容。
好的,首先,我们正在宣布英伟达的首个共封装光学(Co-Packaged Optics,简称CPO)硅光子系统。这是全球首个每秒1.6太比特的CPO系统。它基于一种称为微环谐振调制器(Micro Ring Resonator Modulator,简称MRM)的技术,并且完全使用我们与TSMC合作开发一段时间的令人难以置信的工艺技术构建。我们与一个庞大的技术提供商生态系统合作,共同发明了我即将展示给大家的东西。这真的是疯狂的技术,非常非常疯狂的技术。
我们决定投资MRM技术的原因是为了利用MRM令人难以置信的密度和功耗优势,相比用于电信的马赫-曾德干涉仪(Mach-Zehnder),它具有更好的密度和功耗表现。当你从一个数据中心连接到另一个数据中心时,在电信领域或者甚至在我们使用的收发器中,我们使用马赫-曾德干涉仪,因为直到现在密度要求并不是很高。
如果你看看这些收发器,这是一个收发器的例子。这是30瓦特。请大家记住这是30瓦特,如果你大批量购买,价格是1000美元。这一侧是插头。这一侧是电气接口。那一侧是光学接口。光信号通过黄色部分进来。你把这个插入交换机,它就是电气的。在这一侧有收发器、激光器和一些称为马赫-曾德干涉仪的技术,非常令人难以置信。
02:05:42
因此,我们利用这个技术从GPU连接到交换机,再到下一级交换机,然后再到下一级交换机,最后到达GPU。举个例子,如果我们有10万个GPU,我们就会在这一侧有10万个这样的连接,然后再有另外10万个用于交换机之间的连接。如果我们有25万个GPU,我们就需要再增加一层交换机。对于25万个GPU,每个GPU都会配备6个收发器,每个GPU都会有6个这样的插头。这6个插头会让每个GPU增加180瓦的功耗,每个GPU 180瓦,以及每个GPU 6000美元的成本。
现在问题是,我们如何扩展到数百万个GPU?因为如果我们有一百万个GPU乘以6,对吧,那就是600万个收发器,每个30瓦,总共就是180兆瓦的收发器功耗。它们不做任何计算。它们只是移动信号。所以问题是,我们如何负担得起这些?正如我之前提到的,能源是我们最重要的资源。最终一切都与能源相关。这将通过消耗掉180兆瓦的电力来限制我们的收入和客户的收入。
这就是我们做的令人惊叹的事情。我们发明了世界上第一个MRM微环谐振器,它看起来是这样的。你可以看到上面有一个小波导。这个波导连接到一个环。这个环通过谐振来控制波导的反射率,它调节并限制通过的光量,可以通过吸收光线来关闭信号或让光线通过。好的,它将连续的激光束转变为数字信号的1和0。这就是其中的奇迹所在。
然后,这种光子集成电路与电子集成电路堆叠在一起,再与一整套微型镜头堆叠,然后与被称为光纤阵列的组件堆叠。所有这些技术都是使用台积电称为CoWoS的技术制造的,并通过3D CoWoS封装技术与我刚才展示的所有技术提供商合作开发——有很多这样的合作伙伴,最终打造出这台令人难以置信的机器。现在让我们一起来看这个视频。
这是一项技术奇迹,最终形成了这些交换机产品。我们的InfiniBand交换机,其中的硅片工作得非常出色。今年下半年,我们将推出硅光子交换机;而明年下半年,我们将推出Spectrum X。
这一切得益于我们选择了MRM微环谐振器技术,以及过去五年中我们承担的巨大技术风险。在此期间,我们申请了数百项专利,并将技术授权给我们的合作伙伴,使我们都能制造这些产品。现在,我们已经能够将硅光子与协同封装技术结合,无需收发器模块,直接将光纤连接到我们的交换机中,端口数达到512。这就是512端口的交换机。用其他方式根本无法实现这一点。这项技术使我们能够扩展到拥有十万甚至数百万GPU的系统。
这带来的好处是不可思议的。在数据中心中,我们可以节省数十兆瓦的电力。举例来说,6兆瓦相当于10个Rubin Ultra机架的电力消耗,对吧?而60兆瓦则相当于100个Rubin Ultra机架的电力,这是一个巨大的数字。这些节省下来的电力现在可以重新部署到Rubin系统中。
这就是我们的路线图:每年一次架构更新,每两年推出一条新产品线。每一年,性能倍增系数都会提高,我们尝试分阶段承担硅芯片风险、网络风险或系统机箱风险,这样我们就能在追求这些令人难以置信的技术的同时推动行业向前发展。
关于Vera Rubin,我真的很感谢年轻一代今天能够到场。这是我们向她致敬的机会,感谢她所做的非凡工作。我们的下一代产品将以Feynman命名。这就是英伟达的路线图。
02:12:43
让我跟大家谈谈企业计算。这真的非常重要。为了将AI带入世界各地的企业,首先,我们需要关注NVIDIA的另一个领域。
为了将AI带入企业,让我们先退后一步,提醒自己这一点:AI和机器学习彻底重塑了整个计算堆栈。处理器不同了,操作系统不同了,上层应用不同了,应用的运作方式不同了,任务的编排方式不同了,运行它们的方式也不同了。
让我给你举个例子。未来获取数据的方式将与过去有根本的不同。在过去,我们会精确地检索所需数据,然后阅读它以尝试理解。而在未来,我们将采用类似Perplexity的方式。不再以传统方式进行检索,而是直接向Perplexity提问。提出问题,它会告诉你答案。未来的企业IT也将以这种方式运作。
我们将拥有作为数字劳动力一部分的AI代理。世界上有10亿知识工作者,未来可能会有100亿数字工作者与我们并肩工作。全球所有的软件工程师,大约3000万人,100%都将得到AI的辅助。我确信这一点——到今年年底,100%的NVIDIA软件工程师都将获得AI辅助。
因此,AI代理将无处不在。企业运行的内容、方式以及我们如何运行它们都将发生根本性变化。所以我们需要一种新型的计算机系统。
这就是DGX应有的模样。20 petaflops,真是令人难以置信!72个CPU核心,芯片间直连接口,HBM内存,哦对了,还有几个PCI Express插槽,以防万一你想插上你的GeForce显卡。
这被称为DGX Station。DGX Station和DGX SuperPOD将通过所有的OEM厂商提供,包括HP、Dell、Lenovo、Asus。它将为全球的数据科学家和研究人员量身打造。这就是AI时代的计算机。这就是未来计算机应有的模样,这就是未来计算机将会运行的东西。
现在我们为企业提供了完整的产品线,从小小的单机版到工作站级别的,再到服务器级别的,直至超级计算机级别的,这些都将通过我们所有的合作伙伴提供。
02:15:36
我们还将彻底革新计算技术栈的其余部分。请记住,计算有三大支柱。第一是计算,你正在看到的;第二是网络,就像我之前提到的,Spectrum X将成为全球企业和AI网络;第三是存储。存储系统必须完全重新设计。
未来的存储系统不再是基于检索的存储系统,而是将成为基于语义的检索系统,一个基于语义的存储系统。因此,存储系统必须在后台持续进行信息嵌入,将原始数据转化为知识,之后当你访问它时,你不再是检索它。你只需与它对话,提出问题,给它提出需要解决的问题。
其中一个例子,我希望我们有视频来展示,但Box的Aaron甚至已经在云端部署了一个,与我们合作将它部署到云端。这基本上是一个,你知道的,超智能的存储系统。在未来,每个企业都将拥有类似的系统。这就是未来企业存储的样子。
我们正与整个存储行业的优秀合作伙伴合作,包括DDN、Dell、HP Enterprise、Hitachi、IBM、Net App、Nutanix、Pure Storage、Vast和WACA。基本上,全球整个存储行业都将首次提供这套技术栈。你的存储系统将由GPU加速。
所以有人认为我,我的幻灯片不够多。所以Michael认为我的幻灯片不够多,所以他说:Jensen,万一你没有足够的幻灯片,我能把这个放进去吗?所以这是Michael的幻灯片,但是但是,这是他发给我的。他说:万一你没有任何幻灯片。而我,我已经有太多幻灯片了,但这是一张非常棒的幻灯片。让我告诉你为什么。在这单独一张幻灯片中,他解释了Dell将提供一整套NVIDIA企业ITAI基础设施系统以及运行在其上的所有软件。好的。所以你可以看到,我们正在革新全球的企业。
今天我们还要宣布一个令人难以置信的模型,这是每个人都能运行的模型。刚才我向大家展示了R1推理模型与Llama 3非推理模型的对比。显然,R1要聪明得多,但我们可以做得更好。我们能够让它完全企业级就绪,适合任何公司使用。现在,它已经作为我们称为NIMS的系统的一部分完全开源,你可以下载它,可以在任何地方运行它。你可以在DGX Spark上运行,可以在DGX station上运行,也可以在各家OEM厂商生产的任何服务器上运行。你可以在云端运行,还可以将它集成到任何智能体AI框架中。我们正在与全球各地的公司合作,我要快速展示这些合作伙伴,所以请大家仔细看。
我在观众席中有一些很棒的合作伙伴。我想要特别表彰Accenture,Julie Sweet和她的团队正在构建他们的AI工厂和AI框架。还有Amdocs,全球最大的电信软件公司。AT&T的John Stankey和他的团队正在构建AT&T AI智能体系统。Larry Fink和BlackRock团队也在构建他们的系统。Anirudh,在未来,我们不仅会雇佣ASIC设计师,我们还将从Cadence雇佣大量数字ASIC设计师来帮助我们设计芯片。所以Cadence也在构建他们的AI框架。正如你所看到的,每一个合作伙伴都表示NVIDIA模型、NVIDIA NIMS和V libraries已经完全集成到他们的系统中,这样你就可以在企业内部或任何云平台上运行它。
Capital One是一家在技术应用方面最先进的金融服务公司之一,他们公司各个方面都在使用NVIDIA技术。德勤的Jason和他的团队、安永的Janet和他的团队、纳斯达克的Adina和她的团队,都在将NVIDIA技术整合到他们的AI框架中。还有SAP的Christian和他的团队,ServiceNow的Bill McDermott和他的团队。这真的很不错。说起来,这是那种第一张幻灯片就用了30分钟的演讲,然后所有其他幻灯片又花了30分钟。
02:20:09
好的,接下来让我们换个话题。我们来谈谈机器人技术,好吗?让我们聊聊机器人。
机器人的时代已经到来了。机器人的时代真的到来了。机器人的优势在于能够与物理世界互动,完成数字信息无法做到的事情。我们非常清楚地知道,全球正面临严重的人类劳动力短缺问题。到本十年末,全球至少会缺少5000万名劳动者。我们会非常乐意支付每人5万美元的薪资让他们来工作。我们可能不得不支付机器人每年5万美元来工作。因此,这将是一个非常、非常庞大的产业。
机器人系统有各种各样的类型。你们的基础设施将会实现机器人化,全球将有数十亿摄像头,以及遍布各地的仓库和工厂,全球有1000到2000万个工厂。每辆汽车已经是一个机器人,就像我之前提到的。现在我们正在构建通用机器人。让我展示一下我们是如何做到这一点的。
旁白:
一切可移动的事物都将是自主的。具身AI将为各行各业的各种机器人赋能。NVIDIA打造的三台计算机实现了机器人AI模拟、训练、测试和真实世界体验的连续循环。训练机器人需要海量数据。互联网规模的数据提供常识和推理能力,但机器人需要动作和控制数据,而这些数据的获取成本高昂。借助NVIDIA Omniverse和Cosmos构建的蓝图,开发者可以生成海量多样化的合成数据,用于训练机器人策略。
首先,在Omniverse中,开发者根据不同领域汇集真实世界的传感器或演示数据。然后机器人和任务使用Omniverse来调节Cosmos,将原始捕获的数据转化为大量照片级真实、多样化的数据集。开发者使用Isaac Lab通过增强的数据集对机器人策略进行后训练,让机器人通过模仿学习克隆行为来学习新技能,或通过试错与AI反馈的强化学习来获取能力。
实验室中的练习与真实世界存在差异。新策略需要进行实地测试。开发者使用Omniverse进行软件和硬件在环测试,在数字孪生环境中模拟策略,配合真实世界环境动态、域随机化、物理反馈和高保真传感器模拟。实际操作需要多个机器人协同工作。Mega作为Omniverse的蓝图,允许开发者大规模测试经过后训练的策略集群。在这里,富士康在虚拟NVIDIA Blackwell生产设施中测试异构机器人。当机器人大脑执行任务时,它们通过传感器模拟感知自身行动的结果,然后规划下一步行动。Mega让开发者测试多种机器人策略,使机器人能够作为一个系统工作,无论是进行空间推理、导航、移动还是精细操作。
模拟环境中孕育着令人惊叹的创新。今天,我们推出NVIDIA Isaac Groot N1。Groot N1是为人形机器人设计的通用基础模型,它建立在合成数据生成、学习和模拟的基础之上。Groot N1采用双系统架构,实现快速和慢速思考,这一设计灵感来自人类认知处理原理。慢思考系统让机器人感知并推理其环境和指令,规划正确的行动步骤。快思考系统则将计划转化为精确且连续的机器人动作。
Groot N1的泛化能力让机器人能轻松操作常见物体,并协作执行多步骤序列。通过这套完整的合成数据生成和机器人学习管道,人形机器人开发者可以在全球各地不同环境中,对多种实体和任务的Groot N1进行后训练。在各行各业,开发者正在利用NVIDIA的三台计算机构建下一代具身AI。
02:25:30
Jensen Huang:
物理AI和机器人技术正在飞速发展,每个人都应该密切关注这个领域。这很可能成为所有行业中规模最大的一个。从核心来看,我们面临着之前提到的同样的挑战,我们关注三个系统性问题。
首先,如何解决数据问题?如何以及在哪里创建训练AI所需的数据?其次,模型架构是什么?最后,扩展规律是什么?我们如何扩展数据、计算力或两者兼顾,使AI变得越来越智能?如何实现扩展?这些基本问题在机器人领域同样存在。
在机器人领域,我们创建了一个名为Omniverse的系统。它是我们为物理AI打造的操作系统。你们听我谈论Omniverse已经很长时间了。我们为它添加了两项技术。今天我要向你们展示两件事情。
第一项是让我们能够通过具备理解物理世界的生成能力和生成模型来扩展AI。我们称之为Cosmo。利用Omniverse来调控Cosmo,并利用Cosmo生成无限多的环境,使我们能够创建数据,这些数据是有根据的,由我们控制,且同时能系统地实现无限多样性。你们看到的Omniverse,我们使用糖果色来展示我们在场景中完美控制机器人的例子,而Cosmo能够创建所有这些虚拟环境。
第二件事,正如我们之前讨论的,当今语言模型令人难以置信的扩展能力之一是强化学习可验证奖励。问题是,机器人领域的可验证奖励是什么?正如我们非常清楚的,是物理定律,是可验证的物理奖励。因此我们需要一个卓越的物理引擎。
大多数物理引擎都是出于各种原因而设计的。它们可能是为大型机械设计的,或者是为虚拟世界、视频游戏等设计的。但我们需要一个专为精细刚体和软体设计的物理引擎,能够训练触觉反馈、精细运动技能和执行器控制。我们需要它进行GPU加速,这样这些虚拟世界就可以以超线性时间、超实时的速度运行,并能极快地训练这些AI模型。我们还需要它与全球机器人专家使用的框架无缝集成。
02:28:44
MuJoCo。今天我们要宣布一件非常非常特别的事情。这是三家公司的合作:DeepMind、Disney Research和NVIDIA,我们称之为MuJoCo。让我们来看看Newton。谢谢。
好的,让我们重新开始,好吗?不要让他们失望。稍等一下。有人能跟我说话吗?我需要反馈。发生了什么?我只需要一个人类跟我交流。来吧。这是个好笑话。给我一个人类交流。Janine,我知道这不是你的错,但请跟我说说话。我们准备好了。我们只剩下2分钟了。我在这里。他们正在重新准备,他们在重新调整。我不知道那是什么意思。好的。
告诉我刚才那不是很神奇。嘿,Blue,你好吗?你喜欢你的新物理引擎吗?你喜欢,是吧?是的,我敢打赌我知道。触觉反馈、刚体、软体模拟、超实时运行。你能想象到吗?刚才你看到的是完全实时的模拟。这就是我们未来将如何训练机器人。顺便告诉你,Blue内部有两台计算机,2台NVIDIA计算机。看你多聪明啊。是的,你真聪明。
好的。嘿,Blue。听着。我们把他带回家吧。让我们完成这个主题演讲。现在是午餐时间了。你准备好了吗?让我们完成它。我们还有另一个宣布。你很好。你很好。就站在这里。站在这里。站在这里。好的。就在那里。很好。好的,站好。
好的,我们还有一个令人惊喜的消息。我告诉过你我们的机器人技术正在取得巨大进步。今天我们宣布Groot N1将开源。
02:32:42
我要感谢大家来参加,让我们做个总结。我要感谢所有人来参加GTC。我们讨论了几个方面。首先,Blackwell已全面投产,产能增长真的非常惊人。客户需求非常强劲,这是有充分理由的,因为AI正处于一个拐点。由于推理AI和训练推理AI系统以及智能体系统(agentic systems),我们需要执行的AI计算量大大增加。
配备Dynamo的Blackwell NVLink 72的AI factory性能比Hopper高40倍,推理将成为未来十年最重要的工作负载,因为我们正在大规模扩展AI。第三,我们有年度研发节奏,已经为你们规划了路线图,以便你们可以规划你们的AI基础架构。
最后,我们有三个AI基础架构。我们正在构建云计算的AI基础架构、企业的AI基础架构以及机器人的AI基础架构。
谢谢大家。感谢所有让这个视频成为可能的合作伙伴。感谢所有让这个视频成为可能的人。祝大家GTC愉快。谢谢。嘿,Blue,我们回家吧。干得好!真是个好小伙子。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 专栏简介 及 联系方式 2024。
本文于2025.3.20 首发于微信公众号