Abstract 物理AI需要首先通过数字化进行训练。它需要一个自身的数字孪生体(即策略模型),以及一个世界模型(即世界的数字孪生体)。本文提出CosmosWorldFoundationModelPlatform以帮助开发者为他们的物理AI系统构建定制化的世界模型。我们将世界基础模型定位为一种通用的世界模型,可以被微调以适应下游应用的定制化需求。我们的平台涵盖了视频筛选流程、预训练的世界基础模型、预训练后生成的例子,以及视频分词器。为了帮助物理AI建设者解决我们社会面临的最关键问题,我们使我们的平台开源,并提供了开放权重的模型,可通过具有宽松许可的途径获取。NVIDIACosmos. 1.Introduction 物理AI是一种配备有传感器和执行器的AI系统:传感器允许其观察世界,而执行器则允许其与世界互动并对其进行修改。它承诺可以释放人类工人从危险、繁重或乏味的物理任务中解脱出来。尽管在过去十年中,由于数据和计算能力的提升,AI的多个领域取得了显著进展,但物理AI的发展却相对缓慢。这主要是因为训练物理AI的数据扩展更具挑战性,因为所需的数据必须包含交错的观察和行动序列。这些行动会扰动物理世界,并可能导致系统和世界遭受严重损害。尤其是在AI还处于初级阶段时,探索性的行动至关重要。一种世界基础模型(WorldFoundationModel,WFM),即一个物理世界的安全数字双胞胎,已被长期视为解决数据扩展问题的解决方案。 在本文中,我们介绍了用于构建物理AI的CosmosWorldFoundationModel(WFM)平台。我们主要关注视觉世界基础模型,其中观测数据以视频形式呈现,扰动可以以多种形式存在。如图所示:Fig.2我们提出了一种预训练-然后后训练的范式,将WFMs分为预训练和后训练的WFMs。为了构建一个预训练的WFM,我们利用大规模的视频训练数据集使模型接触到多样化的视觉体验,从而使其成为通才。为了构建一个后训练的WFM,我们对预训练的WFM进行微调,使用特定物理AI环境收集的数据集来达到针对特定、专门化物理AI设置的专业化WFM。Fig.1显示了我们训练前和训练后的WFM的示例结果。