[英伟达]宇宙世界基金会物理AI模型平台

　　Abstract 　　物理AI需要首先通过数字化进行训练。它需要一个自身的数字孪生体（即策略模型），以及一个世界模型（即世界的数字孪生体）。本文提出CosmosWorldFoundationModelPlatform以帮助开发者为他们的物理AI系统构建定制化的世界模型。我们将世界基础模型定位为一种通用的世界模型，可以被微调以适应下游应用的定制化需求。我们的平台涵盖了视频筛选流程、预训练的世界基础模型、预训练后生成的例子，以及视频分词器。为了帮助物理AI建设者解决我们社会面临的最关键问题，我们使我们的平台开源，并提供了开放权重的模型，可通过具有宽松许可的途径获取。NVIDIACosmos. 　　1.Introduction 　　物理AI是一种配备有传感器和执行器的AI系统：传感器允许其观察世界，而执行器则允许其与世界互动并对其进行修改。它承诺可以释放人类工人从危险、繁重或乏味的物理任务中解脱出来。尽管在过去十年中，由于数据和计算能力的提升，AI的多个领域取得了显著进展，但物理AI的发展却相对缓慢。这主要是因为训练物理AI的数据扩展更具挑战性，因为所需的数据必须包含交错的观察和行动序列。这些行动会扰动物理世界，并可能导致系统和世界遭受严重损害。尤其是在AI还处于初级阶段时，探索性的行动至关重要。一种世界基础模型（WorldFoundationModel，WFM），即一个物理世界的安全数字双胞胎，已被长期视为解决数据扩展问题的解决方案。　　在本文中，我们介绍了用于构建物理AI的CosmosWorldFoundationModel(WFM)平台。我们主要关注视觉世界基础模型，其中观测数据以视频形式呈现，扰动可以以多种形式存在。如图所示：Fig.2我们提出了一种预训练-然后后训练的范式，将WFMs分为预训练和后训练的WFMs。为了构建一个预训练的WFM，我们利用大规模的视频训练数据集使模型接触到多样化的视觉体验，从而使其成为通才。为了构建一个后训练的WFM，我们对预训练的WFM进行微调，使用特定物理AI环境收集的数据集来达到针对特定、专门化物理AI设置的专业化WFM。Fig.1显示了我们训练前和训练后的WFM的示例结果。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签