Zilliz 01月11日
深度解读英伟达最新世界基础模型Cosmos:用AI数据训练AI算法,彻底闭环了?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cosmos是英伟达推出的用于加速物理AI开发的世界基础模型平台,可生成逼真合成数据,解决物理AI数据困境,具有多种应用及实现方式。

Cosmos可生成基于物理学的逼真合成数据,用于训练或评估现有模型

世界基础模型可用于策略评估、初始化、训练等,还能优化决策过程

Cosmos包含视频数据管道、视频标记化等五大组件,实现世界模型基础

英伟达采取预训练后微调范式,探索了Diffusion和自回归两种模型构造方法

原创 和你一起进步的 2025-01-10 18:15 上海

Cosmos能生成基于物理学的逼真合成数据,训练或评估现有模型。

AI的下一个杀手级爆点是什么?

刚刚落幕的CES上,英伟达CEO黄仁勋给出的答案是物理AI。

但何谓物理AI,通俗来说,就是世界模型,CES上,基于200万小时的视频,英伟达正式推出了一个名为Cosmos的用于加速物理AI开发的世界基础模型(WFM)平台,并抛出了一份75页的详细技术报告。紧接着,项目开源不到一天,GitHub 上的star数量就已经超过2000。

为什么如此受欢迎?简单来说,Cosmos可以很好的解决物理AI数据不够用的困境,其典型应用场景包括生成各种非常逼真的机器人以及无人驾驶场景下的视频。

随着智能化的发展,自动驾驶,机器人都需要更多的物理世界的数据来标注,而Cosmos世界基础模型则可以生成大量基于物理学的逼真合成数据,去训练或者评估现有的模型。

01.

如何理解世界基础模型?

世界基础模型这个概念定义指的根据从真实视觉信息. (0到t时刻)以及条件信息 生成下一时刻的视觉预测,也即可以意味着根据当前的视觉输入,可以预测各种不同行动产生的后续结果。英伟达认为WFM可以用于:

策略评估:通过使用WFM,开发者可以在虚拟环境中评估物理AI的策略模型,而无需将其部署到现实世界中,从而节省成本和时间。WFM帮助快速筛选出无效策略,将资源集中在更有潜力的策略上。

策略初始化:WFM可以帮助初始化策略模型,尤其是在数据稀缺的情况下,通过模拟世界动态来提供更好的初始条件。

策略训练:在强化学习中,WFM与奖励模型结合,为策略模型提供反馈,使得物理AI系统能通过与WFM的互动提高任务解决能力。

规划与模型预测控制:WFM可用于模拟物理AI系统执行不同动作序列后的未来状态,并基于模拟结果选择最佳的动作序列,从而优化决策过程。

合成数据生成:WFM可用于生成合成数据,支持训练,同时可以根据渲染元数据(如深度图、语义图)进行调整,用于模拟到现实的迁移(Sim2Real)。

02.

Cosmos如何实现的世界模型基础?

目前的Cosmos是一个框架,包含了五大组件,简要的介绍一下:

03.

Cosmos有什么特殊之处?

英伟达训练这个模型采取的是预训练后再微调的范式,其中将WFM分为预训练WFM和后训练WFM。为了构建预训练WFM,作者利用大规模的视频训练数据集,向模型展示多样化的视觉经验,使其成为一个通用模型。为了构建后训练WFM,使用从特定物理AI环境中收集的数据集对预训练WFM进行微调,从而得到针对特定物理AI设置的专用WFM。英伟达分别探索了两种可扩展的模型构造方法,一种基于Diffusion,一种基于自回归。Diffusion模型通过逐渐去除高斯噪声来生成视频,而自回归模型则是按照预设顺序逐片生成视频,且每一片都依赖于之前生成的内容。这两种方法将复杂的视频生成问题分解为更简单的子问题,使得问题更易于处理。

对于基于Diffusion的世界基础模型(WFM),预训练包括两个步骤:

对于基于自回归的世界基础模型(WFM),预训练也包括两个步骤:

英伟达在长达75页的技术报告中,也专门详细描述了一下视频数据的处理,对于实际的视频生成业务,这一块是属于knowhow很多,但是又容易被一笔带过的内容。在现代以大规模数据驱动的模型训练中,数据的处理是决定模型效果的重要变量。推荐对这一部分感兴趣的读者阅读原文,大体流程是分割步骤将一个长视频划分为若干个镜头,并将其转录为视频片段。过滤步骤去除对世界基础模型构建价值较小的片段。标注步骤为每个片段添加视频描述。然后,这些片段被存储在一个视频片段数据库中。为了获得训练数据集,首先进行语义去重,然后根据分辨率和纵横比对视频片段进行分片处理。

英伟达数据集的构成主要比例是

04.

Cosmos是如何进行语义去重的?SemDeDup+DataCom

接下来,我们重点了解一下去重的步骤:

作者采用了SemDeDup和DataCom的方法进行可扩展的语义去重。具体来说使用了InternVideo2 Embedding,并使用多节点GPU加速的 k-means实现(RAPIDS)对这些Embedding进行聚类,设置?=10,000。然后计算每个Embedding聚类内的成对距离,以识别重复项。当检测到重复视频时,选择分辨率最高的视频,以确保去重不会丢失质量。为了避免将整个成对距离矩阵存储在GPU内存中,作者实时计算必要的上三角矩阵,并在256个块中进行argmax简化。最终在去重过程中移除了大约30%的训练数据。

同时作者还利用提取的InternVideo2嵌入和聚类结果构建了一个视觉搜索引擎,支持通过自由文本和视频查询整个训练数据集。该搜索引擎对调试数据中的问题以及理解预训练数据集与下游应用之间的差距非常有帮助,如果某一个下游的具体数据表现差,那么它的embedding很有可能落在数据集一个比较稀疏的区域。

在大模型训练中,去重是一个改善数据分布,减少模型对某些数据过拟合风险,增加多样性的重要步骤。大规模模型的训练天然地需要适合大规模数据的基础设施,在这个背景下,Milvus作为一款云原生向量数据库,提供了出色的性能和可扩展性,成为解决这一问题的理想选择。Milvus支持快速处理大规模的向量数据,能够高效地进行相似性搜索和去重操作,适用于大规模训练数据集的处理需求。通过高效的索引和分布式架构,Milvus能够水平扩展以处理海量数据和高并发请求,显著提高处理速度,确保在大规模视频数据集的去重过程中实现实时、精准的相似性计算。相信高效的数据基础设施一定会为训练更加强大的模型打下坚实的基础。

作者介绍

王翔宇

Zilliz 算法工程师


推荐阅读


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cosmos 物理AI 世界基础模型 英伟达
相关文章