差评 01月30日
被“削弱”的英伟达,这次又想蹭机器人的热度了?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达的Cosmos平台是为物理人工智能开发者设计的,它通过世界基础模型(WFM)等工具,模拟现实物理世界,为机器人和自动驾驶等领域提供训练数据。Cosmos平台集成了世界基础模型、高级分词器、安全护栏和加速数据处理管道等工具,其中WFM通过大量视频数据训练,能生成符合物理规律的场景和环境。它采用“先预训练再后训练”的方法,先让模型了解物理世界,再针对特定任务进行微调。该平台旨在解决机器人训练中数据匮乏的问题,通过模拟环境,降低训练成本,提高效率。目前,已有机器人和自动驾驶公司开始使用Cosmos进行模型训练。

🤖 Cosmos平台是为物理人工智能开发者设计的,旨在构建一个模拟现实物理世界的工具箱,为机器人和自动驾驶等领域提供训练数据和交互环境。

⚙️ Cosmos平台的核心是世界基础模型(WFM),通过2000万小时的视频训练,可以生成符合物理规律的场景和环境,它能理解物理世界的运行方式,实现物理AI与虚拟环境的交互。

🛡️ Cosmos平台还包括高级分词器、安全护栏和加速数据处理管道等工具,其中高级分词器可以简化复杂数据,安全护栏用于防止有害输出,保护隐私,这些工具共同为物理AI模型的训练提供了支持。

🦾 Cosmos平台通过“先预训练再后训练”的方法,先让模型学习大规模的真实视频数据,了解物理世界的运行规律,再针对特定任务进行微调,满足不同场景的需求,从而提高训练效率。

🚗 Cosmos平台已被应用于机器人和自动驾驶领域,例如1X公司使用Cosmos进行机器人动态规划,小鹏汽车使用Cosmos合成各种天气和路况数据,训练自动驾驶算法,这表明Cosmos在实际应用中具有广阔前景。

原创 世超 2025-01-30 00:00 山东



前阵子,老黄在 CES 上又狠狠秀了波肌肉。


不过呢大多数人,基本都被全新的 RTX 50 系显卡给吸住了,世超这两天研究了下发现,那些被咱 “ 冷落 ” 的新技术里,一个两个其实也都憋着大招。


就拿 Cosmos 世界基础模型平台来说,这可是个让 AI 能够理解物理世界的好东西。


根据官方的说法, Cosmos 平台是一个专门为物理人工智能开发者设计的平台。


这又是物理人工智能,又是开发者,打眼一看,好像跟咱也没啥太大关系。


但大伙儿先别着急,这次 Cosmos 一发布,技术报告一甩,有些报道的标题已经用上了 “ 开启物理 AI 大时代 ” 这样的字眼,连老黄都说 “ 机器人的 ChatGPT 时刻即将到来 ” 


而世超也去翻了翻 Cosmos 的技术报告,这么说吧, Cosmos 就好比物理 AI ( 机器人、无人车等 )的 “ 黄埔军校 ” ,咱们以后能不能指望机器人养老,它说不定能帮上大忙。


咱们可以简单把 Cosmos 平台,当成一个工具箱,里边儿大概集成了世界基础模型 (  WFM  ) 、高级分词器器、安全护栏以及加速数据处理管道这么几个 “ 工具 ” 。


后面那几个专业名词没听说过不要紧,但模型总该知道是啥吧。


这次,英伟达一口气在 Cosmos 上发布了 8 个世界基础模型,而且都是基于 2000 万小时的视频训练出来的,参数量从 40 亿到 140 亿不等,根据不同场景的应用需求,还可以分为 Nano 、 Super 和 Ultra 三种。


看着唬人,但世界基础模型,跟咱们熟悉的图像、视频生成模型差不多,是生成式 AI 模型。


只不过它生成的东西并不是视频那么简单,更准确的说,当你输入文本、图像、视频或者运动数据以后,世界基础模型生成的是有物理规律的 “ 场景 ” 、 “ 环境 ” 。


本质上,就是合成出高度仿真的数据,来实现物理 AI 跟虚拟环境的交互。


至于其他的什么高级分词器、安全护栏和加速数据处理管道,咱了解个大概就行。像高级分词器可以把复杂的数据简化,给数据划重点。安全护栏就更好理解了,就是防止有害的输出,保护隐私。


另外, Cosmos 还用到了一个 “ 先预训练再后训练 ” 的法子。


大概意思是,预训练阶段先给模型喂大规模的真实视频数据,起码要让模型知道物理世界到底是咋运转的。


接着,后训练阶段再具体问题具体分析,对预训练模型进行微调,满足特定任务的需求。


总之就是, Cosmos 平台通过各种技术手段,为物理 AI 构建出了一个跟现实物理世界类似的空间和交互环境。


不过说了这么半天,可能有差友还是没太明白,这玩意儿到底能用来干啥。


其实这个问题,老黄已经在发布会上讲得很清楚了,就是机器人和自动驾驶汽车。


拿机器人行业来说,为啥这么多年了一直没啥大突破,很重要的一个原因就是缺数据。


跟大语言模型不太一样,机器人训练需要的数据不只是文字、图像那么简单,因为机器人要感知这个世界,还要跟这个世界产生交互,所以它就得学习物理规律、动态变化。


但这些数据,恰恰是最难收集的。


还是拿机器人洗碗举例,看似动作很简单,但机器人想学会你得有视觉数据,比如餐具的形状大小、油污程度,还有抓放碗的力度、用多大力气擦洗这些力学数据,当然,洗碗过程中手臂移动、抓取角度的调整,包括一些复杂的动态因素,也需要收集、标注数据。


像之前的斯坦福 Aloha 家务机器人,还是开发者通过亲身示范 “ 遥控 ” 机器人完成指定动作,来收集数据。


所以这个时候, Cosmos 就派上用场了。


模拟出一个洗碗环境,不就相当于,提前给机器人预习了一遍现实世界,等模型出师了,再放到现实世界去实操。


这样一来,训练效率上去了,成本也能控制住。


按照英伟达官方的介绍,现在已经有一部分机器人和自动驾驶公司用上了 Cosmos 。


OpenAI 投的那家 1X ,用 Cosmos 来给机器人做动态规划。


小鹏也用 Cosmos 来合成各种天气和路况的数据,训练自动驾驶算法。


当然了,精准模拟现实世界只是理想状态下的 Cosmos ,包括技术报告里也提到,现阶段的世界基础模型还比较早期,生成的视频并不完全符合物理规律。


该说不说,世超现在也觉得走世界模型这条路,确实有搞头。


如果有一天, AI 能对现实世界进行模拟甚至是一比一复刻,并像咱们人一样理解世界、做出决策,这才更贴近咱们人类对于人工智能的期望。


去年,包括 Lecun 、李飞飞这些 AI 大拿,还有谷歌 Deepmind ,其实都在研究世界模型。世超盲猜一波,今年在世界模型和机器人领域里,可能会出现突破性的进展。


但不管成与不成,擅长 “ 卖铲子 ” 的英伟达,都是那个最大赢家。


撰文:西西

编辑:江江&面线

美编:子曰


图片、资料来源

NVIDIA

Cosmos World Foundation Model Platform for Physical AI

部分图源网络




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cosmos平台 物理AI 世界基础模型 机器人 自动驾驶
相关文章