掘金 人工智能 05月22日 17:48
Cosmos on PAI系列一:PAI-Model Gallery云上一键部署NVIDIA Cosmos Reason-1
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了NVIDIA Cosmos Reason-1世界基础模型在阿里云人工智能平台PAI上的快速部署使用方法。Cosmos Reason-1是一款专为理解运动、物体交互和时空关系而构建的多模态AI推理模型,基于思维链推理,能够解读视觉输入、预测结果并奖励最佳决策。阿里云PAI-Model Gallery已同步接入该模型,提供企业级部署方案,用户可以零代码一键部署,自动适配云资源,部署后开箱即用API,全流程运维托管,保障企业级安全。

💡Cosmos Reason-1模型是一款可完全定制的多模态AI推理模型,基于Qwen2.5-VL,通过物理常识和具身推理数据进行后训练,并使用了监督微调(SFT)和强化学习(RL)技术,专门用于理解运动、物体交互以及时空关系。

🚀阿里云PAI-Model Gallery集成了国内外AI开源社区中优质的预训练模型,用户可以通过PAI以零代码方式实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的AI开发和应用体验。

🧪通过NVIDIA官网提供的视频案例测试,Cosmos Reason-1模型准确地“理解”了视频中人的动作并给出了正确的预测,展现出对运动、物体交互以及时空关系的卓越理解及预测能力,这是当前一般的语言模型难以实现的。

🛠️NVIDIA开放了Cosmos Reason-1 tools,包含模型后训练脚本(SFT + RL),用户可以根据自身数据定制自己的Cosmos Reason-1模型,并且在小规模集群上实测有1-2倍的性能优势。

✨PAI-Model Gallery持续提供开源社区热门模型快速部署、训练、评测实践,并提供Qwen3全尺寸模型、DeepSeek-R1等模型的云上一键部署方案,满足用户多样化的模型需求。

NVIDIA Cosmos 是一个世界基础模型(WFMs, world foundation models)开发平台,用于推动物理 AI 的发展,包含先进的视觉标记器、护栏以及加速视频数据处理工具管线。它专为加速智能驾驶汽车和机器人领域的合成数据生成、AI 模型训练与评估而设计。

本篇文章介绍 Cosmos 最新世界基础模型 Cosmos Reason-1 如何在阿里云人工智能平台PAI上进行快速部署使用。

Cosmos Reason-1 模型简介

Cosmos Reason-1 是一款可完全定制的多模态 AI 推理模型,它专门为理解运动、物体交互以及时空关系而构建。基于思维链(Chain-of-thought, CoT)推理,Cosmos Reason-1 模型可以解读视觉输入、根据给定的提示词预测结果、并奖励最佳决策。

该模型基于真实世界的物理规律实现推理,从而生成清晰且能够感知上下文环境的自然语言回复。Cosmos Reason-1 能够通过充当判别器或对海量视觉数据进行标注,从而增强合成数据管理能力。

Cosmos Reason-1-7B 基于 Qwen2.5-VL 使用物理常识和具身推理数据进行后训练,并使用了监督微调(SFT)和强化学习(RL)技术。

更多关于 Cosmos Reason-1 模型的介绍,您可访问:

PAI-Model Gallery 简介

阿里云 PAI-Model Gallery 已同步接入 Cosmos Reason-1 模型,提供企业级部署方案。

PAI-Model Gallery 是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域。通过 PAI 对这些模型的适配,用户可以以零代码方式实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。

PAI-Model Gallery 访问地址:pai.console.aliyun.com/#/quick-sta…

✅ 零代码一键部署

✅ 自动适配云资源

✅ 部署后开箱即用 API

✅ 全流程运维托管

✅ 企业级安全 数据不出域

PAI 一键部署Cosmos Reason-1

⬇️ 极简流程 立即体验 ⬇️

    在 PAI-Model Gallery 模型广场找到 Cosmos Reason-1-7B 模型,或通过链接直达该模型:pai.console.aliyun.com/?regionId=c…

    在模型详情页右上角点击「部署」,在选择计算资源后,即可一键完成模型的云上部署。

    部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。

    使用推理服务:您可以使用 API 调用模型服务,也可以使用 PAI 平台提供的 WebUI 界面与模型交互。

模型实测

我们使用NVIDIA官网提供的视频案例来测试模型。视频中一个人正在往杯子中倒牛奶,我们给模型的问题是“视频中的人将牛奶倒入杯中,下一步最合理的动作是什么?” 模型的回答展示出模型考虑到了人物下一步动作的各种可能性,甚至考虑到了倒完牛奶放好奶瓶后,用勺子搅拌牛奶和咖啡,最后模型在进行了一番深入思考后得出了结论,下一步是“将奶瓶放回到台面上”。

从这个例子可以看出,模型准确地“理解”了视频中人的动作并给出了正确的预测,这种对运动、物体交互以及时空关系的理解及预测能力,当前一般的语言模型是难以做到的,而且模型输出了完整的思维链,让我们能清楚地知道模型的整个思考过程。

下面附上完整的视频、输入问题、模型输出结果,供大家参考。

Coming Soon:NVIDIACosmos Reason-1 tools 模型后训练最佳实践

通过上面的例子我们已经可以看出 Cosmos Reason-1 模型的强大之处,此外,NVIDIA 本次除了开源 Cosmos Reason-1 模型,也开放了 Cosmos Reason-1 tools,包括模型后训练脚本(SFT + RL)。这就意味着,用户可以根据自身数据定制自己的 Cosmos Reason-1 模型,相信这会吸引众多开发者和企业定制自己的 physical AI 模型。

我们也第一时间测试了 Cosmos Reason-1 tools 的性能表现。在 Qwen2.5-32B-Instruct 模型 + gsm8k数据集(Batch size = 2,048)组合上进行后训练测试,相比开源框架verl,Cosmos Reason-1 tools 在小规模集群上实测有1-2倍的性能优势。

PAI平台将在近期集成 Cosmos Reason-1 tools 模型后训练能力,欢迎您持续关注。

更多模型支持

除 Cosmos Reason-1 模型外,PAI-Model Gallery 持续提供开源社区热门模型快速部署、训练、评测实践。

推理性能提升,相同时延约束下,吞吐能提升492%;相同吞吐情况下, 首 token 时延直降86%,token 间时延直降69%。

联系我们

欢迎各位小伙伴持续关注使用 PAI-Model Gallery,平台会不断上线 SOTA 模型,如果您有任何模型需求,也可以联系我们。您可通过搜索钉钉群号(79680024618),加入 PAI-Model Gallery 用户交流群。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

NVIDIA Cosmos 阿里云PAI 世界基础模型 多模态AI 模型部署
相关文章