IT之家 16小时前
可实现三重空间感知:Ai2 开源具身机器人 AI 模型 MolmoAct
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

研究机构Ai2在GitHub开源了其研发的MolmoAct机器人行动推理模型(ARM),旨在解决具身机器人在三维空间中的动作规划与理解难题。与仅依赖文字描述的传统视觉语言行动模型(VLA)不同,MolmoAct能够克服语言在表达三维环境深度和距离关系上的局限性。该模型通过生成包含几何结构和位置信息的空间感知Token,并在图像空间中生成路径点,最终将其转化为低层马达指令,实现高效精准的动作控制。MolmoAct在多项模拟测试中表现优异,成功率显著高于业界其他对照模型,且训练成本更低。此外,模型还支持用户可视化规划轨迹和手绘标注,提升了操作的安全性与可交互性。

🤖 MolmoAct模型突破了传统视觉语言行动模型(VLA)的局限,通过引入空间感知Token,能够更精确地理解三维空间中的距离和几何关系,为机器人提供更可靠的动作规划基础。这使得机器人能够更好地感知和处理复杂的物理环境。

📍 MolmoAct通过生成一系列图像空间中的路径点作为中间目标,直观地展示了动作的执行顺序,并将这些路径点转化为低层马达指令。这种分阶段的规划方式,使得机器人的动作更加有序和可控,易于实现复杂的任务。

📈 在SimplerEnv模拟测试中,MolmoAct-7B在未见过的新任务上取得了72.1%的成功率,优于多家知名科技实验室的模型。在LIBERO平台的终身学习测试中,通过高效微调,平均成功率更是提升至86.6%,展现了其强大的泛化能力和学习效率。

💰 MolmoAct在训练成本上具有显著优势,预训练仅需约1天,微调也仅需约2小时,且使用的H100 GPU数量相对较少。这使得研究和开发团队能够更快速、更经济地部署和优化机器人行动推理模型。

user MolmoAct在执行动作前,会将内部规划的运动轨迹叠加到输入图像上,并支持用户通过手绘标注目标姿态或路径。这种可视化和交互式设计,极大地降低了机器人操作风险,并提高了用户对机器人动作的可控性和可信度。

IT之家 8 月 16 日消息,研究机构 Ai2 现已在 GitHub 开源了旗下 MolmoAct 机器人“行动推理模型”(Action Reasoning Model,ARM)模型,该模型主要运用于具身机器人场景,号称可以解决机器人在三维空间中的动作规划与理解问题

据介绍,与传统仅依赖文字描述推导动作的视觉语言行动模型(VLA)不同,MolmoAct 旨在克服语言难以完整表达三维环境深度和距离关系的不足。因此 MolmoAct 在第一阶段会首先生成由 VQVAE 预训练得到的空间感知 Token,相应 Token 同时包含几何结构与位置信息,可用于评估物体间的距离,并为后续规划提供基础。

而在第二阶段,模型会在图像空间中生成一系列路径点,作为任务的中间目标,直观展示动作展开的顺序。第三阶段,路径点会被转化为机器人末端执行器或机械爪的低层马达指令,并根据机器人运动学配置进行动作解码。

研究团队指出,在名为 SimplerEnv 的模拟测试环境中,MolmoAct-7B 在训练集未见过的任务中达到了 72.1% 的成功率,优于 Physical Intelligence、谷歌、微软和英伟达等实验室的对照模型。在 LIBERO 模拟平台的多任务与终身学习测试中,经过高效参数微调,平均成功率提升至 86.6%。同时,相比业界 AI 机器人大模型,MolmoAct 的训练成本更低:预训练仅使用了 2630 万样本和 256 颗 H100 GPU,大约 1 天即可完成;微调则只需 64 颗 H100,约 2 小时即可完成。

此外,为降低机器人操作风险并提升可解释性,MolmoAct 在执行动作前会将内部规划的运动轨迹叠加到输入图像上,用户可以直接查看并修正动作方案。同时,用户还可以通过平板等设备使用手绘方式标注目标姿态或路径,模型会即时整合这些标注进行一系列调整。

目前,Ai2 已在 GitHub 同步开源了 MolmoAct-7B 的完整资源(https://github.com/allenai/MolmoAct),官方强调,这些资源与工具可以帮助其他研究团队在不同机器人平台和任务中充分验证与优化。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MolmoAct 具身机器人 行动推理 开源模型 人工智能
相关文章