智元机器人发布机器人世界模型开源平台可完成做三明治、倒茶等任务

Cnbeta 5小时前

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

智元机器人发布了行业首个机器人世界模型开源平台Genie Envisioner（GE）。该平台创新性地打破了传统“数据—训练—评估”的割裂模式，首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，实现了机器人从“看”到“想”再到“动”的端到端推理与执行。GE平台通过构建统一的视频生成世界模型，将数据收集、模型训练、策略评估等环节集成，其核心组件GE-Base、GE-Act和GE-Sim协同工作，完成了从语言指令到视觉空间的映射，并已成功应用于“做三明治”、“倒茶”等实际任务。

💡 GE平台的核心创新在于其闭环架构，整合了未来帧预测、策略学习和仿真评估，实现了机器人“看、想、动”的端到端推理与执行，突破了传统流水线模式的局限性。

🚀 GE平台通过构建统一的视频生成世界模型，将数据收集、模型训练、策略评估等分散环节集成到一个闭环系统中，提高了效率和整合度。

🧠 GE平台由三大核心组件构成：GE-Base负责解析环境空间布局与动作意图，GE-Act实现从“看懂”到“会做”的转化，GE-Sim则作为动作条件的神经仿真器，实现精确的视觉预测。

📊 GE平台基于超百万条数据和约3000小时的真实机器人操控视频数据进行训练，建立了从语言指令到视觉空间的直接映射，完整保留了机器人与环境交互的时空信息。

8月14日，智元机器人正式发布行业首个机器人世界模型开源平台——Genie Envisioner（简称GE）。该平台突破传统“数据—训练— 评估”割裂的流水线模式，宣称首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构，使机器人能在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

据介绍，GE平台通过构建统一的视频生成世界模型，将数据收集、模型训练、策略评估等分散环节集成到闭环系统中。其核心组件GE-Base经超百万条数据训练，可精准解析环境空间布局与动作意图；GE-Act动作解码器则实现从“看懂”到“会做”的关键转化；GE-Sim则将GE-Base的生成能力扩展为动作条件的神经仿真器，通过层次化动作条件机制实现精确的视觉预测。三大组件紧密协作，构成完整的视觉中心机器人学习平台。

依托约3000小时的真实机器人操控视频数据，GE建立了从语言指令到视觉空间的直接映射，完整保留了机器人与环境交互的时空信息。

值得一提的是，由智元机器人主办的智启具身论坛近日在2025世界人工智能大会（WAIC）举行。论坛上，智元机器人合伙人、具身业务部总裁姚卯青以飞机架构为喻，形象解析了GE平台的核心逻辑：“机身”GE-Base经过海量机器人真机数据训练，具备长程、多视角的视频生成能力；两侧的“双翼”则分别指向World Action Model和Action-conditioned World Model。

在真实测试中，搭载GE-Act的机器人已能完成“做三明治”“倒茶”“擦桌面”等多项任务。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签