智元机器人重磅推出业内首个开源机器人世界模型平台Genie Envisioner (GE),该平台以统一视频生成世界模型为核心,构建了从感知、决策到执行的闭环系统。平台整合了未来帧预测、策略学习与仿真评估,实现了机器人端到端的智能处理。GE平台通过GE-Base模型解析环境与动作意图,GE-Act动作解码器转化为具体动作,GE-Sim神经仿真器进行精准视觉预测,三者协同高效运行。该平台基于超百万条机器人操控视频数据训练,成功实现了语言指令到视觉空间的直接映射,并已在制作三明治、倒茶等任务中展现出卓越的性能,预示着机器人智能交互和任务执行能力的巨大提升。
💡 GE平台的核心创新在于其闭环系统设计,以统一视频生成世界模型为中心,整合了未来帧预测、策略学习与仿真评估,使得机器人能够在一个模型内完成从感知环境、思考决策到执行动作的端到端处理,颠覆了传统机器人学习流程。
🚀 GE平台由三个关键组件构成:GE-Base模型负责解析环境布局与动作意图,其基于超百万条数据训练;GE-Act动作解码器将理解转化为具体动作指令;GE-Sim则作为基于动作条件的神经仿真器,利用分层机制实现精准视觉预测。三者协同工作,确保平台高效运行。
📊 智元机器人利用了约3000小时的真实机器人操控视频数据来训练GE平台,这些数据帮助平台建立了从语言指令到视觉空间的直接映射,完整保留了交互的时空信息,为模型的准确性和实用性打下了坚实基础。
✅ 在实际测试中,搭载GE-Act组件的机器人已成功完成了制作三明治、倒茶、擦拭桌面等多项复杂任务,这有力地验证了Genie Envisioner平台的强大性能,并展示了其在提升机器人智能交互和任务执行能力方面的巨大应用潜力。
快科技8月14日消息,据媒体报道,智元机器人正式推出业内首个开源的机器人世界模型平台——Genie Envisioner (GE)。
GE 平台颠覆了传统机器人学习流程,创新性地构建了一个以统一视频生成世界模型为核心的闭环系统。该系统整合了未来帧预测、策略学习与仿真评估,使机器人能够在单一模型中完成从感知环境、思考决策到执行动作的端到端处理。

平台的核心优势在于其无缝集成的闭环设计:GE-Base 模型基于超百万条数据训练,擅长解析环境布局与动作意图;GE-Act 动作解码器负责将理解转化为具体动作指令;而GE-Sim 则作为基于动作条件的神经仿真器,利用分层机制实现精准视觉预测。三者协同工作,驱动整个平台高效运行。
为构建这一强大平台,智元机器人利用了约3000小时的真实机器人操控视频数据。这些宝贵数据帮助 GE 建立了从语言指令到视觉空间的直接映射,完整保留了交互的时空信息,为模型的准确性和实用性奠定了坚实基础。
在实际测试中,搭载 GE-Act 组件的机器人已成功完成制作三明治、倒茶、擦拭桌面等多项任务。这有力验证了 GE 平台的性能,并展示了其在提升机器人智能交互与任务执行能力方面的广阔应用前景。
