Cnbeta 5小时前
智元机器人发布机器人世界模型开源平台 可完成做三明治、倒茶等任务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智元机器人发布了行业首个机器人世界模型开源平台Genie Envisioner(GE)。该平台创新性地打破了传统“数据—训练—评估”的割裂模式,首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,实现了机器人从“看”到“想”再到“动”的端到端推理与执行。GE平台通过构建统一的视频生成世界模型,将数据收集、模型训练、策略评估等环节集成,其核心组件GE-Base、GE-Act和GE-Sim协同工作,完成了从语言指令到视觉空间的映射,并已成功应用于“做三明治”、“倒茶”等实际任务。

💡 GE平台的核心创新在于其闭环架构,整合了未来帧预测、策略学习和仿真评估,实现了机器人“看、想、动”的端到端推理与执行,突破了传统流水线模式的局限性。

🚀 GE平台通过构建统一的视频生成世界模型,将数据收集、模型训练、策略评估等分散环节集成到一个闭环系统中,提高了效率和整合度。

🧠 GE平台由三大核心组件构成:GE-Base负责解析环境空间布局与动作意图,GE-Act实现从“看懂”到“会做”的转化,GE-Sim则作为动作条件的神经仿真器,实现精确的视觉预测。

📊 GE平台基于超百万条数据和约3000小时的真实机器人操控视频数据进行训练,建立了从语言指令到视觉空间的直接映射,完整保留了机器人与环境交互的时空信息。

8月14日,智元机器人正式发布行业首个机器人世界模型开源平台——Genie Envisioner(简称GE)。该平台突破传统“数据—训练— 评估”割裂的流水线模式,宣称首次将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,使机器人能在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。


据介绍,GE平台通过构建统一的视频生成世界模型,将数据收集、模型训练、策略评估等分散环节集成到闭环系统中。其核心组件GE-Base经超百万条数据训练,可精准解析环境空间布局与动作意图;GE-Act动作解码器则实现从“看懂”到“会做”的关键转化;GE-Sim则将GE-Base的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的视觉预测。三大组件紧密协作,构成完整的视觉中心机器人学习平台。

依托约3000小时的真实机器人操控视频数据,GE建立了从语言指令到视觉空间的直接映射,完整保留了机器人与环境交互的时空信息。


值得一提的是,由智元机器人主办的智启具身论坛近日在2025世界人工智能大会(WAIC)举行。论坛上,智元机器人合伙人、具身业务部总裁姚卯青以飞机架构为喻,形象解析了GE平台的核心逻辑:“机身”GE-Base经过海量机器人真机数据训练,具备长程、多视角的视频生成能力;两侧的“双翼”则分别指向World Action Model和Action-conditioned World Model。


在真实测试中,搭载GE-Act的机器人已能完成“做三明治”“倒茶”“擦桌面”等多项任务。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智元机器人 Genie Envisioner 机器人世界模型 开源平台 具身智能
相关文章