IT之家 2024年12月30日
灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

灵初智能发布了首个基于强化学习的端到端具身模型Psi R0,该模型能够支持双灵巧手协同进行复杂操作,并实现多个技能的串联混训,生成具有推理能力的智能体,从而完成长程灵巧操作任务。Psi R0还具备跨物品、跨场景的泛化能力,例如在电商场景中,能够流畅完成商品抓取、扫码、放置和塑料袋打结等一系列动作。该模型通过海量仿真数据训练,并使用双向训练框架串联多技能,解决了奖励函数难设计的问题。后训练阶段,通过少量真机数据对齐,进一步提升长程任务成功率。

🤖 灵初智能发布了基于强化学习的具身模型Psi R0,该模型可以支持双灵巧手协同完成复杂的长程操作任务。

🤝 Psi R0模型通过双向训练框架串联多个技能,使其具备了推理能力,并能够自主切换技能,即使在操作失败时也能快速调整策略。

📦 该模型具备较强的泛化能力,能够跨物品、跨场景运行,例如在电商场景中,可以完成商品打包等一系列复杂操作,并能取代人工工位。

🎯 Psi R0 通过从物体时空轨迹抽象出关键信息构建通用目标函数,解决了传统强化学习中奖励函数难以设计的问题,并利用少量真机数据对齐,提升了长程任务的成功率。

IT之家 12 月 30 日消息,灵初智能发布首个基于强化学习(RL)的端到端具身模型 Psi R0

IT之家获悉,该模型支持双灵巧手协同进行复杂操作,将多个技能串联混训,生成具有推理能力的智能体,从而完成并闭环长程灵巧操作任务。并且,Psi R0 还可以实现跨物品、跨场景级别的泛化。

以电商场景为例,商品打包是典型的长程任务作业,需对上万件商品进行抓取,扫码,放置,塑料袋打结等多个操作。Psi R0 能够使用双灵巧手流畅地完成这一系列动作(官方称此系列动作在客户现场可以取代一个完整工位),成为首个基于强化学习训练完成长程灵巧操作任务的具身机器人。

官方表示,基于 RL 的 Psi R0 模型,使用海量仿真数据训练出双手操作的智能体,并通过双向训练框架串联多技能,在业界率先完成开放环境中的长程任务,具备较强的泛化能力与较高的鲁棒性(robustness)。

这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数,从而解决奖励函数难设计的问题。在后训练阶段,通过少量高质量真机数据对齐,进一步提升长程任务的成功率。

除此之外,双向训练框架中的转移可行性函数发挥着重要作用,它能够微调技能以提高串联的成功率与泛化性,同时赋予模型自主切换技能的能力,使其在遭遇操作失败时能够迅速调整策略,确保高成功率。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

具身模型 强化学习 灵巧操作 Psi R0 双向训练框架
相关文章