量子位 03月20日
北大智源人形机器人智能体 Being-0:互联网视频+少量真机数据,迈向自主具身智能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智源研究院、北京大学卢宗青团队发布了名为Being-0的全新人形机器人通用智能体。该研究提出了模块化的分层端到端架构,整合了具身大模型与人形机器人的运动、导航及灵巧操作,使机器人能够像人类一样进行复杂推理,并在物理世界中自主完成长程任务。Being-0的训练仅需互联网视频和少量真机数据,降低了成本。该智能体在真实环境中展现出高效性和可靠性,成功执行了搬运、抓取、制作咖啡等任务,为人形机器人走向现实生活奠定了基础。

🤖 Being-0采用了模块化的分层架构,由通用智能和具身技能组成,实现了任务规划、导航和灵巧操作的协同执行。上层的基础大模型负责任务规划和推理,中层的视觉语言模型(VLM)结合语言和机器人视觉输入理解具身场景,底层则是模块化技能库,包含运动和操作技能。

🗺️ Being-0的VLM模型能够利用海量的第一人称视频数据进行学习,学会闭环的视觉导航策略,使人形机器人能够稳定导航、找对目标,并通过学习视频中的任务指令和技能,预测正确的原子技能,大幅提高执行效率和成功率。

🖐️ Being-0采用全尺寸人形机器人,搭载灵巧手和主动视觉,能实现人类级别的灵活操作。机器人可以主动调整头部视角,提高环境感知能力,并使用多指灵巧手完成稳定的抓取、放置和灵巧的工具操作。

关注前沿科技 2025-03-18 19:54 北京

通用智能+具身技能

Being团队 投稿
量子位 | 公众号 QbitAI

首个集运动、导航、灵巧操作于一体的人形机器人通用智能体来了,来自智源研究院、北京大学卢宗青团队。

这项新研究名为Being-0,提出了模块化的分层端到端架构,将具身大模型与人形机器人的运动、导航、灵巧操作无缝集成,使机器人能够像人类一样进行复杂推理,在物理世界中穿梭,并自主完成长程任务

更重要的是,Being-0实现这些功能,仅需要互联网视频+少量真机数据

Be like:

Being,请拿我的纸杯去咖啡机做一杯意式浓缩。

让人形机器人真正走入现实生活

要让人形机器人真正融入现实生活、成为人类生活工作的助手,不仅需要成熟的运动控制和灵巧操作技能,更需要智能的任务规划与执行能力,实现自主、高效的长程任务执行。

然而,这面临两大难题:

    如何让机器人“想”得对?——智能体需从人类的海量数据中学习通用、可泛化的任务理解和推理能力;

    如何让机器人“做”得准?——智能体要能够控制机器人本体,在复杂环境中实现可靠的技能规划与衔接,稳定地进行运动导航、灵巧操作。

Being-0提出了一套模块化的分层架构来实现人形机器人智能体,成功实现了机器人任务规划、导航、灵巧操作的协同执行,并在真实环境中验证了其高效性和可靠性。

具体来说,模块化的端到端分层架构由通用智能+具身技能组成:

互联网视频+少量真机数据,高效训练智能体

将基础大模型的任务规划(如“取桌上的咖啡杯”)转换为底层技能的执行并非易事。主流的VLA模型需要采集大量真实机器人的数据以实现泛化性,成本极高。而让基础大模型直接规划调用原子技能库,在人形机器人上面临两个难题:

Being-0提出的VLM模型模块能够利用低成本、海量的第一人称视频数据进行学习,成为衔接基础大模型和底层技能库的桥梁:

在基础大模型和VLM的加持下,模块化技能库只需要少量遥操作数据即可训练短程的原子技能,每个技能仅需约100条轨迹,显著降低数据需求。

实现人类级别的灵巧操作

Being-0采用全尺寸人形机器人,搭载灵巧手+主动视觉,能实现人类级别的灵活操作。

就像这样,主动调整头部视角,提高环境感知能力,并使用多指灵巧手完成稳定的抓取、放置和灵巧的工具操作。

此外,团队实现了将VLM和底层技能库全部部署于机器人端,实现高效实时的任务响应,最小化对网络和外部算力的依赖。

高成功率的长任务推理与执行

Being-0还在多项真实世界长程任务中表现卓越,在大场地的办公生活场景中实现了自主地搬运篮筐、抓取水瓶、制作咖啡等能力。

实验结果验证了:

Being-0的VLM设计提供了高效、高成功率的技能规划和导航能力,使长程任务成功率远超基线方法。

Being-0主动视觉的设计显著增强了任务完成度,使导航、操作更加灵活高效。

Being团队

Being团队由来自北京大学、智源研究院以及智在无界的研究人员组成。

Being-0作为首个集运动、导航、灵巧操作于一体的人形机器人智能体,成功打通了任务规划-导航-操作的闭环控制,开启人形机器人研究和应用的新篇章。

团队表示,目前正在持续迭代人形机器人的具身大模型、全身运动控制、灵巧操作等能力,在未来让机器人智能体涌现更强的自主能力和泛化性。

论文链接:https://arxiv.org/abs/2503.12533

项目主页:https://beingbeyond.github.io/being-0

—  —


学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你



一键关注 👇 点亮星标

科技前沿进展每日见


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人形机器人 通用智能体 具身智能
相关文章