机器之心 10小时前
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LOVON框架融合大语言模型和开放词汇视觉检测,让足式机器人在动态非结构化环境中高效完成长程目标导航。它创新性地整合了LLM任务规划器、开放词汇视觉检测和语言-运动模型,实现了足式机器人在开放世界中对动态目标的长视野精准追踪,兼容主流平台,用「即插即用」的特性打破了传统机器人导航的场景限制。

🧠 LLM任务规划器:将长视野任务拆解为一系列连续子任务,并根据实际情况动态调整执行顺序,让机器人能有序完成复杂指令。

👁️ 开放词汇视觉检测:突破预定义类别限制,使机器人能识别各类目标,轻松适配日常场景,识别动态目标。

🏃‍♂️ 语言-运动模型(L2MM):将文字指令与视觉反馈转化为精确运动向量,精准控制机器人速度和方向,实现高效准确的运动控制。

🛡️ 抗干扰视觉处理:基于拉普拉斯方差滤波技术,自动过滤模糊图像帧,提升机器人运动状态下的目标检测稳定性。

🔄 自适应执行逻辑:应对目标丢失、指令更新、外力干扰等突发情况,机器人能自动切换搜索模式、衔接新任务、重新规划路径,保持任务执行能力。

2025-07-25 12:30 北京

打破传统机器人导航场景限制。

本文一作彭道杰,香港科技大学广州在读博士生;共同一作曹嘉航,北京人形机器人创新中心实习生;共同一作张强香港科技大学广州在读博士生,北京人形机器人创新中心学术委员会主任;通讯导师马骏,香港科技大学广州&香港科技大学助理教授。

在复杂的开放环境中,让足式机器人像人类一样自主完成先跑到椅子旁,再快速接近行人这类长程多目标任务,一直是 robotics 领域的棘手难题。传统方法要么局限于固定目标类别,要么难以应对运动中的视觉抖动、目标丢失等实时挑战,导致机器人在真实场景中常常迷路认错对象

香港科技大学广州联合北京人形创新中心重磅推出的 LOVON(Legged Open-Vocabulary Object Navigator)框架,为这一难题带来了创新性的解决方案。它首次将大语言模型(LLMs)的任务规划能力、开放词汇视觉检测的泛化能力,以及精准的语言 - 运动映射模型融合在一起,让足式机器人在动态、非结构化环境中也能高效完成长程目标导航,实现了足式机器人在开放世界中对动态目标的长视野精准追踪,兼容 Unitree Go2、B2、H1-2 等主流平台,用「即插即用」的特性打破了传统机器人导航的场景限制。


攻克开放世界导航难题,LOVON 强势登场

开放世界环境中的目标导航,对于机器人系统而言是一项艰巨且普遍存在的挑战。尤其是执行长视野任务时,不仅需要机器人具备开放世界物体检测能力,还需进行高级任务规划。传统方法往往难以有效整合这些关键组件,这极大地限制了它们应对复杂、长距离导航任务的能力。

LOVON 框架应运而生,它巧妙地将大型语言模型用于分层任务规划,并与开放词汇视觉检测模型深度融合,专为在动态、非结构化环境中实现高效的长距离目标导航而打造。面对真实世界中诸如视觉抖动、复杂环境以及目标临时丢失等棘手问题,LOVON 设计了专门的解决方案,例如用于视觉稳定的拉普拉斯方差滤波技术。同时,为机器人开发了一套功能性执行逻辑,确保 LOVON 在自主导航、任务适应以及稳健完成任务等方面具备强大的能力。

三大核心模块协同,构建智能导航闭环


LOVON 创新性地整合了三大核心模块,打通了语言 - 视觉 - 运动的闭环。

抗干扰视觉处理,解决画面抖动难题

足式机器人在运动过程中,机身的抖动常常导致获取的视觉画面模糊不清,这使得目标检测频繁失效,成为影响机器人导航性能的一大障碍。为了解决这一「看不清楚的老大难问题,LOVON 提出了基于拉普拉斯方差滤波技术。通过对图像清晰度特征进行深入分析,该技术能够自动识别并过滤掉模糊的图像帧,同时用最近的清晰帧进行替换。再配合滑动平均滤波,有效地将机器人有效检测帧的比例提升了 25%。

这一技术的应用,使得机器人在奔跑、上下楼梯等运动状态下,依然能够稳定地锁定目标,为后续的导航决策提供可靠的视觉信息。

自适应执行逻辑,赋予机器人随机应变能力

在复杂多变的真实世界中,机器人可能会面临各种突发情况,如目标突然丢失、指令发生更新或者受到外力干扰等。LOVON 的自适应执行逻辑为机器人应对这些情况提供了有力支持。当目标丢失时,机器人会自动切换至搜索模式,通过左右旋转扫描周围环境,迅速重新定位目标;当接收到新的指令时,能够无缝衔接并执行新任务,确保任务的连贯性;即便在受到外力碰撞等干扰时,也能快速重新规划路径,继续朝着目标前进。

这种随机应变的能力,让机器人在真实世界的复杂场景中能够保持稳定的任务执行能力,极大地提升了其适应性和可靠性。

从仿真到真实世界:多项指标刷新纪录

经过严格测试,LOVON 在仿真与真实环境中均展现出超越传统方法的性能:

GymUnreal 仿真环境:在停车场、城市街道、雪地村庄等多种复杂仿真场景中,LOVON 展现出了令人瞩目的性能。其成功率(SR)高达 1.00,大幅超越了传统方法,例如 EVT 的 0.94。而且,LOVON 在训练效率上也具有显著优势,仅需 1.5 小时即可完成训练,相比同类最优模型 TrackVLA 的 360 小时,效率提升了惊人的 240 倍。这表明 LOVON 不仅在任务执行的准确性上表现出色,还能在更短的时间内完成模型训练,为实际应用节省了大量的时间和资源。


真实世界:在 Unitree Go2、B2、H1-2 等不同足式机器人上,LOVON 实现了四大突破:


更为重要的是,LOVON 具备出色的即插即用特性,无需进行复杂的定制化改造,即可轻松部署于 Unitree Go2、B2、H1 - 2 等多种主流足式机器人平台,为家庭服务、工业巡检、野外科研等多个领域的实际应用提供了坚实的技术支撑。

推动足式机器人应用变革,开启智能服务新篇章

LOVON 框架的出现,犹如为足式机器人导航领域注入了一股强大的创新力量。它不仅填补了足式机器人开放词汇长视野导航的技术空白,更通过通用框架 + 轻量化部署的创新设计理念,为先进机器人技术从实验室走向广泛实际应用搭建了一座坚实的桥梁。

随着 LOVON 的不断推广和应用,我们有理由相信,足式机器人将在更多领域发挥重要作用,为人们的生活和工作带来更多便利和创新。无论是在智能家居环境中协助人们完成日常任务,还是在工业生产中实现高效的巡检和操作,亦或是在野外科研探索中提供可靠的支持,LOVON 都有望成为推动足式机器人应用变革的关键技术,开启智能服务的崭新篇章。

想了解更多关于 LOVON 的详细信息,可访问 LOVON 项目主页:https://daojiepeng.github.io/LOVON/ ,一同探索足式机器人导航的未来新趋势。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LOVON 足式机器人 导航 人工智能
相关文章