机器之心 22小时前
港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

香港科技大学广州与北京人形机器人创新中心联合推出的LOVON框架,革新了足式机器人在复杂开放环境中执行长程多目标任务的能力。该框架首次融合了大型语言模型(LLMs)的任务规划、开放词汇视觉检测以及语言-运动映射技术,使机器人在动态、非结构化场景下能精准追踪目标并高效导航。LOVON通过三大核心模块协同工作,解决视觉抖动、目标丢失等难题,并具备自适应执行逻辑,能在仿真及真实世界中展现出超越传统方法的性能,尤其在训练效率和开放世界适配性上表现突出。其“即插即用”的特性,为家庭服务、工业巡检等领域提供了强有力的技术支撑,有望推动足式机器人应用变革,开启智能服务新篇章。

🌟 **LLM任务规划器赋予机器人“思考”能力**:LOVON框架利用大型语言模型(LLMs)将复杂的长程任务(如“先跑到椅子旁,再快速接近行人”)分解为一系列可执行的子任务,并能根据实际情况动态调整任务顺序,使机器人在动态环境中能有条不紊地完成指令。

🎯 **开放词汇视觉检测实现广泛目标识别**:该框架突破了传统机器人仅能识别预设目标类别的限制,能够识别从“背包”、“盆栽”到“汽车”、“宠物”等各种物体,极大地增强了机器人在不同场景下的适应性和通用性。

💡 **语言-运动模型(L2MM)实现精准运动控制**:LOVON集成的L2MM模块能将文本指令和视觉反馈直接转化为精确的运动指令,控制机器人的速度和方向,实现“说走就走,说停就停”的即时响应,显著提升了任务执行的效率和准确性。

👁️ **抗干扰视觉处理确保稳定导航**:为解决机器人运动中的视觉抖动问题,LOVON采用了基于拉普拉斯方差滤波技术,能有效过滤模糊图像帧并替换为清晰帧,结合滑动平均滤波,将有效检测帧比例提升25%,确保在运动状态下也能稳定锁定目标。

🔄 **自适应执行逻辑应对复杂多变环境**:LOVON具备强大的“随机应变”能力,当目标丢失时能自动切换至搜索模式,接收新指令时能无缝衔接,即使受到外力干扰也能快速重新规划路径,保证了机器人任务执行的鲁棒性和可靠性。


本文一作彭道杰,香港科技大学广州在读博士生;共同一作曹嘉航,北京人形机器人创新中心实习生;共同一作张强香港科技大学广州在读博士生,北京人形机器人创新中心学术委员会主任;通讯导师马骏,香港科技大学广州&香港科技大学助理教授。


在复杂的开放环境中,让足式机器人像人类一样自主完成先跑到椅子旁,再快速接近行人这类长程多目标任务,一直是 robotics 领域的棘手难题。传统方法要么局限于固定目标类别,要么难以应对运动中的视觉抖动、目标丢失等实时挑战,导致机器人在真实场景中常常迷路认错对象


香港科技大学广州联合北京人形创新中心重磅推出的 LOVON(Legged Open-Vocabulary Object Navigator)框架,为这一难题带来了创新性的解决方案。它首次将大语言模型(LLMs)的任务规划能力、开放词汇视觉检测的泛化能力,以及精准的语言 - 运动映射模型融合在一起,让足式机器人在动态、非结构化环境中也能高效完成长程目标导航,实现了足式机器人在开放世界中对动态目标的长视野精准追踪,兼容 Unitree Go2、B2、H1-2 等主流平台,用「即插即用」的特性打破了传统机器人导航的场景限制。



论文:《LOVON: Legged Open-Vocabulary Object Navigator

LOVON 论文地址:  https://arxiv.org/pdf/2507.06747

项目地址:https://daojiepeng.github.io/LOVON/

代码地址:https://github.com/DaojiePENG/LOVON

视频地址:https://www.bilibili.com/video/BV1xh3ezJEJn/


攻克开放世界导航难题,LOVON 强势登场


开放世界环境中的目标导航,对于机器人系统而言是一项艰巨且普遍存在的挑战。尤其是执行长视野任务时,不仅需要机器人具备开放世界物体检测能力,还需进行高级任务规划。传统方法往往难以有效整合这些关键组件,这极大地限制了它们应对复杂、长距离导航任务的能力。


LOVON 框架应运而生,它巧妙地将大型语言模型用于分层任务规划,并与开放词汇视觉检测模型深度融合,专为在动态、非结构化环境中实现高效的长距离目标导航而打造。面对真实世界中诸如视觉抖动、复杂环境以及目标临时丢失等棘手问题,LOVON 设计了专门的解决方案,例如用于视觉稳定的拉普拉斯方差滤波技术。同时,为机器人开发了一套功能性执行逻辑,确保 LOVON 在自主导航、任务适应以及稳健完成任务等方面具备强大的能力。


三大核心模块协同,构建智能导航闭环



LOVON 创新性地整合了三大核心模块,打通了语言 - 视觉 - 运动的闭环。


LLM 任务规划器:如同为机器人赋予了人类般的思考能力,能够将长视野任务进行拆解。比如,它可以把先跑向椅子,再快速靠近行人这样的复杂指令,细致地分解为一系列连续的子任务,并根据实际情况动态调整执行顺序,让机器人能够有条不紊地完成复杂任务。

开放词汇视觉检测:突破了传统预定义类别的限制,使机器人能够识别从常见的 背包盆栽汽车宠物等各类丰富多样的目标。这一特性让机器人能够轻松适配日常生活中的各种场景,无论是在室内环境中寻找特定物品,还是在户外环境中识别动态目标,都能应对自如。

语言 - 运动模型(L2MM):该模块能够将文字指令与视觉反馈直接转化为精确的运动向量,从而精准地控制机器人的速度和方向。这意味着机器人可以根据接收到的指令,迅速做出反应,实现「说走就走,说停就停的精准运动控制,大大提高了任务执行的效率和准确性。


抗干扰视觉处理,解决画面抖动难题


足式机器人在运动过程中,机身的抖动常常导致获取的视觉画面模糊不清,这使得目标检测频繁失效,成为影响机器人导航性能的一大障碍。为了解决这一「看不清楚的老大难问题,LOVON 提出了基于拉普拉斯方差滤波技术。通过对图像清晰度特征进行深入分析,该技术能够自动识别并过滤掉模糊的图像帧,同时用最近的清晰帧进行替换。再配合滑动平均滤波,有效地将机器人有效检测帧的比例提升了 25%。


这一技术的应用,使得机器人在奔跑、上下楼梯等运动状态下,依然能够稳定地锁定目标,为后续的导航决策提供可靠的视觉信息。


自适应执行逻辑,赋予机器人随机应变能力


在复杂多变的真实世界中,机器人可能会面临各种突发情况,如目标突然丢失、指令发生更新或者受到外力干扰等。LOVON 的自适应执行逻辑为机器人应对这些情况提供了有力支持。当目标丢失时,机器人会自动切换至搜索模式,通过左右旋转扫描周围环境,迅速重新定位目标;当接收到新的指令时,能够无缝衔接并执行新任务,确保任务的连贯性;即便在受到外力碰撞等干扰时,也能快速重新规划路径,继续朝着目标前进。


这种随机应变的能力,让机器人在真实世界的复杂场景中能够保持稳定的任务执行能力,极大地提升了其适应性和可靠性。


从仿真到真实世界:多项指标刷新纪录


经过严格测试,LOVON 在仿真与真实环境中均展现出超越传统方法的性能:


GymUnreal 仿真环境:在停车场、城市街道、雪地村庄等多种复杂仿真场景中,LOVON 展现出了令人瞩目的性能。其成功率(SR)高达 1.00,大幅超越了传统方法,例如 EVT 的 0.94。而且,LOVON 在训练效率上也具有显著优势,仅需 1.5 小时即可完成训练,相比同类最优模型 TrackVLA 的 360 小时,效率提升了惊人的 240 倍。这表明 LOVON 不仅在任务执行的准确性上表现出色,还能在更短的时间内完成模型训练,为实际应用节省了大量的时间和资源。



真实世界:在 Unitree Go2、B2、H1-2 等不同足式机器人上,LOVON 实现了四大突破:


开放世界适配:它能够轻松识别从大型汽车到小型背包等各类大小不一、形态各异的目标,在完全陌生的环境中也能快速适应并执行任务,体现出了卓越的开放世界适配能力;

多目标长程追踪:在多目标长视野追踪任务中,LOVON 能够按照指令依次完成找椅子→找行人→找背包等复杂任务,整个过程流畅无中断,展现出了出色的任务规划和执行能力;

动态环境鲁棒性:在动态跟踪场景中,无论是在平坦道路上,还是在螺旋楼梯、杂草丛等复杂地形中,LOVON 都能稳定地跟随移动目标,例如在遛狗场景中准确跟随移动的人和宠物;

抗干扰能力:即便目标位置发生移动或者机器人自身受到碰撞等干扰,LOVON 依然能够快速重新锁定目标并继续完成任务,彰显了其强大的抗干扰能力。



更为重要的是,LOVON 具备出色的即插即用特性,无需进行复杂的定制化改造,即可轻松部署于 Unitree Go2、B2、H1 - 2 等多种主流足式机器人平台,为家庭服务、工业巡检、野外科研等多个领域的实际应用提供了坚实的技术支撑。


推动足式机器人应用变革,开启智能服务新篇章


LOVON 框架的出现,犹如为足式机器人导航领域注入了一股强大的创新力量。它不仅填补了足式机器人开放词汇长视野导航的技术空白,更通过通用框架 + 轻量化部署的创新设计理念,为先进机器人技术从实验室走向广泛实际应用搭建了一座坚实的桥梁。


随着 LOVON 的不断推广和应用,我们有理由相信,足式机器人将在更多领域发挥重要作用,为人们的生活和工作带来更多便利和创新。无论是在智能家居环境中协助人们完成日常任务,还是在工业生产中实现高效的巡检和操作,亦或是在野外科研探索中提供可靠的支持,LOVON 都有望成为推动足式机器人应用变革的关键技术,开启智能服务的崭新篇章。


想了解更多关于 LOVON 的详细信息,可访问 LOVON 项目主页:https://daojiepeng.github.io/LOVON/ ,一同探索足式机器人导航的未来新趋势。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LOVON 足式机器人 机器人导航 人工智能 大语言模型
相关文章