2025-05-28 13:51 江苏
关注公众号,发现CV技术之美
UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning
,北航团队实现语言交互无人机控制新突破,开放场景真机实测成功!论文链接:https://arxiv.org/abs/2505.15725
项目主页:https://prince687028.github.io/UAV-Flow/
作者:王翔宇,杨东霖,廖越,郑文浩,戴彬,吴文俊,李鸿升,刘偲
单位:北航,北航国新院,新加坡国立大学,香港中文大学
近年来,无人机(UAV)凭借其灵活的空中机动能力,已成为视觉感知与任务执行的重要平台。随着自动化技术的不断发展,无人机的操作门槛大幅降低。然而,使无人机能够像“智能助手”一样理解并执行人类语言指令——例如仅通过一句“环绕着我飞”即可完成相应动作——仍是一个亟待突破的前沿难题。
现有研究主要聚焦于将地面机器人中的视觉语言导航(VLN)任务迁移至空中平台,着重解决基于语言指令的目标搜索和远程导航等高层级推理问题。然而,针对语言引导的无人机低层控制(如执行短距离的原子动作或响应简单指令)的研究仍不完善,成为实现真正智能无人机系统的关键挑战之一,也是当前尚未被充分探索的重要方向。
北航刘偲教授团队创新性地提出了语言引导的细粒度无人机轨迹控制研究框架,将无人机根据简短指令执行短距反应式飞行的任务定义为Flying-on-a-Word(Flow)范式。
该团队采用模仿学习方法,使无人机通过习得人类飞行员在真实环境中的操作策略来响应原子化语言指令,并成功实现了视觉语言动作(VLA)模型在真实无人机平台的部署,首次在开放场景中实现了基于自然语言对话的无人机飞行控制,标志着语言交互式无人机控制技术取得新突破。
任务定义
Flying-on-a-Word (Flow) 任务致力于实现自然语言指令与无人机精细飞行控制的高效对齐。在该任务框架中,无人机代理整合三种输入模态:自然语言指令、六自由度状态信息和第一视角视觉观测,生成符合指令语义的动作序列,模仿人类飞行员的操作。
为支持Flow任务的研究,研究团队构建了一个大规模的真实世界语言引导的无人机模仿学习数据集。该数据采集工作在三所高校校园内展开,覆盖总面积达5.02平方公里。
仿真评测基准
为建立统一的评估基准,研究团队构建了UAV-Flow-Sim仿真数据集,并在仿真闭环测试环境下对多个模型进行了系统评估,采用成功率(SR)和归一化动态时间规整(NDTW)等指标对飞行轨迹质量进行量化分析,具体测试结果如下。
真机部署
针对无人机机载计算资源受限的挑战,研究团队提出了一套地面站-无人机协作策略,并为缓解通信和推理延迟带来的控制滞后问题,提出具有前瞻机制的全局轨迹对齐算法,确保运动控制的连续性。
团队基于UAV-Flow真实世界数据集训练了Pi-0-UAV模型,在北航国新院的开放场景中成功实现了视觉语言动作(VLA)系统的真机部署,首次通过自然语言对话实时控制无人机完成指令任务。
demo展示:
更多真机飞行视频,详见项目主页:https://prince687028.github.io/UAV-Flow/
END
欢迎加入「无人机」交流群👇备注: