SafeVLA ：面向开放世界的具身安全创新路径丨周日直播·具身智能读书会

集智俱乐部 2025-03-06 18:35 上海

3月9日下午14:00开始直播

导语

最近，具身智能机器人领域的一系列突破震惊了全球。从Unitree人形机器人在春晚表演二人转，到波兰街头机器人“遛”机器狗的趣味场景，这些案例不仅展示了机器人与人类在物质和精神层面深度交互的潜力，也将人机交互中的安全问题推到了风口浪尖。如何在确保安全的前提下，让机器人真正走入人类社会，已成为亟待解决的关键问题。

主讲人介绍

张柏荣，北京大学人工智能研究院2025级直博生，导师为杨耀东助理教授，研究方向为具身智能对齐，重点专注具身VLA大模型的Post-training，在CCF-A类顶级学术会议（NeurIPS，ICLR等）与期刊（JMLR）发表多篇论文。谷歌学术引用1000余次，成果被OpenAI 、Meta、图灵奖获得者Yoshua Bengio等引用，被MIT Tech Review报道。主导开发的Safety-Gymnasium和OmniSafe两个GitHub开源库累计收获1.3K+星，被北京大学、清华大学、加州大学伯克利分校、卡内基梅隆大学等国内外知名科研机构用作基准环境和算法框架。

主题内容

本分享以VLA模型的安全性为出发点，关注走向开放世界的具身安全，介绍首个VLA具身大模型安全建模算法SafeVLA，并讨论具身安全性的场景、挑战与技术路径。

本次分享的主要内容如下：

背景：走向开放世界的具身安全

现状：VLA对齐技术的现状

方法：SafeVLA如何解决安全负样本建模与数据稀缺的挑战

未来：安全性的Sim-2-Real | 动态环境下的VLA安全性

分享内容简介

当前，视觉-语言-动作模型（VLAs）正通过赋予机器人理解多模态指令并在现实环境中执行任务的能力，彻底革新机器人技术。然而，这些模型的广泛应用也伴随着显著的安全隐患，包括对环境、机器人硬件以及人类的潜在危害。具身安全的场景与约束如何定义？模型是否已经具备讨论安全性的能力？可靠安全性保障潜在的挑战有哪些？

大模型时代下的具身安全需要基于开放世界进行定义。理想的通用机器人，需要基于有限的传感器感知，在完全开放的环境中接收指令并进行决策，这要求模型的设计当中具有显式的安全性保障，能够处理与任务无关的广义安全约束（如针对环境、物体、机器人自身硬件）及与任务有关的动态安全约束（如语言指令、人机交互）。

VLA模型的安全对齐结合物理安全措施将成为其走向现实应用的最后一公里。由于模型的可解释性和统计学习建模安全性带来的局限，模型的安全性还需要结合可靠的物理屏障（如紧急情况下的硬件限制），确保模型在高维意图和物理行为上的安全。

本次分享关注VLA模型的安全性挑战。从团队提出的SafeVLA算法出发，介绍其如何解决了现有传统VLA模型中安全建模的缺失问题，并在各种对抗性干扰叠加的场景中展现出极高的鲁棒性。进而讨论走向开放世界的具身安全所面临的挑战、机遇与技术路径。

分享大纲

走向开放世界的具身安全

具身安全的历史渊源：从constrained motion planning和safe reinforcement learning视角出发

VLA的训练技术对比与剖析

SafeVLA：首个VLA具身大模型安全建模算法

VLA模型面临的安全性挑战

场景与安全约束定义

如何解决安全负样本建模与数据稀缺的挑战

未来挑战探讨：

安全性的Sim-2-Real gap

动态场景下的具身安全

报名参与

参与时间：

2025年3月9日下午14:00-16:00

报名参与读书会：

https://pattern.swarma.org/study_group_issue/860?from=wechat

扫码参与「具身智能」读书会，加入群聊，获取系列读书会回看权限，与社区的一线科研工作者沟通交流，共同探索具身智能这一前沿领域的发展。

涉及到的参考文献

具身安全的历史渊源：

Kingston Z, Moll M, Kavraki L E. Sampling-based methods for motion planning with constraints[J]. Annual review of control, robotics, and autonomous systems, 2018, 1(1): 159-185.

Brunke L, Greeff M, Hall A W, et al. Safe learning in robotics: From learning-based control to safe reinforcement learning[J]. Annual Review of Control, Robotics, and Autonomous Systems, 2022, 5(1): 411-444.

安全强化学习：

Ji J, Zhang B, Zhou J, et al. Safety gymnasium: A unified safe reinforcement learning benchmark[J]. Advances in Neural Information Processing Systems, 2023, 36: 18964-18993.

Ji J, Zhou J, Zhang B, et al. Omnisafe: An infrastructure for accelerating safe reinforcement learning research[J]. Journal of Machine Learning Research, 2024, 25(285): 1-6.

VLA仿真建模：

Kolve E, Mottaghi R, Han W, et al. Ai2-thor: An interactive 3d environment for visual ai[J]. arXiv preprint arXiv:1712.05474, 2017.

Ehsani K, Gupta T, Hendrix R, et al. SPOC: Imitating Shortest Paths in Simulation Enables Effective Navigation and Manipulation in the Real World[J]. arXiv preprint arXiv:2312.02976, 2023.

VLA模型对齐的现状：

Hu J, Hendrix R, Farhadi A, et al. Flare: Achieving masterful and adaptive robot policies with large-scale reinforcement learning fine-tuning[J]. arXiv preprint arXiv:2409.16578, 2024.

Zhang Z, Zheng K, Chen Z, et al. Grape: Generalizing robot policy via preference alignment[J]. arXiv preprint arXiv:2411.19309, 2024.

SafeVLA项目主页：https://sites.google.com/view/pku-safevla

具身智能读书会启动

集智俱乐部联合上海交通大学助理教授李永露、银河通用机器人合伙人史雪松、南京大学LAMDA组博士生陈雄辉、香港大学在读博士生穆尧，共同发起首季「具身智能」读书会。读书会计划采用“自下而上”的层级结构，探讨四个核心模块：硬件系统（机器人本体设计），数据、仿真环境与Benchmark，机器人学习，具体场景任务。希望通过重点讨论经典、前沿的重要文献，帮助大家更好地学习机器人与具身智能技术前沿技术，为相关领域的研究和应用提供洞见。

读书会从2025年1月19日开始，每周日14:00-16:00，持续时间预计 6-8 周左右。每周进行线上会议，与主讲人等社区成员当面交流，之后可以获得视频回放持续学习。

详情请见：具身智能读书会启动：走向现实世界的下一代AI系统

点击“阅读原文”，报名读书会

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签