模拟大脑功能分化！北大与港中文发布Fast-in-Slow VLA，让“快行动”和“慢推理”统一协作

2025-07-12 10:12 北京

北大与港中文联合发布 Fast-in-Slow（FiS-VLA）模型，实现快慢系统一体化的设计

作者简介：由来自北京大学、香港中文大学、北京智源研究院、智平方的老师同学联合研究，作者包括博士生陈浩、刘家铭、顾晨阳、刘卓洋，通讯作者为北京大学仉尚航。北京大学 HMI 实验室长期致力于具身智能和多模态学习领域的研究，欢迎关注。

快执行与慢思考：

在机器人操控领域，实现高频响应与复杂推理的统一，一直是一个重大技术挑战。近期，北京大学与香港中文大学的研究团队联合发布了名为 Fast-in-Slow（FiS-VLA）的全新双系统视觉 - 语言 - 动作模型。不同之前的快慢系统 VLA 方法需要初始化 / 引入一个全新的快速执行模块，该方法通过将快速执行模块嵌入预训练视觉 - 语言模型（VLM）中，实现快慢系统一体化的设计。同时，针对双系统设计了异构模态输入与异步运行频率的策略，使得 FiS-VLA 既能实现快速动作生成，也具备慢思考能力。该方法在多个仿真与真机平台上取得了优异表现。最令人瞩目的是，FiS-VLA-7B 可以实现高达 117.7Hz 的控制频率，大幅领先于现有主流方案，展示了其广阔的实际应用潜力。

论文链接:

https://arxiv.org/pdf/2506.01953

项目主页:

https://fast-in-slow.github.io/

代码链接:

https://github.com/CHEN-H01/Fast-in-Slow

PKU HMI 实验室主页：

https://pku-hmi-lab.github.io/HMI-Web/index.html

研究背景与挑战：

机器人操作系统的目标是在复杂环境中，依据传感器输入和语言指令，生成精确有效的控制信号。虽然近年来大规模的视觉 - 语言模型（VLMs）因其强大的预训练能力被引入到机器人领域，但其庞大的模型参数和较慢的推理速度，限制了其在高频控制任务中的实用性。

为此，一些研究引入 Kahneman 的 “双系统理论”：系统 1 代表快速、直觉式的决策系统，系统 2 代表缓慢但深度推理的系统。在这一理论的启发下，已有方法尝试构建双系统结构，即使用 VLM 作为系统 2 进行任务级理解，再使用额外的策略头（系统 1）进行动作预测。但现有设计中两个系统相对独立，无法充分共享系统 2 的预训练知识，导致协同效率低下，系统 1 缺乏对系统 2 语义推理结果的充分利用。

Fast-in-slow VLA (如何在慢系统中分化出执行模块)

FiS-VLA 提出一种创新结构，将 VLM 的末端几层 Transformer 模块直接重构为系统 1 执行模块，嵌入原有系统 2 内部，形成一个统一的高效推理与控制模型。系统 2 以低频率处理 2D 图像和语言指令，输出指导特征；系统 1 以高频率响应实时感知输入（状态、图像和点云），实现高效动作生成。

此外，FiS-VLA 采用双系统感知协同训练策略，一方面利用扩散建模增强系统 1 的动作生成能力，另一方面保留系统 2 的高维语义推理能力，确保整体推理执行的互补性。模型在超 86 万条轨迹的大规模机器人数据集上预训练，并在多个现实任务中微调优化，显著提升了任务完成率和控制频率。

1. 架构设计：FiS-VLA 基于 Prismatic VLM 架构，主要包括以下模块：视觉编码器（结合 SigLIP 与 DINOv2 两种视觉编码器）、轻量级 3D tokenizer（处理点云并共享视觉编码器提取空间特征）、大语言模型（使用 LLaMA2-7B，并将其最后 n 层 Transformer 模块重用于系统 1），以及若干 MLP 模块（用于模态融合和扩散建模）。系统 1 直接嵌入系统 2 中的高维表示空间，使其能继承预训练知识并实现高频执行，整个系统构成 “快中有慢、慢中有快” 的协同结构。

2. 双系统协作：FiS-VLA 的结构由两个组成部分构成：一个慢速的系统 2 和一个快速的系统 1，这一设计灵感来源于 Kahneman 提出的双系统理论。在 FiS-VLA 中，系统 2 会处理与任务相关的视觉观测（如图像）和语言指令，并将其转化为高维特征，这些特征来自大语言模型（LLM）的中间层。借鉴 “动作块化” 的方法，FiS-VLA 认识到在时间步 t 的输入可以为未来若干步的动作生成提供指导，因此 FiS-VLA 将系统 2 的中间层输出作为一个潜在的条件信号，为接下来的 H 步系统 1 的动作生成提供约束。相较而言，系统 1 专注于实时动作生成，它在每一个时间步上运行，接收当前的感知输入并输出动作，同时也利用周期性更新的来自系统 2 的高维语义理解结果。这样的行为模式类似于人类的直觉反应，使得系统 1 成为一个高频率的动作生成模块。为了使两个系统协同工作，FiS-VLA 研究了它们之间的运行频率比例，并在消融实验中测试了不同的动作预测视野，实质上是在探索系统 2 每运行一次，系统 1 应连续运行多少步。在训练阶段，FiS-VLA 采用异步采样的方式控制系统 2 的运行频率，使得系统 1 能够保持动作生成过程的时间一致性。

另外，FiS-VLA 采用异构模态输入设计。由于系统 1 与系统 2 在职责上存在根本差异，FiS-VLA 为其设计了异构的输入模态。系统 2 主要承担任务理解与语义推理的工作，作为一个在互联网上以图文数据大规模预训练而来的模型，它最适合接收语言指令与 2D 图像，以充分激发其语义建模能力。系统 1 则用于实时生成机器人动作，因此必须接收全面、低延迟的感知信息输入，包括当前时刻的 2D 图像、机器人的自身状态（如关节、位置等），以及通过相机参数从深度图还原出的 3D 点云信息。特别是 3D 信息对于识别空间关系与实现精细操作至关重要。最终，系统 1 会将这些输入模态与系统 2 输出的高维特征共同融合，作为条件输入进行动作生成。

3.FiS-VLA 双系统协同训练：系统 1 以扩散建模为核心，注入带噪动作作为训练变量，实现连续性动作生成；系统 2 则采用自回归预测保留推理能力，这两个训练目标联合优化 FiS-VLA。训练采用跨平台大规模轨迹数据（约 860K 条轨迹），并在微调阶段引入子任务语言指令增强任务适应性。

精度、速度、泛化！

1. 仿真测试： FiS-VLA 在 RLBench 仿真任务中平均成功率为 69%，显著优于 CogACT（61%）与 π0（55%），在 10 项任务中 8 项居首。在控制频率上，其在动作块大小为 1 时达到 21.9Hz，是 CogACT 的 2 倍以上。

2. 真机测试：在真实机器人平台（Agilex 与 AlphaBot）中，FiS-VLA 在 8 项任务中平均成功率分别为 68% 与 74%，远超 π0 基线。在高精度操控任务如 “倒水”、“擦黑板”、“折毛巾” 等场景下展现显著优势。

3. 泛化能力：在泛化测试中，面对未见物体、复杂背景与光照变化，FiS-VLA 准确率下降幅度远小于 π0，验证其双系统架构对视觉扰动的鲁棒性。

4. 消融实验：消融实验表明，并非共享 Transformer 层数越多，系统 1 性能越强，在共享 Transformer 层数为 2 的时候，FiS-VLA 实现最佳性能；系统 1 接收机器人状态、图像与点云三种输入模态效果最佳；系统 1 和系统 2 协作的最佳频率比为 1:4；FiS-VLA 在不同 action chunk 值下性能稳定，而控制频率呈比例提升。特别当单步预测 8 个动作时，理论控制频率高达 117.7Hz；同时最后作者还研究了 FiS-VLA 的一系列变体（模型输入的变体）。