50条数据解锁空间智能，RL视觉语言模型3D空间推理框架MetaSpatial

关注前沿科技 2025-03-22 15:49 北京

丢掉SFT，捡起RL

MetaSpatial团队投稿
量子位 | 公众号 QbitAI

在三维空间理解任务中，让视觉语言模型（VLM）生成结构合理、物理一致的场景布局仍是一项挑战。以“请将这些家具合理摆放在房间中”为例，现有模型尽管能够识别图像中的物体，甚至给出语义连贯的布局描述，但通常缺乏对三维空间结构的真实建模，难以满足基本的物理约束与功能合理性。

为了解决这一问题，已有研究尝试采用多智能体交互（multi-agent interaction）方法，通过多个语言模型或代理之间的迭代协商与验证优化布局结果。然而，这类方法不仅计算成本高，而且在迭代过程中容易陷入死锁，导致无法收敛至有效解。

另一类方法则通过构建大规模真实房间布局的描述语料，结合监督微调（Supervised Fine-Tuning, SFT）对模型进行训练。这种方式可以在一定程度上提升模型基础能力，但受到空间任务本身的限制：空间布局任务不存在唯一的标准答案。对于同一个输入，合理的三维布局可以有多种形式，因此以单一ground truth为监督信号的SFT方法无法全面覆盖可能的合理解空间，限制了模型的泛化能力与生成多样性。

针对这一挑战，西北大学计算机系与基础模型与生成式AI中心的研究人员潘震宇 (Zhenyu Pan) 以及其导师刘晗 (Han Liu) 提出了核心问题：是否可以通过规则驱动的强化学习策略，为视觉语言模型注入空间推理能力？

三维布局任务具备强化学习适用的若干关键特性：

不存在标准解，目标是生成符合约束的多样性解；

缺乏精确标注，导致监督信号稀缺；

存在可程序化检测的目标函数，如物体重叠、越界、功能逻辑合理性等。

强化学习（Reinforcement Learning）通过奖励函数（reward function）而非依赖人工标注，引导模型在与环境交互中不断优化策略。这使其天然适用于空间布局这类缺乏唯一标准答案、解空间复杂多样的任务。近年来，结合规则奖励机制的强化微调范式（Reinforcement Fine-Tuning, RFT）已在结构化任务中取得显著成果，如文本生成、数学推理、代码理解等，典型代表包括DeepSeek-R1和OpenAI o1。

然而，在三维空间推理这一融合视觉、语言与结构理解的多模态任务中，这一策略仍未被充分探索。

为此，他们提出了MetaSpatial框架。该方法首次将基于规则奖励的RFT策略成功迁移至视觉语言模型（VLMs）的空间布局场景中，在仅使用约50条无ground truth数据的条件下，即可显著提升模型的空间推理能力与布局生成质量。

具体而言，MetaSpatial构建了一套可程序化评估的奖励函数，衡量布局结构是否合理、是否满足物理约束，以及是否符合用户偏好。同时引入多轮布局 refinement 机制，引导模型在训练过程中逐步优化空间决策。借助这一策略，模型无需依赖大规模标注数据，即可学习到具备泛化能力与结构适应性的空间推理策略。

实验结果显示，MetaSpatial在多个空间生成指标上显著优于传统SFT方法，充分验证了基于规则奖励的强化学习在三维空间智能建模中的有效性与通用性。

MetaSpatial：引入R1突破3D空间推理壁垒

MetaSpatial 将训练3D空间推理过程建模为一个多轮决策过程，其基本形式是：给定一组多模态输入，模型通过一系列推理步骤生成结构化布局输出，并基于可程序化评估的奖励信号进行策略优化。

输入与输出形式

在每一轮交互中，MetaSpatial的输入包括：

场景图像或房间结构图；

房间的几何尺寸信息（长、宽、高）；

用户提供的偏好描述（如功能用途、风格要求等）；

需要布局的目标物体列表（包含物体类型、状态等）。

模型输出为两个部分：

语言化的推理过程：记录模型在布局时的决策理由；

结构化布局 JSON：每个物体的三维坐标位置（x, y, z）和名称等，作为布局结果。

<think>The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:
1. **Kitchen Island**: Place it centrally ...2. **Hanging Pot Rack**: Hang it above ......Let's compute the positions:- **Kitchen Island**: (3, 2.5, 0.45)- **Hanging Pot Rack**: (3, 2.5, 0.65)...Now, let's generate the JSON output.</think>
<answer>[{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......]</answer>

该布局JSON文件既作为最终输出，也作为强化学习中的环境状态，用于评估和反馈。

奖励函数与惩罚机制设计

为了衡量布局结果的好坏，MetaSpatial构建了三级奖励信号，分别从结构合法性、物理合理性和主观偏好三个维度评价模型输出：

1. 格式奖励（Format Reward）

检查输出的 JSON 是否完整；

所有目标物体是否都被覆盖；

每个物体是否都包含完整的空间参数（x/y/z 坐标、尺寸、方向等）。

2. 物理奖励（Physics Reward）

利用输出中的几何信息重建场景；

计算是否存在物体之间的重叠（collision）；

检查物体是否越界、浮空或违反场景边界；

对不满足物理约束的比例部分施加惩罚。

3. 物理奖励（Physics Reward）

将输出布局通过脚本用Blender渲染为三维场景图；

输入至 GPT-4o 进行审美评分；

综合评分其物理一致性、美学质量与用户偏好匹配度。

{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0},  'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0},  'layout_and_furniture': {'mean': 5.0, 'std': 0.0}, 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0},  'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最终奖励为三者的加权组合，提供连续型反馈信号，以供强化学习优化使用。

Trajectory 生成与多轮布局优化

与传统一次性生成不同，MetaSpatial 在训练阶段采用multi-turn rollout策略，允许模型对布局结果进行多轮 refinement：

初始布局生成后，模型可查看自己生成的坐标结构与得分；

根据奖励反馈进行布局更新并重复多轮；

每一轮的输入、输出、奖励构成一条布局轨迹（trajectory）；

多轮优化后选取最终布局作为当前 episode 的最终结果。

这种机制不仅提高了模型的布局能力，也为策略训练提供了更多的高质量决策路径。

策略优化：基于 GRPO 的强化学习训练

为实现稳定、高效的策略更新，MetaSpatial引入了Group Relative Policy Optimization（GRPO）。与常规的策略梯度方法不同，GRPO 不依赖于单条轨迹进行更新，而是利用同一输入样本生成的多条trajectory作为一个group进行比较性学习。

具体过程如下：

对于每组输入，执行多次layout generation，得到若干个轨迹；

比较这些候选轨迹的奖励得分，计算相对优势；

根据组内得分排序结果，优化策略网络，使高奖励轨迹的概率增加，低奖励轨迹的概率下降；

避免了对某一“绝对最优”解的依赖，提升了学习过程的稳定性与策略的泛化能力。

借助GRPO，MetaSpatial能够在样本极少（如仅50条无标注数据）的情况下，稳定学得适应性强的空间决策能力。

MetaSpatial实验结果

1. Qwen2.5 的 7B 和 3B 两个视觉语言模型（VLM）都从 MetaSpatial 框架中受益，但其中 7B 模型的性能提升更加显著。相比之下，3B 模型仍然在输出格式的生成方面存在困难，比如无法始终保持与输入一致的物体数量和名称，或是未能为所有物体持续稳定地提供完整的三维坐标（x, y, z）。

2. 实验结果表明，MetaSpatial 能够有效提升Qwen2.5-VL的3B和7B 模型的空间布局能力，但其中7B模型的提升更加明显。具体表现为：随着训练的进行，7B模型能够生成更长、更稳定、结构更清晰的响应，而3B模型的输出则表现出较大的不一致性，其响应长度波动较大，最小值和最大值之间频繁跳变，显示出在保持输出格式一致性方面的困难（例如：物体数量正确、结构化空间坐标完整等）。相比之下，7B模型的响应更加稳定，这也进一步印证了一个趋势：规模更大的模型在强化学习驱动的空间推理任务中更具适应能力。

3. 在“RL-Before vs RL-After”的对比实验中，MetaSpatial 框架在提升模型三维空间推理能力方面的效果得到了清晰体现。强化学习训练前，模型生成的物体布局普遍混乱、错位，且常出现物体漂浮、重叠或放置在不符合物理规律的位置等问题。训练后，生成的布局则变得更加结构化、逼真，并且在语义上更加连贯，表现出更强的空间感知能力、物体对齐能力以及功能合理性。

这些结果进一步强化了一个核心结论：强化学习能够有效优化视觉语言模型的空间推理策略，使其具备更自然、更实用的三维场景生成能力，可广泛应用于如元宇宙、AR/VR 以及游戏开发等多种现实场景中。

总结

总的来说，MetaSpatial的贡献主要有下面四部分：

提出 MetaSpatial 框架：提出了 MetaSpatial，第一个基于强化学习（RL）的三维空间推理框架，使视觉语言模型（VLMs）能够在无需复杂后处理的情况下直接生成结构合理的三维场景。

引入多轮布局优化机制与 GRPO 策略：设计了一种多轮布局 refinement 机制，结合 Group Relative Policy Optimization（GRPO）方法，使模型能通过多次调整与推理路径，学习更具泛化性与适应性的空间推理能力。

构建三重奖励体系：设计了一套结构化评估体系，涵盖格式检测、物理合理性检测与基于渲染的视觉评价，为强化学习提供自适应、可扩展的奖励信号。

验证方法有效性：在多种模型和空间场景上进行的实验证明，MetaSpatial 能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量。

目前，项目已全面开源，包含训练代码、评测流程、数据集生成脚本以及完整的数据集。

项目地址： https://github.com/PzySeere/MetaSpatial

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

学术投稿请于工作日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

MetaSpatial团队投稿
量子位 | 公众号 QbitAI

MetaSpatial：引入R1突破3D空间推理壁垒

输入与输出形式

奖励函数与惩罚机制设计

Trajectory 生成与多轮布局优化

策略优化：基于 GRPO 的强化学习训练

MetaSpatial实验结果

总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

MetaSpatial团队 投稿量子位 | 公众号 QbitAI

MetaSpatial：引入R1突破3D空间推理壁垒

输入与输出形式

奖励函数与惩罚机制设计

Trajectory 生成与多轮布局优化

策略优化：基于 GRPO 的强化学习训练

MetaSpatial实验结果

总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签

MetaSpatial团队投稿
量子位 | 公众号 QbitAI