量子位 03月22日 18:19
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MetaSpatial框架通过强化学习,革新了视觉语言模型在三维空间推理方面的应用。该研究提出了一种基于规则奖励的强化学习方法,解决了传统监督学习在三维布局任务中的局限性。MetaSpatial构建了多轮布局优化机制和三重奖励体系,在少量数据下显著提升了模型生成三维场景的布局连贯性、物理一致性和整体质量,为元宇宙、AR/VR等应用提供了新的技术方案。

💡MetaSpatial框架的核心在于使用强化学习(RL)来训练视觉语言模型(VLM),使其在三维空间布局任务中无需复杂后处理即可生成结构合理的场景。

🔄MetaSpatial引入了多轮布局 refinement 机制,允许模型在训练过程中进行多轮优化,并结合Group Relative Policy Optimization (GRPO)策略,从而学习到更具泛化性和适应性的空间推理能力。

🏆框架设计了三重奖励体系,包括格式奖励、物理奖励和基于渲染的视觉评价,为强化学习提供了自适应、可扩展的奖励信号,以衡量布局结果的好坏。

🔬实验结果表明,MetaSpatial框架能够显著提升Qwen2.5-VL的3B和7B模型的空间布局能力,尤其是在7B模型上表现更为突出,生成的布局更结构化、逼真,且更符合物理规律。

关注前沿科技 2025-03-22 15:49 北京

丢掉SFT,捡起RL

MetaSpatial团队 投稿
量子位 | 公众号 QbitAI

在三维空间理解任务中,让视觉语言模型(VLM)生成结构合理、物理一致的场景布局仍是一项挑战。以“请将这些家具合理摆放在房间中”为例,现有模型尽管能够识别图像中的物体,甚至给出语义连贯的布局描述,但通常缺乏对三维空间结构的真实建模,难以满足基本的物理约束与功能合理性。

为了解决这一问题,已有研究尝试采用多智能体交互(multi-agent interaction)方法,通过多个语言模型或代理之间的迭代协商与验证优化布局结果。然而,这类方法不仅计算成本高,而且在迭代过程中容易陷入死锁,导致无法收敛至有效解。

另一类方法则通过构建大规模真实房间布局的描述语料,结合监督微调(Supervised Fine-Tuning, SFT)对模型进行训练。这种方式可以在一定程度上提升模型基础能力,但受到空间任务本身的限制:空间布局任务不存在唯一的标准答案。对于同一个输入,合理的三维布局可以有多种形式,因此以单一ground truth为监督信号的SFT方法无法全面覆盖可能的合理解空间,限制了模型的泛化能力与生成多样性。

针对这一挑战,西北大学计算机系与基础模型与生成式AI中心的研究人员潘震宇 (Zhenyu Pan) 以及其导师刘晗 (Han Liu) 提出了核心问题:是否可以通过规则驱动的强化学习策略,为视觉语言模型注入空间推理能力?

三维布局任务具备强化学习适用的若干关键特性:

强化学习(Reinforcement Learning)通过奖励函数(reward function)而非依赖人工标注,引导模型在与环境交互中不断优化策略。这使其天然适用于空间布局这类缺乏唯一标准答案、解空间复杂多样的任务。近年来,结合规则奖励机制的强化微调范式(Reinforcement Fine-Tuning, RFT)已在结构化任务中取得显著成果,如文本生成、数学推理、代码理解等,典型代表包括DeepSeek-R1和OpenAI o1。

然而,在三维空间推理这一融合视觉、语言与结构理解的多模态任务中,这一策略仍未被充分探索。

为此,他们提出了MetaSpatial框架。该方法首次将基于规则奖励的RFT策略成功迁移至视觉语言模型(VLMs)的空间布局场景中,在仅使用约50条无ground truth数据的条件下,即可显著提升模型的空间推理能力与布局生成质量。

具体而言,MetaSpatial构建了一套可程序化评估的奖励函数,衡量布局结构是否合理、是否满足物理约束,以及是否符合用户偏好。同时引入多轮布局 refinement 机制,引导模型在训练过程中逐步优化空间决策。借助这一策略,模型无需依赖大规模标注数据,即可学习到具备泛化能力与结构适应性的空间推理策略

实验结果显示,MetaSpatial在多个空间生成指标上显著优于传统SFT方法,充分验证了基于规则奖励的强化学习在三维空间智能建模中的有效性与通用性。

MetaSpatial:引入R1突破3D空间推理壁垒

MetaSpatial 将训练3D空间推理过程建模为一个多轮决策过程,其基本形式是:给定一组多模态输入,模型通过一系列推理步骤生成结构化布局输出,并基于可程序化评估的奖励信号进行策略优化。

输入与输出形式

在每一轮交互中,MetaSpatial的输入包括:

模型输出为两个部分:

    语言化的推理过程:记录模型在布局时的决策理由;

    结构化布局 JSON:每个物体的三维坐标位置(x, y, z)和名称等,作为布局结果。

<think>The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:
1. **Kitchen Island**: Place it centrally ...2. **Hanging Pot Rack**: Hang it above ......Let's compute the positions:- **Kitchen Island**: (3, 2.5, 0.45)- **Hanging Pot Rack**: (3, 2.5, 0.65)...Now, let's generate the JSON output.</think>
<answer>[{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......]</answer>

该布局JSON文件既作为最终输出,也作为强化学习中的环境状态,用于评估和反馈。

奖励函数与惩罚机制设计

为了衡量布局结果的好坏,MetaSpatial构建了三级奖励信号,分别从结构合法性、物理合理性和主观偏好三个维度评价模型输出:

1. 格式奖励(Format Reward)

2. 物理奖励(Physics Reward)

3. 物理奖励(Physics Reward)

{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0},  'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0},  'layout_and_furniture': {'mean': 5.0, 'std': 0.0}, 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0},  'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最终奖励为三者的加权组合,提供连续型反馈信号,以供强化学习优化使用。

Trajectory 生成与多轮布局优化

与传统一次性生成不同,MetaSpatial 在训练阶段采用multi-turn rollout策略,允许模型对布局结果进行多轮 refinement:

这种机制不仅提高了模型的布局能力,也为策略训练提供了更多的高质量决策路径。

策略优化:基于 GRPO 的强化学习训练

为实现稳定、高效的策略更新,MetaSpatial引入了Group Relative Policy Optimization(GRPO)。与常规的策略梯度方法不同,GRPO 不依赖于单条轨迹进行更新,而是利用同一输入样本生成的多条trajectory作为一个group进行比较性学习。

具体过程如下:

借助GRPO,MetaSpatial能够在样本极少(如仅50条无标注数据)的情况下,稳定学得适应性强的空间决策能力。

MetaSpatial实验结果

1. Qwen2.5 的 7B 和 3B 两个视觉语言模型(VLM)都从 MetaSpatial 框架中受益,但其中 7B 模型的性能提升更加显著。相比之下,3B 模型仍然在输出格式的生成方面存在困难,比如无法始终保持与输入一致的物体数量和名称,或是未能为所有物体持续稳定地提供完整的三维坐标(x, y, z)。

2. 实验结果表明,MetaSpatial 能够有效提升Qwen2.5-VL的3B和7B 模型的空间布局能力,但其中7B模型的提升更加明显。具体表现为:随着训练的进行,7B模型能够生成更长、更稳定、结构更清晰的响应,而3B模型的输出则表现出较大的不一致性,其响应长度波动较大,最小值和最大值之间频繁跳变,显示出在保持输出格式一致性方面的困难(例如:物体数量正确、结构化空间坐标完整等)。相比之下,7B模型的响应更加稳定,这也进一步印证了一个趋势:规模更大的模型在强化学习驱动的空间推理任务中更具适应能力。


3. 在“RL-Before vs RL-After”的对比实验中,MetaSpatial 框架在提升模型三维空间推理能力方面的效果得到了清晰体现。强化学习训练前,模型生成的物体布局普遍混乱、错位,且常出现物体漂浮、重叠或放置在不符合物理规律的位置等问题。训练后,生成的布局则变得更加结构化、逼真,并且在语义上更加连贯,表现出更强的空间感知能力、物体对齐能力以及功能合理性。




这些结果进一步强化了一个核心结论:强化学习能够有效优化视觉语言模型的空间推理策略,使其具备更自然、更实用的三维场景生成能力,可广泛应用于如元宇宙、AR/VR 以及游戏开发等多种现实场景中。

总结

总的来说,MetaSpatial的贡献主要有下面四部分:

    提出 MetaSpatial 框架:提出了 MetaSpatial,第一个基于强化学习(RL)的三维空间推理框架,使视觉语言模型(VLMs)能够在无需复杂后处理的情况下直接生成结构合理的三维场景。

    引入多轮布局优化机制与 GRPO 策略:设计了一种多轮布局 refinement 机制,结合 Group Relative Policy Optimization(GRPO)方法,使模型能通过多次调整与推理路径,学习更具泛化性与适应性的空间推理能力。

    构建三重奖励体系:设计了一套结构化评估体系,涵盖格式检测、物理合理性检测与基于渲染的视觉评价,为强化学习提供自适应、可扩展的奖励信号。

    验证方法有效性:在多种模型和空间场景上进行的实验证明,MetaSpatial 能显著提升模型在三维场景生成中的布局连贯性、物理一致性和整体质量。

目前,项目已全面开源,包含训练代码、评测流程、数据集生成脚本以及完整的数据集。

项目地址: https://github.com/PzySeere/MetaSpatial

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


学术投稿请于工作日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你



🌟 点亮星标 🌟

科技前沿进展每日见


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MetaSpatial 强化学习 3D空间推理 视觉语言模型
相关文章