PaperAgent 前天 20:03
仅用图像也能Think:Google等提出一种视觉规划的全新推理范式!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了视觉规划(Visual Planning)这一新型AI推理范式,它通过纯视觉表示进行规划,避免了传统方法中语言的冗余。研究团队提出了基于强化学习的视觉规划框架VPRL,该框架通过GRPO算法优化视觉策略模型,并在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中取得了显著优于传统语言推理方法的效果。这项研究为AI在空间和几何信息处理方面的应用提供了新的思路,并展示了视觉规划的潜力。

🖼️ **视觉规划的核心理念**:视觉规划是一种全新的AI推理范式,它使用图像序列进行规划,类似于人类的视觉思维,避免了对文本的依赖,尤其适用于处理空间和几何信息相关的任务。

💡 **VPRL框架的构建**:研究团队提出了VPRL(通过强化学习进行视觉规划)框架。该框架利用自回归大型视觉模型在视觉导航任务中生成图像,并通过GRPO算法训练视觉策略模型,实现与目标对齐的视觉规划。

⚙️ **VPRL框架的训练流程**:VPRL的训练分为两个阶段:首先通过随机游走生成的轨迹初始化模型,并通过监督学习训练模型生成有效的视觉状态序列;然后,利用强化学习进一步优化模型,引入GRPO算法和基于进度的奖励函数,提升规划效率。

🏆 **实验结果与优势**:实验在FROZENLAKE、MAZE和MINIBEHAVIOR等视觉导航任务中,比较了视觉规划方法与语言推理方法。结果表明,VPRL在所有任务中表现最佳,显著优于其他方法,验证了视觉规划的有效性。

2025-05-25 21:24 湖北

语言并不总是推理的最自然或最有效的模态,特别是在涉及空间和几何信息的任务中。基于此,剑桥&Google等提出并开源了一种新的范式——视觉规划(Visual Planning),它通过纯视觉表示进行规划,独立于文本。

在这个范式中,规划是通过图像序列来执行的,这些图像序列在视觉领域编码了逐步推理的过程,类似于人类如何绘制草图或可视化未来的行动。

推理范式的比较。 传统方法(上两行)会生成冗长且不准确的文字计划,而视觉规划范式(最下行)则直接预测下一个视觉状态,形成了一个纯粹的图像轨迹,无需语言中介。

引入了一个新颖的强化学习框架——通过强化学习进行视觉规划(VPRL),该框架通过GRPO对大型视觉模型进行后训练。

提出的VPRL框架概览,通过自回归大型视觉模型在视觉导航任务的背景下展示图像生成,使用GRPO训练视觉策略模型,利用促进进展行为并惩罚无效行为的进展奖励,实现与目标对齐的视觉规划。

FROZENLAKE: 这是一个随机的网格世界,代理需要从指定的起始位置出发,找到一条安全的路径到达目的地,同时避免掉入“冰洞”。

MAZE: 给定一个描述迷宫布局的初始图像,模型需要从起点(绿色点)出发,穿过迷宫到达终点(红色旗帜)。

实验选择了三个视觉导航任务:FROZENLAKE、MAZE和MINIBEHAVIOR,这些任务都可以通过视觉表示进行规划。

比较了视觉规划方法(VPFT和VPRL)与语言推理方法(如Gemini 2.5 Pro和Qwen 2.5-VL-Instruct-3B)。VPRL在所有任务中表现最佳,显著优于其他方法。

    https://arxiv.org/pdf/2505.11409

    https://github.com/yix8/VisualPlanning

    Visual PlanningLet’s Think Only with Images

    推荐阅读


      欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      视觉规划 AI推理 强化学习 VPRL GRPO
      相关文章