20个样本，搞定多模态思维链！UCSC重磅开源：边画框，边思考

新智元报道

编辑：LRST

【新智元导读】GRIT能让多模态大语言模型（MLLM）通过生成自然语言和图像框坐标结合的推理链进行「图像思维」，仅需20个训练样本即可实现优越性能！

现有开源多模态推理模型（Multimodal Reasoning Model）生成的推理链几乎都是纯自然语言，缺少对图像信息的显式引用与整合。

让多模态大语言模型（MLLM）既能条理清晰的思考，又能真正将推理过程「落到画面」上，在实现上仍然存在两个难点：

1. 全是自然语言的思考内容看似很长，其内容有可能脱离图像信息，不一定能真正「看图说话」；

2. 教会模型新的看图思考方式动辄要成千上万条有标注的数据，门槛极高。

针对此问题，加州大学圣克鲁斯分校的研究人员提出了GRIT (Grounded Reasoning with Images & Texts) 模型，具有高关联和轻量级的特性。

论文地址：https://arxiv.org/abs/2505.15879

代码链接：https://github.com/eric-ai-lab/GRIT

在线Demo：https://grounded-reasoning.github.io/

· 高关联

模型可以在思考链里随时插入框坐标，实现真正的「图像思维」（Thinking with Images）。

GRIT采用的Grounded Reasoning范式，一次模型推理，[x1,y1,x2,y2]框直接织进思考链，实现「思路和证据同步」，所想即所见。

· 轻量级

其训练方法GRPO-GR具备三重奖励（答案、格式、框），实现零人工标注，仅用20张图像与问答的训练数据就能教会模型画框+推理。

GRIT二板斧

Grounded Reasoning

Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上，目标是把二者深度融合：

让模型在「想」（生成推理链）的同时「指」（输出精准框坐标），从而让「慢思考」不再停留在纯自然语言，而是真正做到 「所见即所想，所想即所指」。

给模型一张图和问题，会一次性返回两段式结果 (c, a)：

推理链c—以开头，模型边写自然语言，边在需要时插入[x1,y1,x2,y2]形式的框坐标，之后引导的重思考将进一步整合框坐标对应的图像信息；

最终答案a—在标签后给出答案。

在c的生成过程中，模型每一步都可以自由决定是继续写文字还是生成一个框坐标。

输出框坐标后，模型不会再回读对应像素，而是继续token输出，要求模型理解并利用框坐标信息，融入后续推理，就像模型给自己出了一道Referring Expression Generation（REC）任务一样。

Grounded Reasoning范式通过只传递数字坐标，避免了裁剪图像或多轮回输信息的计算开销，流程轻量。

在此范式之下模型的输出里的框坐标可以直接画出，成为其推理的「看图」依据，读者既能读到它的思考，也能顺着坐标直接验证图中证据。

GRPO-GR训练
为了让模型在极小的数据量下就学会画框来辅助推理，GRIT 采用了专门的强化学习方法GRPO-GR

它在GRPO的基础上，引入三个奖励信号来直接驱动策略 π_θ 生成符合 grounded reasoning 范式的序列。

格式奖励 (r_format)信号检查模型输出的整体结构是否合规：

是否正确使用、等特殊标记；

插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。通过惩罚任何格式错误，模型很快学会在文字与坐标之间灵活、规范地切换。

计数奖励 (r_count)：对于要求回答某物体数量的问题，计数奖励的信号鼓励模型的输出要数量上符合答案，最好一个框对应一个相关物体。

r_count对比推理链里框的个数与真实答案中的数量：二者一致即得分，否则扣分；可以让模型在标记目标时兼顾完整性，避免多框、漏框或随意画框。

答案正确性奖励 (r_ans)：最终答案是否答对，由GPT-4o进行语义评估并结合BLEU相似度给分。这样的「老师」对自然语言表述具有强鲁棒性，避免模型钻格式空子，也进一步降低了人工评判成本。

得益于这三重奖励的协同作用，GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目、图像和最终答案。

在实践中，即便训练集只有20条数据，模型依旧能够稳定学到「边框边想」的行为，并在多项基准测试上取得亮眼表现。

实验结果：20 条样本即可「看得准、想得对」

准确性评测
Qwen-2.5-VL-3B和InternVL-3-2B作为基座模型，只用来自VSR+TallyQA的共20张图-问题-答案和GRIT方法训练。

在6个测试集中，用GRIT方法，模型推理结果的准确性（ACC）相对于没有经过训练的基线明显提高。而基线模型表现出割裂的定位与推理能力，他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。

即使GRPO-GR训练中没有包含任何对画框的位置的训练信号，测试结果现实框的准确性（GroundingIOU， i.e.GIoU）也在用GRIT方法后得到了提升。

推理与画框相互关联
研究人员提出了VL Reasoning Cross-Modal Correlation来衡量推理链中的文字与框区域的对齐程度。

结果显示，用GRIT方法的模型输出的内容更好的融合了推理与画框：框住什么，就谈什么。
另外，在用GRIT方法的模型中，把推理链里的框坐标全部抹掉，再让模型继续生成。

结果显示，后续生成的推理内容对图像的注意力会大幅下降，说明画出的框能进一步促进推理。

数据规模效应
研究人员进一步将训练数据扩大，20到500，再增长到7000。

结果表明，随着数据规模的增加，模型准确率虽可以进一步提高，但跨领域泛化依旧是难点。
即使同类训练数据增加，在与训练域差异较大的测试集上模型提升依然有限，提示未来需要更丰富、更异质的训练数据，而不只是「更多同类题」。

即便是极小样本设置，GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力，并且画框和推理在模型输出中相辅相成；进一步放大数据规模，则带来渐进式收益，并揭示了跨域推理的新挑战。

参考资料：

https://arxiv.org/abs/2505.15879

文章原文

新智元报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签