SeekWorld项目组 2025-04-21 18:16 北京
为了提高多模态大语言模型(MLLMs)的性能,近期一些方法尝试通过基于图像的数学任务、图表分析任务以及逻辑谜题任务来激活纯推理能力,而另一些方法则专注于通过传统的检测任务(如目标检测、计数和分割)来提升纯感知能力,同时也有一些工作希望在推理的时候实现文字形式的视觉内容重感知。但是目前都存在的缺陷是:MLLM 在视觉推理时候都只是纯文本的形式。
o3 的出现,实现了在思维链中进行视觉推理,在推理同时借助工具可以动态操作图像(旋转、缩放或变换) 比如 “but I’ll zoom in a bit just to be absolutely sure!”,极大提高了推理过程中的感知能力,可以挖掘细节、模糊、容易被忽视的视觉线索,形成一条完整的视觉思考证据链。其中官方有一个非常有意思示例是通过一张图片定位到图片拍摄地区曾经拍摄过的电影,在这样的场景中我们需要挖掘视觉线索——推理——挖掘视觉线索——再推理...直至推理出最终结果。因此我们认为“Visual Clue-Tracking”很适合描述这个能力。
因此我们提出了一项新任务:地理定位推理(Geolocation Reasoning)。这项任务在自然地提供准确位置标签的同时,要求模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,最终实现位置的确定,非常适合实现 o3-like 的视觉线索跟踪推理。可以通过这些猜猜图片的在哪拍摄的游戏更深刻感受这一任务:GeoGuess 和 TuXun。我们专门构建了一个用于地理定位的基于规则的强化学习数据集:SeekWorld。
Github:https://github.com/TheEighthDay/SeekWorld
Huggingface模型(SeekWorld-7B):https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS
Huggingface 数据集:https://huggingface.co/datasets/TheEighthDay/SeekWorld
单位:人大和港科技
数据集中包含两个训练集,一个训练集(Train-Clue-Tracking)包含我们从 o3 搜集的 50(持续扩充中)条包含视觉线索跟踪推理的详细过程的数据,另外一个训练集(Train-No-Process)中是不含有视觉线索跟踪推理的 8541 条数据。前者可以用于进行 Cold-Start 的 SFT 训练,后者可以用于 RL 训练。此外包含两个测试集(Test-Global 和 Test-China)用于评测。
目前我们基于 Train-No-Process 和 Qwen2.5-7B-VL-Instruct 直接经过 RL 训练了一个专门的模型:SeekWorld-7B。
目前,该模型超过了一众开闭源一流模型,包括不具备推理能力的(Doubao-1.5-vision-pro-32k-250115、GPT4o-240806)和具备推理能力的(QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21)。
目前我们在持续推进以下工作,欢迎关注我们的 Github:
举个例子感受一下地理定位推理的魅力
首先感受一下 o3 的效果,猜猜下面图片拍摄在哪?
嗯,我考虑一下,可能需要放大右上角的标志,看看是否能清楚地看到中文字符或其他信息。我要把这个区域裁剪一下,以便能更好地读取信息。这样做应该有助于我更好地理解和解答用户的问题。
这个标志上有一些中文的艺术字体,我可以把下方裁剪一下,这样可以更清楚地看到剩余的部分。这样能够帮助我更好地理解标志上的信息,确保不会漏掉细节。
嗯,如果我现在就裁剪,可能会错过文本的部分。为了确保可以看到完整的信息,我考虑调整裁剪位置,确保包括顶部标志区域。这样可以更好地捕捉到所有的细节,避免遗漏任何需要查看的内容。
这张图片正是拍摄于中国重庆的洪崖洞景区~
下面是一张图片,看看我们通过 SeekWord-7B 模型的推理得到的结果:
这里正是云南的沙溪古镇,模型给出了详细推理的流程,并定位到了云南~
我们制作了一个 demo 网站,上传你的图片来试试吧!
网站地址:https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP
PK 开闭源的一流模型
带有 🔒 标识的模型是专有闭源模型,而带有 🧠 标识的模型则具备增强的推理能力。我们采用(Reinforce++)作为 RL 算法。
我们目前尚未完成在 Train-Clue-Tracking 上的 Cold-Start SFT 训练,Direct SFT 和 Direct RL 分别指在 Train-No-Process 上直接进行 SFT 和 RL 训练。相比于 Qwen-2.5-7B-VL,SeekWorld-7B 在 RL 训练中尝试了两项优化。其中,难度采样有效地提高了测试的准确率。长度激励仅增加了推理过程的长度,而没有提高准确率。不过幸运的是,它能更好地展示中间推理过程。我们也在尝试使用 GRM 进行更好的过程监督.
SeekWorld 数据集已经开源
数据集包含以下特点:
Google Driver:https://drive.google.com/drive/folders/115X73SRULCYLKZqd3UHs4MIG3PI4BSkw?usp=sharing。
有关数据集的更多细节参考 Github 中内容。
贡献 SeekWorld 测试集
我们热烈欢迎参与到 SeekWorld 项目中来!如果您对地理定位推理感兴趣,您可以向我们发送一张具有挑战性的测试图片,以此来帮助我们构建一个更全面的评估数据集。 贡献方式如下: