SeekWorld：一张图片知道你在哪？o3-like 7B模型超越一流开闭源模型！

SeekWorld项目组 2025-04-21 18:16 北京

为了提高多模态大语言模型(MLLMs)的性能，近期一些方法尝试通过基于图像的数学任务、图表分析任务以及逻辑谜题任务来激活纯推理能力，而另一些方法则专注于通过传统的检测任务（如目标检测、计数和分割）来提升纯感知能力，同时也有一些工作希望在推理的时候实现文字形式的视觉内容重感知。但是目前都存在的缺陷是：MLLM 在视觉推理时候都只是纯文本的形式。

o3 的出现，实现了在思维链中进行视觉推理，在推理同时借助工具可以动态操作图像(旋转、缩放或变换) 比如 “but I’ll zoom in a bit just to be absolutely sure!”，极大提高了推理过程中的感知能力，可以挖掘细节、模糊、容易被忽视的视觉线索，形成一条完整的视觉思考证据链。其中官方有一个非常有意思示例是通过一张图片定位到图片拍摄地区曾经拍摄过的电影，在这样的场景中我们需要挖掘视觉线索——推理——挖掘视觉线索——再推理...直至推理出最终结果。因此我们认为“Visual Clue-Tracking”很适合描述这个能力。

因此我们提出了一项新任务：地理定位推理(Geolocation Reasoning)。这项任务在自然地提供准确位置标签的同时，要求模型在感知视觉信息的过程中，对视觉语义中的高级逻辑关系进行推理，最终实现位置的确定，非常适合实现 o3-like 的视觉线索跟踪推理。可以通过这些猜猜图片的在哪拍摄的游戏更深刻感受这一任务：GeoGuess 和 TuXun。我们专门构建了一个用于地理定位的基于规则的强化学习数据集：SeekWorld。

Github：https://github.com/TheEighthDay/SeekWorld
Huggingface模型(SeekWorld-7B)：https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS
Huggingface 数据集：https://huggingface.co/datasets/TheEighthDay/SeekWorld
单位：人大和港科技

数据集中包含两个训练集，一个训练集(Train-Clue-Tracking)包含我们从 o3 搜集的 50(持续扩充中)条包含视觉线索跟踪推理的详细过程的数据，另外一个训练集(Train-No-Process)中是不含有视觉线索跟踪推理的 8541 条数据。前者可以用于进行 Cold-Start 的 SFT 训练，后者可以用于 RL 训练。此外包含两个测试集(Test-Global 和 Test-China)用于评测。

目前我们基于 Train-No-Process 和 Qwen2.5-7B-VL-Instruct 直接经过 RL 训练了一个专门的模型：SeekWorld-7B。

目前，该模型超过了一众开闭源一流模型，包括不具备推理能力的（Doubao-1.5-vision-pro-32k-250115、GPT4o-240806）和具备推理能力的（QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21）。

目前我们在持续推进以下工作，欢迎关注我们的 Github：

继续扩充 Cold-Start SFT 数据集的规模

Cold-Start SFT (Train-Clue-Tracking) + RL (Train-No-Process)训练

评估 o3 在 SeekWorld 上的效果

评估不同感知与推理 benchmark 的效果

举个例子感受一下地理定位推理的魅力

首先感受一下 o3 的效果，猜猜下面图片拍摄在哪？

嗯，我考虑一下，可能需要放大右上角的标志，看看是否能清楚地看到中文字符或其他信息。我要把这个区域裁剪一下，以便能更好地读取信息。这样做应该有助于我更好地理解和解答用户的问题。

这个标志上有一些中文的艺术字体，我可以把下方裁剪一下，这样可以更清楚地看到剩余的部分。这样能够帮助我更好地理解标志上的信息，确保不会漏掉细节。

嗯，如果我现在就裁剪，可能会错过文本的部分。为了确保可以看到完整的信息，我考虑调整裁剪位置，确保包括顶部标志区域。这样可以更好地捕捉到所有的细节，避免遗漏任何需要查看的内容。

这张图片正是拍摄于中国重庆的洪崖洞景区~

下面是一张图片，看看我们通过 SeekWord-7B 模型的推理得到的结果：

这里正是云南的沙溪古镇，模型给出了详细推理的流程，并定位到了云南~

我们制作了一个 demo 网站，上传你的图片来试试吧！

网站地址：https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP

PK 开闭源的一流模型

带有 🔒 标识的模型是专有闭源模型，而带有 🧠 标识的模型则具备增强的推理能力。我们采用(Reinforce++)作为 RL 算法。

我们目前尚未完成在 Train-Clue-Tracking 上的 Cold-Start SFT 训练，Direct SFT 和 Direct RL 分别指在 Train-No-Process 上直接进行 SFT 和 RL 训练。相比于 Qwen-2.5-7B-VL，SeekWorld-7B 在 RL 训练中尝试了两项优化。其中，难度采样有效地提高了测试的准确率。长度激励仅增加了推理过程的长度，而没有提高准确率。不过幸运的是，它能更好地展示中间推理过程。我们也在尝试使用 GRM 进行更好的过程监督.

难度采样：我们在训练集中对不同难度级别的问题进行了采样。具体来说，由于数据集中难题数量相对较多（5655 道），我们将简单题（1945 道）和中等难度题（941 道）的数量翻倍，分别扩充到 3890 道和 1882 道。

长度激励：我们尝试引入了一种鼓励增加推理长度的奖励机制。奖励值设定为字符数量乘以 0.001 ，奖励值最高为 1.0。