夕小瑶科技说 04月21日
SeekWorld:一张图片知道你在哪?o3-like 7B模型超越一流开闭源模型!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

SeekWorld项目提出了一种新颖的地理定位推理任务,旨在提升多模态大语言模型(MLLMs)的视觉推理能力。该项目通过构建包含视觉线索跟踪推理的数据集和模型,让模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,从而确定图片拍摄的具体位置。SeekWorld-7B模型在测试中表现出色,超越了许多开闭源模型,并开源了数据集和Demo网站,欢迎大家参与测试和贡献。

🔍 SeekWorld项目专注于提升MLLMs的视觉推理能力,核心是“Visual Clue-Tracking”,即通过视觉线索跟踪推理来实现地理定位。

🗺️ 该项目构建了名为SeekWorld的强化学习数据集,包含丰富的视觉线索跟踪推理数据,用于训练MLLMs。数据集涵盖全球多样化场景,并针对RL优化了图像-标签对,还设置了分层难度架构。

💡 SeekWorld-7B模型是基于Qwen2.5-7B-VL-Instruct直接经过RL训练的模型,在测试中表现出色,超越了包括GPT4o和Gemini-2.0在内的多个模型。项目开源了数据集、模型和Demo网站,供用户体验和参与。

⚙️ SeekWorld-7B模型在RL训练中采用了难度采样和长度激励等优化策略,前者提高了测试准确率,后者则更好地展示了中间推理过程。项目也正在探索使用GRM进行更好的过程监督。

SeekWorld项目组 2025-04-21 18:16 北京

为了提高多模态大语言模型(MLLMs)的性能,近期一些方法尝试通过基于图像的数学任务、图表分析任务以及逻辑谜题任务来激活纯推理能力,而另一些方法则专注于通过传统的检测任务(如目标检测、计数和分割)来提升纯感知能力,同时也有一些工作希望在推理的时候实现文字形式的视觉内容重感知。但是目前都存在的缺陷是:MLLM 在视觉推理时候都只是纯文本的形式

o3 的出现,实现了在思维链中进行视觉推理,在推理同时借助工具可以动态操作图像(旋转、缩放或变换) 比如 “but I’ll zoom in a bit just to be absolutely sure!”,极大提高了推理过程中的感知能力,可以挖掘细节、模糊、容易被忽视的视觉线索,形成一条完整的视觉思考证据链。其中官方有一个非常有意思示例是通过一张图片定位到图片拍摄地区曾经拍摄过的电影,在这样的场景中我们需要挖掘视觉线索——推理——挖掘视觉线索——再推理...直至推理出最终结果。因此我们认为“Visual Clue-Tracking”很适合描述这个能力。

因此我们提出了一项新任务:地理定位推理(Geolocation Reasoning)这项任务在自然地提供准确位置标签的同时,要求模型在感知视觉信息的过程中,对视觉语义中的高级逻辑关系进行推理,最终实现位置的确定,非常适合实现 o3-like 的视觉线索跟踪推理。可以通过这些猜猜图片的在哪拍摄的游戏更深刻感受这一任务GeoGuess 和 TuXun。我们专门构建了一个用于地理定位的基于规则的强化学习数据集:SeekWorld

Github:https://github.com/TheEighthDay/SeekWorld
Huggingface模型(SeekWorld-7B):https://huggingface.co/TheEighthDay/SeekWorld_RL_PLUS
Huggingface 数据集:https://huggingface.co/datasets/TheEighthDay/SeekWorld
单位:人大和港科技

数据集中包含两个训练集,一个训练集(Train-Clue-Tracking)包含我们从 o3 搜集的 50(持续扩充中)条包含视觉线索跟踪推理的详细过程的数据,另外一个训练集(Train-No-Process)中是不含有视觉线索跟踪推理的 8541 条数据。前者可以用于进行 Cold-Start 的 SFT 训练,后者可以用于 RL 训练。此外包含两个测试集(Test-Global 和 Test-China)用于评测。

目前我们基于 Train-No-Process 和 Qwen2.5-7B-VL-Instruct 直接经过 RL 训练了一个专门的模型:SeekWorld-7B

目前,该模型超过了一众开闭源一流模型,包括不具备推理能力的(Doubao-1.5-vision-pro-32k-250115、GPT4o-240806)和具备推理能力的(QvQ-72B-max-2025-03-25、Gemini-2.0-flash-thinking-exp-01-21)。

目前我们在持续推进以下工作,欢迎关注我们的 Github:

    继续扩充 Cold-Start SFT 数据集的规模
    Cold-Start SFT (Train-Clue-Tracking) + RL (Train-No-Process)训练
    评估 o3 在 SeekWorld 上的效果
    评估不同感知与推理 benchmark 的效果

举个例子感受一下地理定位推理的魅力

首先感受一下 o3 的效果,猜猜下面图片拍摄在哪?

嗯,我考虑一下,可能需要放大右上角的标志,看看是否能清楚地看到中文字符或其他信息。我要把这个区域裁剪一下,以便能更好地读取信息。这样做应该有助于我更好地理解和解答用户的问题。

这个标志上有一些中文的艺术字体,我可以把下方裁剪一下,这样可以更清楚地看到剩余的部分。这样能够帮助我更好地理解标志上的信息,确保不会漏掉细节。

嗯,如果我现在就裁剪,可能会错过文本的部分。为了确保可以看到完整的信息,我考虑调整裁剪位置,确保包括顶部标志区域。这样可以更好地捕捉到所有的细节,避免遗漏任何需要查看的内容。

这张图片正是拍摄于中国重庆的洪崖洞景区~

下面是一张图片,看看我们通过 SeekWord-7B 模型的推理得到的结果:

这里正是云南的沙溪古镇,模型给出了详细推理的流程,并定位到了云南~

我们制作了一个 demo 网站,上传你的图片来试试吧!

网站地址:https://huggingface.co/spaces/TheEighthDay/SeekWorld_APP

PK 开闭源的一流模型

带有 🔒 标识的模型是专有闭源模型,而带有 🧠 标识的模型则具备增强的推理能力。我们采用(Reinforce++)作为 RL 算法。

我们目前尚未完成在 Train-Clue-Tracking 上的 Cold-Start SFT 训练,Direct SFT 和 Direct RL 分别指在 Train-No-Process 上直接进行 SFT 和 RL 训练。相比于 Qwen-2.5-7B-VL,SeekWorld-7B 在 RL 训练中尝试了两项优化。其中,难度采样有效地提高了测试的准确率。长度激励仅增加了推理过程的长度,而没有提高准确率。不过幸运的是,它能更好地展示中间推理过程。我们也在尝试使用 GRM 进行更好的过程监督.

    难度采样:我们在训练集中对不同难度级别的问题进行了采样。具体来说,由于数据集中难题数量相对较多(5655 道),我们将简单题(1945 道)和中等难度题(941 道)的数量翻倍,分别扩充到 3890 道和 1882 道。
    长度激励:我们尝试引入了一种鼓励增加推理长度的奖励机制。奖励值设定为字符数量乘以 0.001 ,奖励值最高为 1.0。

SeekWorld 数据集已经开源

数据集包含以下特点:

    包含视觉推理过程: 第一个包含 o3 模型视觉思维链或者视觉线索跟踪能力的数据集。
    全球多样化采样:涵盖了来自世界各地广泛的场景集合,确保模型能够对多样的文化、地形和背景环境实现强大的泛化能力。
    针对 rule-based RL 优化的图像-标签对:对于图片清洗了包含位置信息的水印,对于地理坐标标签增加了一级行政规划区的别名,防止模型被错误惩罚。
    分层难度架构:包含三个不同的推理难度层级——简单、中等和困难,以逐步挑战和评估模型在地理定位方面的能力。

Google Driver:https://drive.google.com/drive/folders/115X73SRULCYLKZqd3UHs4MIG3PI4BSkw?usp=sharing。
有关数据集的更多细节参考 Github 中内容。

贡献 SeekWorld 测试集

我们热烈欢迎参与到 SeekWorld 项目中来!如果您对地理定位推理感兴趣,您可以向我们发送一张具有挑战性的测试图片,以此来帮助我们构建一个更全面的评估数据集。 贡献方式如下:

    拍摄一张带有地理线索但又不是很容易就能识别出位置的照片(例如,街景、生活照片、建筑、自然景观)。
    确保该图片对应的是一个真实的地点(例如,具体到国家和一级行政区)。如果可能的话,请同时提供该地点的经纬度。并确保图片中不包含任何个人信息。
    请在邮件主题中注明:[SeekWorld Crowd Contribution]。然后将图片发送至我们的邮箱地址:tikibi001@163.com 。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SeekWorld 多模态大模型 视觉推理 地理定位
相关文章