掘金 人工智能 07月02日 16:03
9B“小”模型干了票 “大” 的:性能超 8 倍参数模型,拿下 23 项 SOTA | 智谱开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI发布并开源了仅9B参数的视觉语言模型GLM-4.1V-9B-Thinking,该模型在多项评测中表现出色,尤其在10B级别模型中脱颖而出,甚至超越了8倍参数量的Qwen-2.5-VL-72B。其核心在于引入了思维链推理机制和课程采样强化学习,使其具备深度思考能力。GLM-4.1V-9B-Thinking不仅能理解图像内容、解答理科题目,还能进行超长视频解析、图文识别转换等多种复杂任务,并支持图文结合的智能问答。目前,该模型已开源,并提供多种体验方式。

🧠 GLM-4.1V-9B-Thinking 引入了思维链推理机制,使其能够像人类一样进行深度思考,从而在各种视觉任务中取得优异表现。

👁️‍🗨️ 该模型采用了三维卷积的视觉编码器,使其能够高效处理视频,并通过二维旋转位置编码和绝对位置嵌入,增强了对不同尺寸和清晰度图像的适应能力。

👩‍🏫 在训练方面,GLM-4.1V-9B-Thinking 经历了预训练、监督微调和课程采样强化学习三个阶段,通过双通道并行训练、样本拼接等技术,提升了模型处理复杂任务的能力。

💡 GLM-4.1V-9B-Thinking 具备多项实用功能,包括超长视频解析、智能读图问答、理科解题、图文识别转换、专业文档处理、图像定位标注、智能界面操作以及看图写代码等。

🚀 智谱AI对GLM-4.1V-9B-Thinking进行了开源,并提供了多种体验方式,包括论文、代码、模型库和API接口,方便用户进行研究和应用。

如果一个视觉语言模型(VLM)只会 “看”,那真的是已经不够看的了。

因为现在真实世界的任务简直不要太复杂,要想让 AI 干点实事儿,光有多模态还不够,必须还得有深度思考的强推理能力。

而就在刚刚,智谱发布并开源了一个仅 9B 大小的模型——GLM-4.1V-9B-Thinking,在 28 项评测中一举拿下 23 个 SOTA!

毫无悬念地成为 10B 级别里效果最好的 VLM 模型;而在 18 项评测中,它都可以与自身 8 倍参数量的 Qwen-2.5-VL-72B 一较高下,甚至是超越的程度。

整体来看,GLM-4.1V-9B-Thinking 之所以能够这般 “以小搏大”,核心原因就是会思考

引入了思维链(Chain-of-Thought)推理机制,并通过课程采样强化学习(RLCS,Reinforcement Learning with Curriculum Sampling)来全面提升模型能力。

值得一提的是,在智谱这次发布新模型之际,浦东创投集团和张江集团对其进行了 10 亿元投资,并将于近期完成首次交割。

评测是一方面,但也正如我们刚才提到的,现在的 AI“贵在”得能干点实事儿,那么 GLM-4.1V-9B-Thinking 具体 “疗效” 如何,我们继续往下看。

先看效果

例如我们在不给提醒的情况下,先 “喂”GLM-4.1V-9B-Thinking 一幅名画:

然后向它提问:

这幅画中哪些元素违背物理规律?艺术家可能通过这些矛盾表达什么哲学思想?

可以看到,GLM-4.1V-9B-Thinking 先是看出了这是西班牙超现实主义画家萨尔瓦多 · 达利创作的《记忆的永恒》;然后也道出了画作中存在违背物理的视觉符号等。

我们再让它看一眼今年高考的一道图文并茂数学真题,并附上一句 Prompt:

请帮我解决这个题目,给出详细过程和答案。

(PS:这道题很多大模型在之前都有出现过翻车。)

GLM-4.1V-9B-Thinking 在思考片刻过后,就会给出一个简洁且精准的答案——A

再如此前同样让一众大模型 “头疼” 的看时钟和日期问题,我们也让 GLM-4.1V-9B-Thinking 试一试:

看这张图,分别是什么时间和什么日期?

在同时处理两个易出错的问题时,GLM-4.1V-9B-Thinking 依旧是给出了相对准确答案(时间有一点小偏差,应该是 10 点 11 分):

以及还有生活中比较有趣且实用的例子——看手相

有懂手相的小伙伴,也可以留言讨论 GLM-4.1V-9B-Thinking 看得是否准确哦~

由此可见,GLM-4.1V-9B-Thinking 在 “边看边想” 这件事已经达到了普通人的水准。

整体而言,它现在的能力包括但不限于:

再看技术

在看完效果之后,我们再来聊聊 GLM-4.1V-9B-Thinking 背后的技术。

从 GLM-4.1V-9B-Thinking 的模型架构来看,主要包含三大块的内容,它们分别是:

视觉编码器就好比模型的 “眼睛”,团队给它选了 AIMv2-Huge 这个 “超级视力装备”。

一般的 “眼睛” 看视频用的是二维卷积,就像一张张照片,但 GLM-4.1V-9B-Thinking 这个 “眼睛” 换成了三维卷积,这样它就能像看电影一样,在时间维度上 “快进快退”,快速处理视频,效率大大提高。要是遇到静态图片,它就把图片多复制几份,假装是 “小短片”,保证输入格式统一。

为了让这个 “眼睛” 不管看到多宽多窄、多清晰的画面都能适应,团队还给它做了两个升级。

第一个是加了二维旋转位置编码,这就像给 “眼睛” 戴了一副 “特殊眼镜”,就算画面特别宽(宽高比超过 200:1),或者特别清晰(4K 以上分辨率),它也能稳稳地 “看清楚”。

第二个是保留了可学习的绝对位置嵌入,就像给 “眼睛” 记住每个画面位置的 “小本本”,在训练的时候,通过双三次插值,让它能灵活适应不同大小的画面。

语言解码器则是模型的 “嘴巴” 和 “大脑”,负责理解你的问题,然后给出答案。

团队把原来的旋转位置编码升级成了三维的,这让模型在同时处理画面和文字的时候,能更好地理解空间关系,就像你一边看地图一边听别人描述路线,能更快找到方向,而且它回答文字问题的能力一点没减弱。

多层感知机适配器就像是 “眼睛” 和 “大脑” 之间的 “翻译官”,把 “眼睛” 看到的信息翻译成 “大脑” 能理解的语言,让整个模型顺畅地工作。

在训练 GLM-4.1V-9B-Thinking 方面,则是包含三个阶段:预训练(Pretraining)、监督微调(SFT)和课程采样强化学习(RLCS)。

预训练阶段

在最初阶段,团队的目标是让模型具备广泛的图文理解能力。

为此,智谱采用了 “双通道并行” 的训练方式,对模型进行了 12 万步的训练。每次输入的文本长度为 8192,整体批量大小为 1536。训练用的数据包括图像配文字、图文混合内容、识别文字(OCR)、图像定位、指令问答等多种类型。

为了提高训练效率,团队还用了 “样本拼接” 的方法,把不同长度的训练数据拼成接近最大长度的长序列,这样可以尽可能多地利用显存,减少浪费。

为了让模型更好地处理高分辨率图片、视频片段以及特别长的文本,团队在训练中加入了更复杂的数据,比如视频的连续画面和长度超过 8000 字的图文内容。

在这个阶段,团队把输入的序列长度扩展到了 3 万多(具体是 32,768),并采用了更高级的并行训练方式(两路张量并行加上四路上下文并行),继续训练了一万步,同时保持之前的总批量大小不变(1,536),以确保训练的稳定性和效率。

监督微调(SFT)阶段

在微调阶段,团队专门准备了一批高质量的 “思维链”(CoT)训练数据,目的是提升模型在处理复杂因果关系和长篇推理问题时的能力。这些训练样本都按照统一的格式进行组织:

微调时团队对模型的全部参数进行了训练,输入长度设为 32768,批量大小为 32。

训练内容来自多个实际任务场景,比如解数学题、多轮对话、任务规划和复杂指令的执行,数据形式包括图文结合、多模态输入和纯文本等多种类型。

这个阶段不仅进一步提升了模型处理多模态信息的推理能力,同时也让它在语言理解和逻辑推理方面依然表现稳定。

课程采样强化学习(RLCS)阶段

在 SFT 的基础上,团队还引入了课程采样强化学习来提升性能。

团队主要结合了基于可验证奖励的强化学习(RLVR)和基于人类反馈的强化学习(RLHF)来覆盖多个关键任务维度:

团队采用 “课程学习” 的方式进行大规模强化训练,也就是先让模型从简单任务开始,逐步挑战更难的任务。通过这种由浅入深的训练策略,模型在实用性、准确性以及稳定性方面都有了明显的提升。

最后,关于 GLM-4.1V-9B-Thinking 的论文、代码等也均已开源,感兴趣的小伙伴可以看看文末链接哦~

论文地址:
arxiv.org/abs/2507.01…

开源列表:

[1]Github:github.com/THUDM/GLM-4…
[2]ModelScope:modelscope.cn/collections…
[3]Hugging Face:huggingface.co/collections…
[4]HuggingFace 体验链接:huggingface.co/spaces/THUD…
[5] 魔搭社区体验链接: modelscope.cn/studios/Zhi…

智谱 MaaS 开发平台 bigmodel.cn 同步上线 GLM-4.1V-Thinking-Flash API:

[1]API 使用指南:www.bigmodel.cn/dev/howuse/…
[2]API 接口文档:www.bigmodel.cn/dev/api/vis…
[3] 体验中心:www.bigmodel.cn/trialcenter…

欢迎在评论区留下你的想法!

—  —

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4.1V-9B-Thinking 视觉语言模型 开源 智谱AI
相关文章