通义开源32B视觉模型，阿里与DeepSeek前后脚上新，能看图说话

新模型多项测试超过72B前代模型，纯文本能力整体优于GPT-4o mini。

智东西3月25日报道，昨天，阿里云通义千问开源更小尺寸的视觉理解模型Qwen2.5-VL-32B-Instruct。与昨夜DeepSeek V3新版本DeepSeek-V3-0324的发布时间几乎前后脚。

Qwen2.5-VL-32B-Instruct的优势主要集中于三个方面：研究人员调整了输出风格，使其回答详细、格式规范且更符合人类偏好；在数学推理能力方面，可应对复杂数学问题；在图像解析、内容识别、视觉逻辑推导等任务中更准确并具备细粒度分析能力。

该模型是在1月底开源的视觉模型Qwen2.5-VL系列的基础上，研究人员基于强化学习持续优化的模型，新模型使用Apache 2.0协议开源。

科技博主Simon Willison在博客中提到，32B参数正迅速成为其最喜欢的模型大小，既能达到可媲美GPT-4级别的能力，又小到可以在其64GB内存的Mac上使用，并且仍有足够的RAM来运行其他如火狐浏览器（Firefox）和软件开发工具Visual Studio Code等内存占用较大的应用程序。

GitHub地址：https://github.com/QwenLM/Qwen2.5-VL

Hugging Face地址：https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

01.一张图就能输出地理特征、地形地貌，几何难题也能胜任

Simon Willison尝试了Qwen2.5-VL-32B-Instruct的图片理解能力，他上传了一张图片让模型识别。Qwen2.5-VL-32B-Instruct给出了图片中包含的地理特征、分颜色区域、深度等值线、保护区等诸多要素。

官方博客中展示了Qwen2.5-VL-32B-Instruct在细粒度图像理解和数学推理方面的实际表现。

第一个提示词是：“我开着大货车在这条路上行驶，现在已经12点了，我能在13点之前到达110公里以外的地方吗？”模型需要在理解用户需求的基础上，补充图片上对车辆限速的背景信息再得出结论。

可以看到，Qwen2.5-VL-32B-Instruct先将题目和图片中的信息进行了汇总，然后进行逐步分析解答。

第二个问题是数学推理，提示词为：“如图所示，直线AB和CD在O点相交，OD平分∠AOE，∠BOC=50.0，然后∠EOB=（）”这道题重点考察的是模型够准确理解几何图形的基本概念，以及相关角之间的位置关系，如对顶角、角平分线等概念在图形中的体现。

第三个提示词是：“侏罗纪蜘蛛网是一种非常有规律的蜘蛛网，如图，它是由无数个正方形环绕而成的，且最外边第一个正方形A_{1}B_{1}C_{1}D_{1}的面积为a_{1}=1，分别取正方形A_{1}B_{1}C_{1}D_{1}各边的三等分点A_{2}，B_{2}，C_{2}，D_{2}，作第二个正方形A_{2}B_{2}C_{2}D_{2}，且正方形A_{2}B_{2}C_{2}D_{2}的面积为a_{2}，\ldots\ldots，依次类推，第n个正方形A_{n}B_{n}C_{n}D_{n}的面积为a_{n}. $求{a_{n}}的通项公式”。

这道题综合考查了几何图形分析、归纳推理、数学运算以及数列知识运用等多方面的能力。在Qwen2.5-VL-32B-Instruct的解题过程中，其首先罗列了解题文章的基本思路，然后进行分步骤解答。

最后一个是对精细图片的理解，Qwen2.5-VL-32B-Instruct通过图片中的锅底、分格设计、配菜、氛围等识别出这是四川麻辣火锅，并附上了简介。在用户询问这为什么是四川火锅时，其对上述关键要素进行了详细引用给出答案。

02.多项测试超过72B前代模型，纯文本能力整体优于GPT-4o mini

多项基准测试中，Qwen2.5-VL-32B-Instruct的表现超过了Mistral-Small-3.1-24B和Gemma-3-27B-IT，以及参数规模更大的Qwen2-VL-72B-Instruct模型。

在强调复杂任务多步骤推理的MMMU、MMMU-Pro和MathVista中，Qwen2.5-VL-32B-Instruct表现优于Mistral-Small-3.1-24B、Gemma-3-27B-IT、Qwen2-VL-72B-Instruct。

同时，注重主观用户体验评估的MM-MT-Bench基准测试中，该模型相较于其前代Qwen2-VL-72B-Instruct表现更好。

纯文本能力方面，Qwen2.5-VL-32B-Instruct是同规模模型中整体表现最好的。

03.结语：下一步将聚焦长且有效的视觉推理

相比于Qwen2.5-VL系列模型，基于快思考模式，Qwen2.5-VL-32B在强化学习框架下优化了主观体验和数学推理能力。

阿里云通义千问的研究团队下一步研究将聚焦于长且有效的推理过程，以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。

本文来自微信公众号“智东西”（ID：zhidxcom），作者：程茜，编辑：心缘，36氪经授权发布。

01.一张图就能输出地理特征、地形地貌，几何难题也能胜任

02.多项测试超过72B前代模型，纯文本能力整体优于GPT-4o mini

03.结语：下一步将聚焦长且有效的视觉推理

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签