36kr 03月25日
通义开源32B视觉模型,阿里与DeepSeek前后脚上新,能看图说话
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云通义千问开源了视觉理解模型Qwen2.5-VL-32B-Instruct,该模型在图像解析、内容识别、数学推理等多项任务中表现出色。它在多项测试中超越了前代72B模型,纯文本能力也优于GPT-4o mini。该模型在细粒度图像理解和数学推理方面展现出强大的能力,能够识别地理特征、解决几何难题,并对复杂图像进行细致分析。研究人员通过强化学习优化了模型的主观体验和数学推理能力,使其回答更详细、格式更规范。该模型已开源,研究团队将继续聚焦长且有效的视觉推理。

✅ Qwen2.5-VL-32B-Instruct在图像理解方面表现出色,可以识别图片中的地理特征、地形地貌等多种要素,并能进行细粒度的分析。

📐 该模型具备强大的数学推理能力,能够解决复杂的数学问题,包括几何图形分析和数列计算,展示了其在理解和处理复杂信息方面的能力。

🥇 在多项基准测试中,Qwen2.5-VL-32B-Instruct的表现超过了Mistral-Small-3.1-24B和Gemma-3-27B-IT等模型,以及参数规模更大的Qwen2-VL-72B-Instruct模型。

💬 纯文本能力方面,Qwen2.5-VL-32B-Instruct是同规模模型中整体表现最好的,优于GPT-4o mini。

新模型多项测试超过72B前代模型,纯文本能力整体优于GPT-4o mini。

智东西3月25日报道,昨天,阿里云通义千问开源更小尺寸的视觉理解模型Qwen2.5-VL-32B-Instruct。与昨夜DeepSeek V3新版本DeepSeek-V3-0324的发布时间几乎前后脚。

Qwen2.5-VL-32B-Instruct的优势主要集中于三个方面:研究人员调整了输出风格,使其回答详细、格式规范且更符合人类偏好;在数学推理能力方面,可应对复杂数学问题;在图像解析、内容识别、视觉逻辑推导等任务中更准确并具备细粒度分析能力

该模型是在1月底开源的视觉模型Qwen2.5-VL系列的基础上,研究人员基于强化学习持续优化的模型,新模型使用Apache 2.0协议开源。

科技博主Simon Willison在博客中提到,32B参数正迅速成为其最喜欢的模型大小,既能达到可媲美GPT-4级别的能力,又小到可以在其64GB内存的Mac上使用,并且仍有足够的RAM来运行其他如火狐浏览器(Firefox)和软件开发工具Visual Studio Code等内存占用较大的应用程序。

GitHub地址:https://github.com/QwenLM/Qwen2.5-VL

Hugging Face地址:https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct

01.一张图就能输出地理特征、地形地貌,几何难题也能胜任

Simon Willison尝试了Qwen2.5-VL-32B-Instruct的图片理解能力,他上传了一张图片让模型识别。Qwen2.5-VL-32B-Instruct给出了图片中包含的地理特征、分颜色区域、深度等值线、保护区等诸多要素。

官方博客中展示了Qwen2.5-VL-32B-Instruct在细粒度图像理解和数学推理方面的实际表现。

第一个提示词是:“我开着大货车在这条路上行驶,现在已经12点了,我能在13点之前到达110公里以外的地方吗?”模型需要在理解用户需求的基础上,补充图片上对车辆限速的背景信息再得出结论。

可以看到,Qwen2.5-VL-32B-Instruct先将题目和图片中的信息进行了汇总,然后进行逐步分析解答。

第二个问题是数学推理,提示词为:“如图所示,直线AB和CD在O点相交,OD平分∠AOE,∠BOC=50.0,然后∠EOB=()”这道题重点考察的是模型够准确理解几何图形的基本概念,以及相关角之间的位置关系,如对顶角、角平分线等概念在图形中的体现。

第三个提示词是:“侏罗纪蜘蛛网是一种非常有规律的蜘蛛网,如图,它是由无数个正方形环绕而成的,且最外边第一个正方形A_{1}B_{1}C_{1}D_{1}的面积为a_{1}=1,分别取正方形A_{1}B_{1}C_{1}D_{1}各边的三等分点A_{2},B_{2},C_{2},D_{2},作第二个正方形A_{2}B_{2}C_{2}D_{2},且正方形A_{2}B_{2}C_{2}D_{2}的面积为a_{2},\ldots\ldots,依次类推,第n个正方形A_{n}B_{n}C_{n}D_{n}的面积为a_{n}. $求{a_{n}}的通项公式”。

这道题综合考查了几何图形分析、归纳推理、数学运算以及数列知识运用等多方面的能力。在Qwen2.5-VL-32B-Instruct的解题过程中,其首先罗列了解题文章的基本思路,然后进行分步骤解答。

最后一个是对精细图片的理解,Qwen2.5-VL-32B-Instruct通过图片中的锅底、分格设计、配菜、氛围等识别出这是四川麻辣火锅,并附上了简介。在用户询问这为什么是四川火锅时,其对上述关键要素进行了详细引用给出答案。

02.多项测试超过72B前代模型,纯文本能力整体优于GPT-4o mini

多项基准测试中,Qwen2.5-VL-32B-Instruct的表现超过了Mistral-Small-3.1-24B和Gemma-3-27B-IT,以及参数规模更大的Qwen2-VL-72B-Instruct模型。

在强调复杂任务多步骤推理的MMMU、MMMU-Pro和MathVista中,Qwen2.5-VL-32B-Instruct表现优于Mistral-Small-3.1-24B、Gemma-3-27B-IT、Qwen2-VL-72B-Instruct。

同时,注重主观用户体验评估的MM-MT-Bench基准测试中,该模型相较于其前代Qwen2-VL-72B-Instruct表现更好。

纯文本能力方面,Qwen2.5-VL-32B-Instruct是同规模模型中整体表现最好的。

03.结语:下一步将聚焦长且有效的视觉推理

相比于Qwen2.5-VL系列模型,基于快思考模式,Qwen2.5-VL-32B在强化学习框架下优化了主观体验和数学推理能力。

阿里云通义千问的研究团队下一步研究将聚焦于长且有效的推理过程,以突破视觉模型在处理高度复杂、多步骤视觉推理任务中的边界。

本文来自微信公众号“智东西”(ID:zhidxcom),作者:程茜,编辑:心缘,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-VL-32B-Instruct 视觉模型 阿里云 开源
相关文章