智源社区 03月26日 23:13
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义千问发布了Qwen2.5-VL-32B-Instruct,这是一个开源的视觉语言模型,兼顾了尺寸和性能,可在本地运行。该模型在回答人类偏好、数学推理能力、图像解析、内容识别和视觉逻辑推导等方面都有显著提升。与近期开源的其他模型相比,Qwen2.5-VL-32B在纯文本能力上表现出色,甚至在多个基准上超越了72B模型。模型已开源,用户可在Hugging Face和Qwen Chat上体验。

🚀 Qwen2.5-VL-32B-Instruct在多个方面进行了改进,包括更符合人类偏好的回答、更强的数学推理能力,以及在图像解析、内容识别和视觉逻辑推导方面的准确性和细粒度分析能力。

📊 在性能方面,Qwen2.5-VL-32B在纯文本能力上达到了同规模模型的SOTA水平,甚至在某些基准上超越了72B的模型。

💡 该模型能够处理复杂的任务,例如根据交通指示牌照片进行精细的图像理解和推理,以及解决几何体分析和复杂难题。

💻 Qwen2.5-VL-32B-Instruct已开源,用户可以在Hugging Face上获取,并在Qwen Chat上直接体验。

就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了——

发布Qwen2.5-VL-32B-Instruct

此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。

这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。

同时经过强化学习优化,在三个方面改进显著:

    回答更符合人类偏好;

    拥有更强的数学推理能力;

    在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力。

对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上,Qwen2.5-VL-32B甚至超过了72B。

举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B就能做如下精细的图像理解和推理:

我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗?

Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案:

模型已经开源,尽管自己前往实测~

Qwen2.5-VL-32B更多表现示例

官方刚刚发布的技术博客中也放出了更多展示示例。

数学推理能力上,几何体分析也不在话下:

同样是先有问题分析环节,然后再分四个小步骤推理正确答案:

下面这种复杂难题也能解:

能够依次类推,归纳出构造规律:




像下面这种图片理解就更不在话下了:


多轮深度提问也可以:

模型开源,已能实测

现在,阿里已将Qwen2.5-VL-32B-Instruct放在了Hugging Face上。

在Qwen Chat上就能直接体验Qwen2.5-VL-32B,感兴趣的童鞋可以试试。

动作快的网友已经开始在MLX Community运行了:

在Hacker News上,网友也就DeepSeek和Qwen的举动进行了新一轮热烈讨论。网友纷纷表示:

开源赢了,奥特曼错了。

值得一提的是,春节期间,DeepSeek曾与阿里通义千问Qwen多次几乎同时发布新模型,这一次又双叒叕赶一块去了。

杭州,原来真的是商量着一起发???

参考链接:
[1]https://qwenlm.github.io/zh/blog/qwen2.5-vl-32b/

[2]https://x.com/Alibaba_Qwen/status/1904227859616641534
[3]https://news.ycombinator.com/item?id=43464068

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-VL 视觉语言模型 开源 阿里通义千问
相关文章