IT之家 03月25日 09:28
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里通义千问发布了 Qwen2.5-VL-32B-Instruct,这是一个可本地运行的多模态视觉语言模型。该模型在多个方面进行了改进,包括更符合人类偏好的回答、更强的数学推理能力,以及在图像解析、内容识别和视觉逻辑推导等任务中更强的准确性。Qwen2.5-VL-32B 在纯文本能力上也达到了同规模模型的 SOTA 表现,甚至在一些基准上超过了 72B 模型。该模型已开源,用户可在 Hugging Face 上获取,并在 Qwen Chat 上体验。

👁️ Qwen2.5-VL-32B-Instruct 在视觉语言任务上表现出色,能够进行精细的图像理解和推理。例如,它可以根据交通指示牌照片,分析时间、距离和限速,并推算出是否能在规定时间内到达目的地。

➕ 该模型具备强大的数学推理能力,能够解决几何体分析和复杂难题。它通过分步骤的推理过程,得出正确的答案,并能够归纳出构造规律。

🗣️ Qwen2.5-VL-32B-Instruct 在多轮深度提问中表现出色,能够进行更深入的交互和理解。用户可以在 Qwen Chat 上直接体验该模型。

🚀 该模型已在 Hugging Face 上开源,方便用户下载和使用。网友们也已经在 MLX Community 上运行该模型,并对阿里通义千问的举动表示了积极的评价。

就在 DeepSeek-V3 更新的同一夜,阿里通义千问 Qwen 又双叒叕一次梦幻联动了 —— 发布 Qwen2.5-VL-32B-Instruct

此前开源家族视觉语言模型 Qwen2.5-VL 包括 3B、7B 和 72B 三种尺寸。

这一次的 32B 版本进一步兼顾尺寸和性能,可在本地运行。同时经过强化学习优化,在三个方面改进显著:

对比近期开源的 Mistral-Small-3.1-24B 、Gemma-3-27B-IT 等,Qwen2.5-VL-32B 在纯文本能力上也达到了同规模的 SOTA 表现。在多个基准上,Qwen2.5-VL-32B 甚至超过了 72B。

举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B 就能做如下精细的图像理解和推理:

我正在这条路上驾驶一辆大卡车,现在 12 点了。我能在 13 点之前到达 110 公里远的地方吗?

Qwen2.5-VL-32B 首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案:

模型已经开源,尽管自己前往实测~

Qwen2.5-VL-32B 更多表现示例

官方刚刚发布的技术博客中也放出了更多展示示例。

数学推理能力上,几何体分析也不在话下:

同样是先有问题分析环节,然后再分四个小步骤推理正确答案:

下面这种复杂难题也能解:

能够依次类推,归纳出构造规律:

像下面这种图片理解就更不在话下了:

多轮深度提问也可以:

模型开源,已能实测

现在,阿里已将 Qwen2.5-VL-32B-Instruct 放在了 Hugging Face 上。

在 Qwen Chat 上就能直接体验 Qwen2.5-VL-32B,感兴趣的童鞋可以试试。

动作快的网友已经开始在 MLX Community 运行了:

在 Hacker News 上,网友也就 DeepSeek 和 Qwen 的举动进行了新一轮热烈讨论。网友纷纷表示:

开源赢了,奥尔特曼错了。

值得一提的是,春节期间,DeepSeek 曾与阿里通义千问 Qwen 多次几乎同时发布新模型,这一次又双叒叕赶一块去了。

杭州,原来真的是商量着一起发???

参考链接:

本文来自微信公众号:量子位(ID:QbitAI),作者:西风,原标题《32B 本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强》

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Qwen2.5-VL-32B 多模态模型 视觉语言 数学推理 开源
相关文章