硅基流动 SiliconCloud 上线加速版阿里 Qwen2.5VL-32B

原创 SiliconCloud 2025-03-28 10:41 美国

更小规模参数量，更高性能。

阿里通义视觉语言大模型 Qwen2.5-VL 系列再上新。近日，Qwen2.5-VL-32B-Instruct 正式开源，尤其在人类主观偏好回复、数学推理以及图像理解推理能力实现了显著提升，而这主要基于强化学习技术的持续优化。

现在，硅基流动 SiliconCloud 平台上线了推理加速版 Qwen2.5-VL-32B-Instruct（上下文 128k，价格为￥1.89 /M Tokens）。此前，SiliconCloud 已上线 Qwen2.5-VL-72B-Instruct。开发者只需在开发应用时轻松调用 API，即可拥有更高效的模型体验。

在线体验

https://cloud.siliconflow.cn/models

API 文档

https://docs.siliconflow.cn/cn/api-reference/chat-completions/

直观感受一下 SiliconCloud 上加速版 Qwen2.5-VL-32B-Instruct 的效果。

图片理解和推理

数学能力

精细图像推理

模型性能与特点

根据通义千问官方数据显示，与近期同规模模型 Mistral-Small-3.1-24B 和 Gemma-3-27B-IT 相比，Qwen2.5-VL-32B-Instruct 展现出了显著优势，甚至超越了更大规模的 Qwen2-VL-72B-Instruct 模型。

在多模态任务测试中，尤其是强调复杂且多步骤推理的测试（如 MMMU、MMMU-Pro 和 MathVista），Qwen2.5-VL-32B-Instruct 表现尤为突出；在注重主观用户体验评估的 MM-MT-Bench 基准测试中，该模型相较于其前代 Qwen2-VL-72B-Instruct 也取得了显著进步。

此外，Qwen2.5-VL-32B-Instruct 在纯文本能力上也达到了同规模的最优表现。

相比此前发布的 Qwen2.5-VL 系列模型，本次推出的 32B 模型的特点如下：

回复更符合人类主观偏好：调整了输出风格，使回答更加详细、格式更规范，并更符合人类偏好。

数学推理能力：复杂数学问题求解的准确性显著提升。

图像细粒度理解与推理：在图像解析、内容识别以及视觉逻辑推导等任务中表现出更强的准确性和细粒度分析能力。

AI 社区评价

有开发者第一时间进行了体验，认为 Qwen2.5-VL-32B-Instruct 的视觉识别能力表现令人印象深刻。具体而言，模型不仅能够准确识别物体并分析视觉信息，还支持对发票、表格等数据的结构化输出，生成检测框，甚至具备理解长达一小时视频的能力，展现了其在多模态任务中的强大性能和广泛适用性。

有人指出，新推出的 Qwen2.5-VL-32B 模型尽管规模较小但性能优异，可媲美更大规模模型，这一进展令人印象深刻，也展现了中国 AI 技术的快速进步。

也有开发者表示，32B 参数规模是多模态 AI 智能体更理想的选择，既具备足够的实用性以支持初创企业的部署需求，又能有效处理复杂的 Web3/DeFi 任务。

现在，免除部署难题和高昂推理成本，你可以直接在 SiliconCloud 上在线体验这款模型了。

Token 工厂 SiliconCloud

DeepSeek-R1 蒸馏版等免费用

作为一站式大模型云服务平台，SiliconCloud 致力于为开发者提供极速响应、价格亲民、品类齐全、稳定丝滑的大模型 API。

除了 Qwen2.5-VL-32B-Instruct，SiliconCloud 已上架包括 DeepSeek-V3-0324、Wan2.1-I2V、Qwen2.5VL-72B、Wan2.1-T2V、QwQ-32B、DeepSeek-R1 & V3、DeepSeek-R1-Distill、CosyVoice2、HunyuanVideo、Qwen2.5-7B/14B/32B/72B、BCE、BGE、SenseVoice-Small 在内的上百款模型。其中，DeepSeek-R1 蒸馏版（8B、7B、1.5B）、BGE 等多款大模型 API 免费使用，让开发者实现“Token 自由”。