DeepSeek-VL2 AI 视觉模型开源：支持动态分辨率、处理科研图表、解析各种梗图等

IT之家 2024年12月14日

DeepSeek-VL2 AI 视觉模型开源：支持动态分辨率、处理科研图表、解析各种梗图等

DeepSeek官方开源DeepSeek-VL2模型，该模型在各项评测指标上表现优异，迈入MoE时代。它具有更多优质训练数据，新能力架构，以及低成本高性能的训练方式，还支持动态分辨率，能理解科研图表并生成代码。

🧐DeepSeek-VL2模型数据比一代多一倍，引入新能力

🎯视觉部分使用切图策略支持动态分辨率图像

💪继承三阶段训练流程，实现高效训练

📈能理解科研图表并生成Python代码

IT之家 12 月 14 日消息，DeepSeek 官方公众号昨日（12 月 13 日）发布博文，宣布开源 DeepSeek-VL2 模型，在各项评测指标上均取得了极具优势的成绩，官方称其视觉模型正式迈入混合专家模型（Mixture of Experts，简称 MoE）时代。

IT之家援引官方新闻稿，附上 DeepSeek-VL2 亮点如下：

数据：比一代 DeepSeek-VL 多一倍优质训练数据，引入梗图理解、视觉定位、视觉故事生成等新能力

架构：视觉部分使用切图策略支持动态分辨率图像，语言部分采用 MoE 架构低成本高性能

训练：继承 DeepSeek-VL 的三阶段训练流程，同时通过负载均衡适配图像切片数量不定的困难，对图像和文本数据使用不同流水并行策略，对 MoE 语言模型引入专家并行，实现高效训练

DeepSeek-VL2 模型支持动态分辨率，仅使用一个 SigLIP-SO400M 作为图像编码器，通过将图像切分为多张子图和一张全局缩略图来实现动态分辨率图像支持。这一策略让 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的极端长宽比，适配更多应用场景。

DeepSeek-VL2 模型还得益于更多科研文档数据的学习，可以轻松理解各种科研图表，并通过 Plot2Code，根据图像生成 Python 代码。

模型和论文均已发布：

模型下载：https://huggingface.co/deepseek-ai

GitHub 主页：https://github.com/ deepseek-ai/DeepSeek-VL2

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-VL2 混合专家模型动态分辨率科研图表

相关文章

Skywork Team Introduces Skywork-MoE: A High-Performance Mixture-of-Experts (MoE) Model with 146B Parameters, 16 Experts, and 22B Activated Parameters

微软发布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型

DeepSeek-V2.5 Released by DeepSeek-AI: A Cutting-Edge 238B Parameter Model Featuring Mixture of Experts (MoE) with 160 Experts, Advanced Chat, Coding, and 128k Context Length Capabilities

李开复谈中国AI优势，制造实惠推理引擎或成国内大模型最大竞争利器

第四范式与商务印书馆联合推出专业出版级翻译服务

腾讯混元又来开源，一出手就是最大MoE大模型

专家模型不要专家并行！微软开源MoE新路径

收敛速度最高8倍，准确率提升超30%，华科发布MoE Jetpack框架

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

算法系统协同优化，vivo与港中文推出BlueLM-V-3B，手机秒变多模态AI专家