PaperAgent 2024年12月14日
DeepSeek-VL2开源,VLM迈入MoE时代~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-VL2是DeepSeek-VL的升级版,一个先进的大型混合专家视觉-语言模型系列。它在视觉问题回答、光学字符识别等多种任务中表现卓越。该模型包含Tiny、Small和基础版三个变体,分别拥有10亿、28亿和45亿激活参数。DeepSeek-VL2在相似或更少激活参数下,实现了与现有开源模型相比更具竞争力的性能。它具备视觉叙事、图表理解、代码生成以及基于情境的对话等多种能力,应用广泛,功能强大。

🖼️DeepSeek-VL2模型系列包含Tiny、Small和基础版三个变体,参数量分别为10亿、28亿和45亿,满足不同应用场景的需求。

📊DeepSeek-VL2在多种任务上表现卓越,包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位等,展现了强大的多模态处理能力。

✍️DeepSeek-VL2具备视觉叙事能力,可以串联多张图像形成连续故事;同时具备图表理解能力,能轻松理解科研图表;还具备代码生成能力,可根据图像生成代码。

🗣️DeepSeek-VL2能进行基于情境的对话,通过视觉感知和语言推理,实现视觉语义对话,例如能识别图中物体并给出相关建议。

2024-12-13 21:09 湖北

DeepSeek-VL2:一个先进的大型混合专家(MoE)视觉-语言模型系列,它显著改进了其前身DeepSeek-VL。DeepSeek-VL2在多种任务上展现出卓越的能力,包括视觉问题回答、光学字符识别、文档/表格/图表理解以及视觉定位。

包括三个变体:DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2,分别拥有10亿、28亿和45亿激活参数。与现有的开源密集型和基于MoE的模型相比,DeepSeek-VL2在相似或更少的激活参数下实现了竞争性或最先进的性能。

DeepSeek-VL2使用案例

视觉叙事:可以输入多张图像,让DeepSeek-VL2把它们串联起来,形成一个连续的童话故事。

图表理解:DeepSeek-VL2 可以轻易理解各种科研图表

Plot2Code:DeepSeek-VL2 同时具备图像理解和代码生成的功能,可以作为你逆向画图的好帮手。

Prompt: Draw a plot similar to the image in Python.

基于情境的对话:视觉感知+语言推理让DeepSeek-VL2具有视觉语义对话能力。

如果你拿着下图问模型 “如果感觉热,你会怎么做?”,它会回答:“为了降温,你可以使用 [[166, 460, 338, 712]] 位置处的风扇,它放在桌子上

https://huggingface.co/deepseek-aihttps://github.com/deepseek-ai/DeepSeek-VL2

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-VL2 视觉语言模型 多模态 MoE
相关文章