PaperAgent 01月29日
DeepSeek又开源Janus-Pro,7B多模态强势登顶,OpenAI彻底慌了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源了新一代统一多模态模型Janus-Pro,包含1B和7B两个版本。该模型在多模态理解和生成方面均超越以往模型,与特定任务模型性能相当甚至更优。Janus-Pro通过优化训练策略、扩展训练数据和增大模型规模实现性能提升。其核心架构解耦了多模态理解和生成的视觉编码,使用独立的编码器处理输入,并由统一的自回归transformer处理。训练过程分三阶段进行优化,数据方面增加了多模态理解和视觉生成的数据量,模型规模也从1.5B扩展到7B,验证了其可扩展性。

🚀Janus-Pro模型包含1B和7B两个版本,在多模态理解和生成方面均有显著提升,性能超越以往模型,并与特定任务模型性能相匹配甚至更优。

🖼️Janus-Pro架构核心设计在于解耦多模态理解和生成,采用独立的视觉编码器处理输入,然后由统一的自回归transformer处理。多模态理解使用SigLIP-L编码器提取图像特征,视觉生成使用VQ tokenizer将图像转换为离散ID。

📊Janus-Pro的训练策略分为三阶段优化:第一阶段增加ImageNet训练步骤,第二阶段直接使用文本到图像数据训练,第三阶段调整数据比例,以维持视觉生成能力并提高多模态理解性能。

📚在数据扩展方面,Janus-Pro增加了约9000万多模态理解样本和7200万合成美学数据样本,使真实数据与合成数据的比例达到1:1,提高了模型的收敛速度和输出质量。

💡模型规模从1.5B扩展到7B,验证了该方法的强可扩展性,更大规模的LLM使得多模态理解和视觉生成损失收敛速度显著提高。

春城雪停了 2025-01-28 08:09 云南

不要671B,只要7B,完全可跑~

大家新春快乐,继DeepSeek R1之后,DeepSeek深夜又放大招,开源下一代统一多模态模型Janus-Pro,包含2个尺寸:Janus-Pro-1BJanus-Pro-7B

先看效果,后面进行技术报告解读(回复“Janus-Pro”可获取),效果上,Janus-Pro超越了以往的统一模型,并与特定任务的模型相匹配或超过其性能,包括:Meta、Google、OpenAI、Stability AI等等。

与多模态理解基准测试中的最新技术进行比较。“Und.”和“Gen.”分别表示“理解”和“生成”。使用外部预训练扩散模型的模型用†标记。

Janus-Pro 是 Janus 的高级版本,主要在三个方面进行了改进:优化的训练策略、扩展的训练数据和更大的模型规模。这些改进使得 Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进步,同时增强了文本到图像生成的稳定性。

架构

Janus-Pro 的架构与 Janus 相同,核心设计原则是解耦多模态理解生成的视觉编码。使用独立的编码方法将原始输入转换为特征,然后由统一的自回归transformer处理。对于多模态理解,使用 SigLIP-L 编码器从图像中提取高维语义特征;对于视觉生成任务,使用 VQ tokenizer 将图像转换为离散 ID。这些特征序列被拼接后输入到 LLM 中进行处理。

优化的训练策略

Janus-Pro 对 Janus 的三阶段训练过程进行了优化:

数据扩展

Janus-Pro 在多模态理解和视觉生成方面扩展了训练数据:

模型扩展

Janus-Pro 将模型规模从 1.5B 扩展到 7B,使用更大规模的 LLM 时,多模态理解和视觉生成的损失收敛速度显著提高,验证了该方法的强可扩展性。

https://hf-mirror.com/deepseek-ai/Janus-Pro-7Bhttps://hf-mirror.com/deepseek-ai/Janus-Pro-1Bhttps://github.com/deepseek-ai/Janus

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Janus-Pro 多模态模型 DeepSeek AI 深度学习
相关文章