原创 WaytoAGI 2025-01-29 02:44 新疆
深夜发布!DeepSeek重构AI图像生成与理解,Janus-Pro大一统模型震撼来袭
关于DeepSeek的一切: 关于DeepSeek的所有事情【知识库持续更新中】
🤖
关键点:
统一Transformer架构,使用同一个模型就能完成图片理解,图片生成
提供 1B 和 7B 两种规模,适配多元应用场景
全面开源,支持商用,MIT协议,部署使用便捷
Benchmark表现优异,能力更全面(上一个是智源开源的 Emu3
💡
模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B
模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B
官方解释:Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
下载地址:https://github.com/deepseek-ai/Janus
🤖
通俗解释:JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人🤖
两个超能力:它有两种本领
🧠理解模式:用"超级眼镜"(SigLIP-L)仔细看图片(最大384x384大小),还能读文字
✏️画画模式:用"魔法画笔"(校正流+SDXL-VAE)自己创作同样大小的图片
聪明的大脑:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识
特别训练法:
先自己看很多图画书学习(预训练)
然后老师手把手教它(监督微调)
最后用"精华浓缩法"(EMA)保存最好的学习成果
🤖
解释:
为什么用Transformer大一统模型,不用Diffusion模型
扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同:
任务导向:Janus-Pro追求多任务统一(理解+生成),而扩散模型更专注生成质量。
效率考量:扩散模型需要多次迭代去噪(如Stable Diffusion约20步),而自回归生成可能更实时。
架构简洁性:保持单一Transformer架构,降低训练和部署成本。
好处:
统一Transformer架构:一个大脑,两种思维
架构本质:虽然视觉处理分两条路,但后续处理仍用同一个Transformer(类似人脑不同区域处理不同信息)。
关键设计:
参数共享:底层Transformer同时学习理解和生成任务,促进知识迁移(例如学会「猫」的概念后,生成时自然能画猫)。
注意力机制:通过跨模态注意力(如文字关注图像区域),实现图文深度对齐。
灵活性:可通过调整输入(如切换理解/生成路径的Token)快速切换任务模式,无需重新训练模型
测试案例
💡
ZHO
【ZHO】Janus-Pro-7B 初见面!!!做了版 Colab 初测了下 DeepSeek 新开源的多模态统一模型
1)模型直接支持中文交互(图像理解+图像生成
2)云上 L4 测试,显存需 22GB
3)图像生成速度:约15s/张
4)图像理解质量:文字和信息识别基本准确,内容理解完整清晰,局部细节有欠缺
由于 Gradio 界面比较 sb(显示不全结果,所以把结果拼成了一张图如下
Colab(需Pro,因需 20GB 以上显存):https://colab.research.google.com/drive/1V3bH2oxhikj_B_EYy5yRG_9yqSqxxqgS?usp=sharing
CY已经做好了ComfyUI 的节点
Benchmark表现
和上一个大一统模型Emu3等的benchmark对比,能力完全补全
Transformer大一统架构
一个模型生成,左侧(a)理解部分,右侧(b)生成部分
理解部分(a):自回归(Autoregressive)
输入:左侧有一张 “Clean Image”(干净图像),通过 “Und. Encoder ”(理解编码器)进行编码处理。同时,还有 “Und. Prompt”(理解提示)通过 “Text Tokenizer”(文本标记器)进行标记化处理。
处理:经过上述处理的图像和文本信息进入 “Large Language Model”(大语言模型)。
输出:大语言模型的输出通过 “Text De - Tokenizer”(文本去标记器)处理,得到 “Response (Next Token Prediction)”(响应,即下一个标记预测)。
生成部分(b):修正流(Rectified Flow)
输入:“Gen. Prompt”(生成提示)通过 “Text Tokenizer”(文本标记器)进行标记化处理,然后进入 “Large Language Model”(大语言模型)。同时,有一张 “Noisy Image ”(含噪图像)通过 “Gen. Encoder ”(生成编码器)处理。
处理:大语言模型的输出与含噪图像经编码器处理后的信息,在 “Gen. Decoder ”(生成解码器)中处理,得到 “Velocity (All Image Tokens)”(速度,即所有图像标记)。根据公式 对 进行更新,用 覆盖 。
输出:通过不断重复上述更新过程,直到 ,最终完成图像生成相关操作。
Github Repository GitHub 仓库
新模型Janus-Pro,其中7B版本在GenEval和DPG-Bench()中击败OpenAI的DALL-E 3和Stable Diffusion
左图(多模态理解性能)
横纵轴含义:横轴表示大语言模型的参数数量(单位为十亿),纵轴表示模型在四个多模态理解基准测试上的平均性能得分。
模型及表现:图中有多个模型数据点,比如 Janus - Pro - 7B、Janus - Pro - 1B、Janus 等。其中,Janus - Pro 系列(统一模型,以粉色虚线标识)与 LlaVA 系列(仅理解模型,以绿色虚线标识)较为显眼。大致趋势是,参数数量越多,平均性能得分越高,Janus - Pro - 7B 和 Janus - Pro - 1B 在这些模型中平均性能得分较高。
右图(文本 - 图像生成性能)
横纵轴含义:横轴是两个用于评估文本 - 图像生成指令跟随能力的基准测试,分别是 GenEval 和 DPG - Bench;纵轴是模型在对应基准测试上的准确率(以百分比表示)。
模型及表现:展示了 SDXL、PixArt - a、SD3 - Medium、Janus、SDv1.5、DALL - E 3、Emu3 - Gen、Janus - Pro - 7B 等模型的准确率。不同模型在两个基准测试中的表现有差异,例如 Janus - Pro - 7B 在 DPG - Bench 基准测试中的准确率达到了 84.2% ,表现较为出色
“Performance on instruction - following benchmarks for text - to - image generation”(在文本到图像生成的指令跟随基准上的性能)。横坐标为两个基准测试 GenEval 和 DPG - Bench,纵坐标为 “Accuracy (%)”(准确率,百分比)。图中展示了多个模型在这两个基准测试上的准确率,包括 SDXL、PixArt - a、SD3 - Medium、Janus、SDv1.5、DALL - E 3、Emu3 - Gen、Janus - Pro - 7B 等。可以看到,在 GenEval 和 DPG - Bench 基准测试中,不同模型的准确率有所差异,Janus - Pro - 7B 在 DPG - Bench 基准测试中表现较好,达到了 84.2% 的准确率
生图效果
Janus-Pro-7B远好于Janus,更稳定,提示词更短
模型摘要
Janus-Pro 是一个统一理解和生成多模态语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。
多模态理解中,它使用 SigLIP-L 作为视觉编码器,支持 384 x 384 图像输入。对于图像生成,Janus-Pro 使用此处的标记器,下采样率为 16。
此代码仓库采用 MIT 许可证。使用 Janus-Pro 模型需遵守 DeepSeek 模型许可证。
MIT许可证:允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。
DeepSeek真开源真牛逼!
行业影响力大V转发并评论:
AK:Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。
AI 副总裁 @Vercel • @v0 @aisdk 的创作者 • @Turborepo 创始人(被 @Vercel 收购) • 天使投资人
社区同时进行的活动及比赛
🎢
“大幅度”挑战赛|截止2025年2月10日23:59分
本期活动由通义万相2.1模型全力支持,通义万相2.1模型在复杂动作、物理规律还原、文字处理以及电影质感方面都取得了惊艳的进展。
👉投稿传送门👈
https://waytoagi.feishu.cn/share/base/form/shrcnaDNJDBzbEDo4ldTQaiTLon
LVMH & 阿里云:智能导购创意开发赛|投稿时间:2025年01月23日至02月28日
国内首次与全球精品时尚行业领军者LVMH集团联合举办的AI应用开发创意活动。不限主题、不限形式,发动创意在阿里云百炼大模型服务平台定义LVMH集团智能导购。
社区正在组队打比赛,欢迎来找伙伴
LVMH & 阿里云:智能导购创意开发赛
📚
【给社区同学争取到的免费的干货课程】
🎆 春节在家偷偷努力的机会来了!阿里云AI实训营全新升级上线!!
🏭本期亮点:在阿里云百炼构建企业级多模态应用 👨🏫资深专家带你实操AI应用场景,🎁WaytoAGI社群学员免费学习还有好礼相送
🚪入口(建议收藏):https://click.aliyun.com/m/1000401467/
还可以加入钉钉本期班群,与阿里云专家交流学习,快来加入吧!限时免费!