通往AGI之路 02月02日
深夜发布!DeepSeek重构AI图像生成与理解,Janus-Pro大一统模型震撼来袭
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek发布了新型自回归框架Janus-Pro,它统一了多模态理解和生成。该模型采用单一Transformer架构,通过解耦视觉编码路径,有效解决了理解和生成中的角色冲突,提升了灵活性。Janus-Pro支持1B和7B两种规模,并全面开源,可商用。其在多模态理解和文本-图像生成任务中表现出色,超越了之前的统一模型,甚至匹配或超过特定任务模型的性能。Janus-Pro的简洁性、灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。该模型还支持中文交互,并提供了Colab测试和ComfyUI节点。

🧠Janus-Pro采用统一Transformer架构,通过解耦视觉编码路径,实现多模态理解和生成,并支持1B和7B两种规模。

👓理解模式下,Janus-Pro使用SigLIP-L作为“超级眼镜”来处理图像,并能读取文字;🎨生成模式下,则利用“魔法画笔”进行图像创作。

🎯Janus-Pro在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion,显示出卓越的文本到图像生成性能。

⚙️该模型具有高度灵活性,可通过调整输入Token快速切换理解和生成任务,无需重新训练,并已开源支持商用。

原创 WaytoAGI 2025-01-29 02:44 新疆

深夜发布!DeepSeek重构AI图像生成与理解,Janus-Pro大一统模型震撼来袭

关于DeepSeek的一切: 关于DeepSeek的所有事情【知识库持续更新中】

🤖

关键点: 

    统一Transformer架构,使用同一个模型就能完成图片理解,图片生成

    提供 1B 和 7B 两种规模,适配多元应用场景

    全面开源,支持商用,MIT协议,部署使用便捷

    Benchmark表现优异,能力更全面(上一个是智源开源的 Emu3

💡

模型(7B):https://huggingface.co/deepseek-ai/Janus-Pro-7B 

模型(1B):https://huggingface.co/deepseek-ai/Janus-Pro-1B 

官方解释:Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 

下载地址:https://github.com/deepseek-ai/Janus 

🤖

通俗解释:JanusFlow就像一个会"看图画+编故事+自己画画"的聪明机器人🤖 

    两个超能力:它有两种本领

聪明的大脑:它的核心是DeepSeek语言模型(相当于一个特别会编故事的AI),已经学习过很多知识

特别训练法

🤖

解释: 

为什么用Transformer大一统模型,不用Diffusion模型 

扩散模型(Diffusion Models)在图像生成上质量更高,但Janus-Pro的设计目标不同: 

好处:  

统一Transformer架构:一个大脑,两种思维 

测试案例

💡

ZHO 

【ZHO】Janus-Pro-7B 初见面!!!做了版 Colab 初测了下 DeepSeek 新开源的多模态统一模型 

1)模型直接支持中文交互(图像理解+图像生成 

2)云上 L4 测试,显存需 22GB 

3)图像生成速度:约15s/张 

4)图像理解质量:文字和信息识别基本准确,内容理解完整清晰,局部细节有欠缺 

由于 Gradio 界面比较 sb(显示不全结果,所以把结果拼成了一张图如下 

Colab(需Pro,因需 20GB 以上显存):https://colab.research.google.com/drive/1V3bH2oxhikj_B_EYy5yRG_9yqSqxxqgS?usp=sharing

CY已经做好了ComfyUI 的节点

Benchmark表现

和上一个大一统模型Emu3等的benchmark对比,能力完全补全 

Transformer大一统架构

一个模型生成,左侧(a)理解部分,右侧(b)生成部分 

理解部分(a):自回归(Autoregressive)

 

    输入:左侧有一张 “Clean Image”(干净图像),通过 “Und. Encoder ”(理解编码器)进行编码处理。同时,还有 “Und. Prompt”(理解提示)通过 “Text Tokenizer”(文本标记器)进行标记化处理。

    处理:经过上述处理的图像和文本信息进入 “Large Language Model”(大语言模型)。

    输出:大语言模型的输出通过 “Text De - Tokenizer”(文本去标记器)处理,得到 “Response (Next Token Prediction)”(响应,即下一个标记预测)。

生成部分(b):修正流(Rectified Flow)

 

    输入:“Gen. Prompt”(生成提示)通过 “Text Tokenizer”(文本标记器)进行标记化处理,然后进入 “Large Language Model”(大语言模型)。同时,有一张 “Noisy Image ”(含噪图像)通过 “Gen. Encoder ”(生成编码器)处理。

    处理:大语言模型的输出与含噪图像经编码器处理后的信息,在 “Gen. Decoder ”(生成解码器)中处理,得到 “Velocity (All Image Tokens)”(速度,即所有图像标记)。根据公式 对 进行更新,用 覆盖 。

    输出:通过不断重复上述更新过程,直到 ,最终完成图像生成相关操作。

Github Repository GitHub 仓库 

新模型Janus-Pro,其中7B版本在GenEval和DPG-Bench()中击败OpenAI的DALL-E 3和Stable Diffusion  

左图(多模态理解性能)

右图(文本 - 图像生成性能)

“Performance on instruction - following benchmarks for text - to - image generation”(在文本到图像生成的指令跟随基准上的性能)。横坐标为两个基准测试 GenEval 和 DPG - Bench,纵坐标为 “Accuracy (%)”(准确率,百分比)。图中展示了多个模型在这两个基准测试上的准确率,包括 SDXL、PixArt - a、SD3 - Medium、Janus、SDv1.5、DALL - E 3、Emu3 - Gen、Janus - Pro - 7B 等。可以看到,在 GenEval 和 DPG - Bench 基准测试中,不同模型的准确率有所差异,Janus - Pro - 7B 在 DPG - Bench 基准测试中表现较好,达到了 84.2% 的准确率 

 

生图效果

Janus-Pro-7B远好于Janus,更稳定,提示词更短 

模型摘要 

    Janus-Pro 是一个统一理解和生成多模态语言模型(MLLM),它将多模态理解和生成的视觉编码解耦。Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。

    多模态理解中,它使用 SigLIP-L 作为视觉编码器,支持 384 x 384 图像输入。对于图像生成,Janus-Pro 使用此处的标记器,下采样率为 16。

此代码仓库采用 MIT 许可证。使用 Janus-Pro 模型需遵守 DeepSeek 模型许可证。 

MIT许可证:允许自由使用、修改和分发代码,只需保留版权声明和许可文件,且作者不承担任何责任。 

DeepSeek真开源真牛逼! 

行业影响力大V转发并评论:

AK:Janus-Pro 是一种新型的自回归框架,它统一了多模态理解和生成。它通过将视觉编码解耦为独立的路径来解决先前方法的局限性,同时仍然利用单一的统一Transformer架构进行处理。解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超越了之前的统一模型,并匹配或超过了特定任务模型的性能。Janus-Pro 的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。 

AI 副总裁 @Vercel • @v0 @aisdk 的创作者 • @Turborepo 创始人(被 @Vercel 收购) • 天使投资人

社区同时进行的活动及比赛


🎢

“大幅度”挑战赛|截止2025年2月10日23:59分 

本期活动由通义万相2.1模型全力支持,通义万相2.1模型在复杂动作、物理规律还原、文字处理以及电影质感方面都取得了惊艳的进展。 

👉投稿传送门👈 

https://waytoagi.feishu.cn/share/base/form/shrcnaDNJDBzbEDo4ldTQaiTLon 


LVMH & 阿里云:智能导购创意开发赛|投稿时间:2025年01月23日至02月28日 

国内首次与全球精品时尚行业领军者LVMH集团联合举办的AI应用开发创意活动。不限主题、不限形式,发动创意在阿里云百炼大模型服务平台定义LVMH集团智能导购。 

社区正在组队打比赛,欢迎来找伙伴 

LVMH & 阿里云:智能导购创意开发赛 

📚

【给社区同学争取到的免费的干货课程】 

🎆 春节在家偷偷努力的机会来了!阿里云AI实训营全新升级上线!! 

🏭本期亮点:在阿里云百炼构建企业级多模态应用 👨‍🏫资深专家带你实操AI应用场景,🎁WaytoAGI社群学员免费学习还有好礼相送 

🚪入口(建议收藏):https://click.aliyun.com/m/1000401467/ 

还可以加入钉钉本期班群,与阿里云专家交流学习,快来加入吧!限时免费! 

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek Janus-Pro 多模态 AI模型 开源
相关文章