左脑识图，右脑画图！DeepSeek开源“双脑模型”Janus-Pro

言川Artie 2025-02-20 12:02 湖北

DeepSeek悄悄开源的“双脑”视觉模型Janus-Pro......

DeepSeek这次直接把桌子掀了！

继把大模型价格打到地板价后，他们最新开源的多模态模型更狠——不仅看得懂《清明上河图》的细节，还能照着你的描述生图。

这个多模态模型就是他们悄悄开源的“双脑”视觉模型Janus-Pro，被称为“左脑能当福尔摩斯解密图片，右脑能当画家挥毫泼墨。”的模型。

目前该模型未上线Deepseek官网，但我们可以通过ComfyUI来使用它。并且，还能结合Flux工作流使用！

如果你想使用Janus-Pro模型，可以在公众号后台发送“Janus”领取Janus-Pro模型、Flux+Janus工作流。

接下来，我将通过这篇文章来教你如何在ComfyUI中使用Janus-Pro模型（文末可免费领取Janus+Flux工作流）。

Janus-Pro介绍

一句话总结，Janus-Pro是DeepSeek公司开发的一款“能看懂图片又能画图”的多模态模型。

论文地址：

arxiv.org/pdf/2501.17811

GitHub项目地址：

github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

它就像有两个不同的大脑：

左脑（理解模式）：比如上传图片，发送指令让模型识别照片中的物体。

右脑（生成模式）：可根据文字描述生成新图片，也就是我们熟知的文生图。

下来，就让我们看看如何在ComfyUI中部署Janus-Pro，以及测试它在ComfyUI工作流中生图的可行性。

搭建Janus-Pro工作流

Janus-Pro节点组作者开源的项目地址：

github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

1、安装Janus-Pro

首先，我们需要在ComfyUI中的 Manager节点管理器中安装Janus-Pro。搜索“Janus-Pro”，点击“Install”安装。

然后，在Hugging Face上下载Janus-Pro模型。共两个版本模型：

Janus-Pro-1B（小模型）：10亿参数，擅长快速生成简单图片/文字回答，最低显存要求8GB。

模型下载地址：

github.com/deepseek-ai/Janus?tab=readme-ov-file#janus

Janus-Pro-7B（大模型）：70亿参数，擅长高精度复杂图像生成/推理，最低显存要求24GB。

模型下载地址：

huggingface.co/deepseek-ai/Janus-Pro-7B/tree/main

切记，需要在“Files and Versions”中下载列表中的所有文件。如果你不想在Hugging Face中下载，可以在公众号后台发送【Janus】，系统会自动发送打包好的Janus模型文件。

模型安装会比较麻烦一些，这里需要认真看。

第一步，打开ComfyUI根目录，找到Models文件夹，新建文件夹并命名“Janus-pro”。

第二步，进入“Janus-pro”文件中，再次新建文件夹，并按照你需要安装的模型版本命名文件夹。

第三步，将Hugging Face上下载的文件放在对应的文件夹中。

2、搭建Janus-Pro工作流

安装节点组和模型后，我们就可以启动ComfyUI搭建Janus-Pro工作流了。

可以在节点库中搜索“Janus”找到节点组，共3个节点，分别是模型加载、图像理解和图像生成。

先搭建图像理解工作流。连接方式也比较简单，除了Janus节点组中的模型加载和图像理解节点外，还需调用“图像加载”和“展示文本”节点，如图所示：

它可以识别图片中的任何元素，如图中的人像摄影图。

操作方式为，选择“Janus-Pro-7B”模型，上传图像，并在图像理解节点中输入提示词：“请详细描述这张图片。”

运行后，就可以在展示文本中看到回复结果：

“这张图片展示了一位年轻女性，她站在户外，背景是模糊的绿色植物和阳光。她的长发自然地散落在肩上，头发颜色为深棕色或黑色。她穿着一件带有花卉图案的露肩上衣，上衣的颜色主要是白色，并点缀着红色和绿色的花朵。她的表情温柔，目光直视镜头，嘴唇涂有鲜艳的红色口红。整体画面给人一种清新自然的感觉，光线柔和，营造出一种宁静的氛围。”

上传一张清明上河图，Janus也能详细的描述出图中内容。

接着，我们测试下图像生成工作流。

调用图像生成节点，连接模型加载节点和预览/保存图像节点。这个工作流的功能类似于文生图，只不过大模型是Janus-Pro-1B/7B。

可以测试下，使用Janus-Pro-7B，输入“The girl in the red shirt（穿着红色衬衫的女孩）。”

怀疑是提示词少了，于是再写了一组详细的提示词：

“masterpiece, best quality, ultra-realistic photography style, cinematic lighting, A 20-year-old woman standing on a city rooftop at sunset, black silk crop top, black leather leggings, long flowing raven hair with subtle violet highlights, facial highlights accentuating high cheekbones, dramatic sky background with swirling dark clouds pierced by golden sunset rays, soft pastel tones blending into muted indigo shadows, high contrast chiaroscuro, natural skin texture with dewy complexion, dim ambient light casting delicate rim lighting, low-angle wide shot from 35mm lens, shallow depth of field blurring distant skyscrapers, neo-noir aesthetic with melancholic yet empowering atmosphere.”

说实话，Janus-Pro-7B在文生图方面差远了，这是如何击败StableDiffusion......

一句话总结（借助下群友的回复）：“生图一般，提示词反推可以。”

这就是Deepseek团队发布的Janus多模态模型，从上面的案例演示你或许也能看出，该模型也只是在图像识别方面会比较优秀，而这个模型的能力，早在其他大语言模型上实现，比如Kimi的视觉思考模型（现已经整合）。

而在未来，Deepseek肯定会在官网上线这一模型，压力又给到了国内的AI六小龙们......

那既然文生图效果不行，在ComfyUI中，使用Janus-Pro模型只剩下图像理解工作流了。

可以这样做，让Janus模型生成AI绘画提示词，而生图模型用Flux模型即可优劣互补。

Janus+Flux工作流

先加载一套Flux文生图工作流，可以在后台发送【Janus】获取（注意需要安装Flux对应的节点模型）。

在文生图工作流上，可以添加一个“Lora堆”节点，方便后续lora模型的调用。

搭建Janus+Flux工作流的方法有两种：

1、Janus+Flux工作流合并

第一种，Janus图像理解工作流与Flux文生图工作流合并。

具体操作：将“Clip文本编码器”的提示词框转换为输入连接点，并与图像理解工作流的“展示文本”连接。

上传一张图片（如图中的哪吒），在Janus图像理解工作流中输入指令：

“根据图片内容帮助我生成Stablediffusion所需要的Prompt。注意，你只需要输出Prompt，并且需要是英文。”

回复为：

Sure, here is the Prompt for Stablediffusion:

"A young boy with a mischievous grin, wearing a red and gold outfit, is surrounded by flames. He holds a staff with a fiery orb at the end, and his eyes are wide with excitement. The background is a swirling mix of dark and fiery colors, giving a sense of dynamic movement and energy."

译文为：

当然，这是稳定扩散的提示：

“一个小男孩带着顽皮的笑容，穿着红色和金色的衣服，被火焰包围。他手里拿着一根末端有一个火球的棍子，眼睛兴奋得睁得大大的。背景是深色和火红色的漩涡混合，给人一种动态运动和能量的感觉。”

虽然在StableDiffusion生图提示词中，“Sure, here is the Prompt for Stablediffusion:”是一句多余的文本，但对图像生成的效果影响不大。

在lora堆中设置两个哪吒人物的lora模型，如图所示：

那这样，我们就可以用这套工作流一键复刻上传的图像（如图中的哪吒形象）。

换一张敖光的图片测试，选择这两个敖光的Lora模型。

Janus生成的提示词为：

“Sure, here is the Stablediffusion Prompt for the image:

Prompt: "A fantasy character with white hair and pointed ears, wearing intricate silver armor with dragon motifs, holding a glowing blue sword, surrounded by a majestic white dragon with red eyes and golden accents. The background features a mystical, cloudy atmosphere with lightning effects."

这套工作流的优点是快，可以形成通过上传图片一键复刻生成。

缺点是自由度比较低，无法修改提示词，而用Janus模型+Flux模型同时运行，会对电脑的显存要求比较高。

2、Janus+Flux工作流拆分

那么，我们可以用第二种方式，将Janus和Flux拆分，形成两套工作流。

Janus图像理解工作流，负责提示词生成，然后我们手动筛选优化提示词。

在Janus工作流中输入提示词：“请详细描述图片内容，然后为我生成StableDiffusion所需要的提示词。”

Flux文生图工作流，负责图像生成，手动输入Janus模型生成的提示词。

而为了更加方便我们用提示词创作，可以在Flux工作流中增加一个翻译节点。

这样，我们就可以直接在ComfyUI中，自由的输入提示词了。

并且Janus工作流可以替代以往我们在Kimi、Claude等AI聊天软件中反推提示词的步骤。

将上述Janus生成的提示词筛选出来（这种提示词方便添加权重）：

“长发的女性，蓝色头发，头戴尖角发饰，鳞片状的服装，手臂和身体上的鳞片设计，巨大的龙，蓝色和紫色的鳞片，红色的眼睛，神秘的幻想背景，模糊的树木，天空，神秘，幻想。”

或者直接用Janus对图像的描述：

“一位身穿华丽服饰的女性角色，她拥有长长的蓝色头发，头戴装饰有尖角的发饰。她的服装以蓝色和紫色为主，带有鳞片状的纹理，与她手臂和身体上的鳞片设计相呼应。她正与一条巨大的龙互动，龙的鳞片同样是蓝色和紫色的，眼睛发出红色的光芒。背景中可以看到一些模糊的树木和天空，整体氛围充满了神秘和幻想色彩。”

然后将中文提示词直接放入翻译节点中，切换对应的lora模型。

注意！！两套工作流是单独运行处理的，所以在运行其中一个工作流时，需要将另一个工作流隐藏（全选工作流，按Ctrl+B）

最后，我们依靠Janus所反推的提示词生成了这张效果图。

但你会发现，Janus只是将画面的人物动作描述的较为详细，对风格，细节的描述则很少。

所以，如果直接使用Janus反推的提示词，生成的结果较为一般，这时，还是需要我们手动补充，或者是借助ComfyUI中其他提示词节点。

写在最后

经过对Janus模型的测试，可以得出结论：“Janus在comfyUI中的图像应用并不理想，而且所消耗的电脑资源比较大，虽然图像理解的能力还不错，但并未与其他AI聊天应用有比较明显的差距。”

所以，如果在ComfyUI中需要使用图像反推节点，我更愿意推荐“Florence 2”或“WD-14反推提示词”等节点组。

但是，认真思考下，如果是Janus模型与DeepseekR1模型相互结合呢？

Janus模型识别图像内容，R1模型在思考推理前先联网检索网上优质的提示词，最后按照用户下达的指令，写出提示词而Janus模型部署在Deepseek中也只是时间问题。

这意味着，写图像提示词的难度还会降低，甚至是不需要你动脑子想，DeepseekR1直接给你写出N种提示词方案。而你，只需要发送图片给它，用老板的语气给他下达指令......

最后，如果你想使用Janus-Pro模型，可以在公众号后台发送“Janus”领取Janus-Pro模型、Flux+Janus工作流。

如果你想要学习更多 AI 绘画技巧，可以加入我主理的《优设AI俱乐部》，俱乐部内沉淀有 2000+优质 AI 学习资料，AI 提示词、AI 工具库、AI 商业设计案例、研究报告......

感谢观看至此，如果你喜欢今天的内容，并且觉得它对你有所启发或帮助，随手给我点个赞、在看，或转发到朋友圈吧，如果想要不错过我的每一次更新，可以将我的公众号设为星标⭐~朋友们，下次再会。

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签