硅基流动 01月30日
SiliconCloud 上线 DeepSeek 多模态模型:Janus-Pro-7B 来了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源了Janus-Pro多模态大语言模型,该模型统一了图像理解与生成,在多模态理解和图像生成指令执行能力方面表现出色,并提高了文本到图像生成的稳定性。Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了DALL-E 3和Stable Diffusion。SiliconCloud平台第一时间上线了Janus-Pro-7B,提供API调用,并支持用户对比体验多款大模型。ComfyUI云节点BizyAir也同步支持,方便用户直接调用。该模型采用自回归框架,通过解耦视觉编码通道,增强了灵活性,并超越了以往的统一模型。

💡Janus-Pro 采用自回归框架,统一了多模态理解和生成,通过解耦视觉编码为独立通道,使用统一的Transformer架构,解决了以往方案的局限性,增强了框架的灵活性。

🚀Janus-Pro 在性能上媲美甚至超越了在特定任务上表现出色的模型,并且简洁、高效,使其成为下一代统一多模态模型的有力竞争者。

🖼️虽然 Janus-Pro 在多模态理解方面输入分辨率限制为384×384,影响了其在细粒度任务中的表现,文本生成图像方面虽然语义内容丰富,但细节仍有不足。

☁️SiliconCloud 平台已上线 Janus-Pro-7B,并提供免费API调用,同时支持用户对比体验数十款大模型,BizyAir也同步支持,方便用户直接调用。

原创 SiliconCloud 2025-01-28 17:38 美国

Janus 统一了多模态理解和生成。


今天凌晨,DeepSeek 开源了统一图像理解与生成的多模态大语言模型 Janus-Pro,其在多模态理解和图像生成指令执行能力方面取得了显著进步,同时提高了文本到图像生成的稳定性。其中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3 和 Stable Diffusion。 

硅基流动大模型云服务平台 SiliconCloud 第一时间上线了 Janus-Pro-7B(限时免费,可生成像素为 384 x 384 的图像),免去开发者的部署门槛,只需在开发应用时轻松调用 API,带来更高效的使用体验。平台还支持开发者自由对比体验数十款大模型,为你的生成式AI应用选择最佳实践。同时,ComfyUI 云节点 BizyAir 也在第一时间支持了 Janus-Pro-7B ,用户可在选择模型时直接调用。


 

在线体验 

https://cloud.siliconflow.cn/playground/image/17885302720
 

API 文档 

https://docs.siliconflow.cn/api-reference/images/images-generations

BizyAir 地址
https://github.com/siliconflow/BizyAir


感受下 SiliconCloud 上 Janus-Pro-7B 的图像生成效果。


提示词(左)a new year poster for the year of the snake, cute, festive, with the title "Happy new year" 

提示词(右):a portrait photo of a young Chinese woman in a park. Her long black hair flows gently. The scene is enhanced by the soft pink of cherry blossoms in the background.

 


提示词(左):a beautiful girl with flowers and a bottle of perfume, in the style of art nouveau-inspired illustrations, dark gold and sky-blue, michael martchenko, naoko takeuchi, dark cyan and red, patricia polacco, colorful dreams 

 

提示词(右):close up photo of a rabbit, forest in spring, haze, halation, bloom, dramatic atmosphere, centred, rule of thirds, 200mm 1.4f macro shot. 


模型特点及性能

 

Janus-Pro 使用了一种新颖的自回归框架,统一了多模态理解和生成。具体而言: 

 

1. 通过将视觉编码解耦为独立的通道解决先前方案的局限性,同时仍然使用单一的统一 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成任务之间的冲突,还增强了框架的灵活性。 

 

2. Janus-Pro 超越了以前的统一模型,并且在性能上媲美或超过了在特定任务上表现出色的模型。

 

 

3. Janus-Pro 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。

不过,Janus-Pro 仍存在一些局限性。
在多模态理解方面,输入分辨率限制为384×384,这影响了其在诸如 OCR 等细粒度任务中的表现。文本生成图像方面,虽然图像的语义内容丰富,但仍然缺乏细节。 


Token 工厂 SiliconCloud

Qwen2.5(7B)等 20+ 模型免费用


作为一站式大模型云服务平台,SiliconCloud 致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型 API。
除了 Janus-Pro-7B,SiliconCloud 已上架包括 CosyVoice2QVQ-72B-PreviewDeepSeek-VL2DeepSeek-V2.5-1210Llama-3.3-70B-InstructHunyuanVideofish-speech-1.5QwQ-32B-PreviewQwen2.5-7B/14B/32B/72BFLUX.1InternLM2.5-20B-ChatBCE、BGESenseVoice-SmallGLM-4-9B-Chat 在内的数十种开源大语言模型、图片/视频生成模型、语音模型、代码/数学模型以及向量与重排序模型。  



其中,Qwen2.5(7B)、Llama3.1(8B)等 20+ 大模型 API 免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。

近期更新

 BizyAir用户评测:无显卡玩转ComfyUI
 Siliconcloud上线加速版CosyVoice2
 音频模型调用成本高?SiliconCloud价格砍半
 SiliconCloud x Chatbox:LLM客户端服务

 成本直降100倍!LLM清洗/蒸馏数据高效方法
 4步速通LLM微调:手把手带你打造领域大模型

让超级产品开发者实现“Token自由”

邀好友用SiliconCloud,狂送2000万Token/人

即刻体验
加速版DeepSeek-VL2

cloud.siliconflow.cn

扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Janus-Pro 多模态 大语言模型 SiliconCloud AI生成
相关文章