原创 SiliconCloud 2025-01-28 17:38 美国
Janus 统一了多模态理解和生成。
今天凌晨,DeepSeek 开源了统一图像理解与生成的多模态大语言模型 Janus-Pro,其在多模态理解和图像生成指令执行能力方面取得了显著进步,同时提高了文本到图像生成的稳定性。其中,Janus-Pro-7B 在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3 和 Stable Diffusion。
硅基流动大模型云服务平台 SiliconCloud 第一时间上线了 Janus-Pro-7B(限时免费,可生成像素为 384 x 384 的图像),免去开发者的部署门槛,只需在开发应用时轻松调用 API,带来更高效的使用体验。平台还支持开发者自由对比体验数十款大模型,为你的生成式AI应用选择最佳实践。同时,ComfyUI 云节点 BizyAir 也在第一时间支持了 Janus-Pro-7B ,用户可在选择模型时直接调用。
在线体验
https://cloud.siliconflow.cn/playground/image/17885302720
API 文档
https://docs.siliconflow.cn/api-reference/images/images-generations
BizyAir 地址
https://github.com/siliconflow/BizyAir
感受下 SiliconCloud 上 Janus-Pro-7B 的图像生成效果。
提示词(左)a new year poster for the year of the snake, cute, festive, with the title "Happy new year"
提示词(右):a portrait photo of a young Chinese woman in a park. Her long black hair flows gently. The scene is enhanced by the soft pink of cherry blossoms in the background.
提示词(左):a beautiful girl with flowers and a bottle of perfume, in the style of art nouveau-inspired illustrations, dark gold and sky-blue, michael martchenko, naoko takeuchi, dark cyan and red, patricia polacco, colorful dreams
提示词(右):close up photo of a rabbit, forest in spring, haze, halation, bloom, dramatic atmosphere, centred, rule of thirds, 200mm 1.4f macro shot.
模型特点及性能
Janus-Pro 使用了一种新颖的自回归框架,统一了多模态理解和生成。具体而言:
1. 通过将视觉编码解耦为独立的通道解决先前方案的局限性,同时仍然使用单一的统一 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成任务之间的冲突,还增强了框架的灵活性。
2. Janus-Pro 超越了以前的统一模型,并且在性能上媲美或超过了在特定任务上表现出色的模型。
3. Janus-Pro 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。
不过,Janus-Pro 仍存在一些局限性。在多模态理解方面,输入分辨率限制为384×384,这影响了其在诸如 OCR 等细粒度任务中的表现。文本生成图像方面,虽然图像的语义内容丰富,但仍然缺乏细节。
Token 工厂 SiliconCloud
Qwen2.5(7B)等 20+ 模型免费用
作为一站式大模型云服务平台,SiliconCloud 致力于为开发者提供极速响应、价格亲民、品类齐全、体验丝滑的模型 API。
除了 Janus-Pro-7B,SiliconCloud 已上架包括 CosyVoice2、QVQ-72B-Preview、DeepSeek-VL2、DeepSeek-V2.5-1210、Llama-3.3-70B-Instruct、HunyuanVideo、fish-speech-1.5、QwQ-32B-Preview、Qwen2.5-7B/14B/32B/72B、FLUX.1、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、GLM-4-9B-Chat 在内的数十种开源大语言模型、图片/视频生成模型、语音模型、代码/数学模型以及向量与重排序模型。
其中,Qwen2.5(7B)、Llama3.1(8B)等 20+ 大模型 API 免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。
近期更新
• BizyAir用户评测:无显卡玩转ComfyUI
• Siliconcloud上线加速版CosyVoice2
• 音频模型调用成本高?SiliconCloud价格砍半
• SiliconCloud x Chatbox:LLM客户端服务
• 成本直降100倍!LLM清洗/蒸馏数据高效方法
• 4步速通LLM微调:手把手带你打造领域大模型
让超级产品开发者实现“Token自由”
邀好友用SiliconCloud,狂送2000万Token/人
即刻体验加速版DeepSeek-VL2
cloud.siliconflow.cn
扫码加入用户交流群