index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
南洋理工大学 S-Lab 和商汤科技联合推出了 OpenUni,一款开源的多模态模型,旨在统一视觉理解和图像生成。该模型仅使用 11 亿参数,却能达到 80 亿参数模型的性能水平,并且完全开源了代码、权重和数据集。OpenUni 采用了极简的架构设计,参数效率高,性能表现出色,为多模态研究提供了新的基准。
💡 架构极简:OpenUni 仅使用 6 层连接器,相比 MetaQuery 的 24 层连接器,架构设计大幅精简,使得模型更易于训练和部署。
⚡ 参数高效:OpenUni-B-512 模型仅需 11 亿参数,在 GenEval 评测中达到 0.84 分,与 BLIP3-o-8B 模型的性能相当,展现了卓越的参数效率。
📂 完全开源:研究团队公开了 OpenUni 的所有核心资源,包括模型权重、训练代码和 2300 万数据集,为研究人员提供了可复现、易扩展的基线,促进了社区的研究和创新。
2025-06-22 12:26 北京
南洋理工大学 S-Lab和商汤科技推出 OpenUni—— 仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源

随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源!
技术报告: OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院作者: Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy开源代码: https://github.com/wusize/OpenUni联系方式: size001@e.ntu.edu.sg架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL(理解)与 SANA(生成)图 1:OpenUni 在生成任务上的性能表现,展示了其高效的参数利用三大核心优势1. 🏗️ 架构极简仅 6 层连接器,相比 MetaQuery 的 24 层大幅精简2. ⚡ 参数高效1.1B 参数达到 GenEval 0.84 分,与 BLIP3-o-8B 模型性能相当3. 📂 完全开源模型权重 + 训练代码 + 2300 万数据集全部公开架构设计与训练策略OpenUni 遵循 MetaQuery 的设计理念,包含四个核心组件:1.256 个可学习查询 - 从用户指令中提取条件信息2. 冻结的 InternVL - 保持原有理解能力3.6 层 transformer 连接器 - 基于 ViT 架构4.SANA 扩散模型 - 高效图像生成模型对比
* 对于 BLIP3-o,将预测 CLIP 特征的 DiT 视为连接器关键特点: - 连接器参数大幅减少 - 使用更小的 MLLM 和扩散模型 - 训练数据完全公开两阶段训练策略第一阶段:预训练(2300 万图文对)目标:训练可学习查询和连接器策略:冻结 MLLM 和扩散模型数据:公开数据集,使用 LLM/MLLM 重新标注第二阶段:微调(6 万图文对)目标:提升生成质量策略:解冻扩散模型,联合优化数据:BLIP3-o 贡献的高质量数据集性能验证OpenUni 在参数效率上表现出色:OpenUni-B-512:1.1B 激活参数,GenEval 达到 0.84 分,与 BLIP3-o-8B 持平OpenUni-L-512:3.1B 激活参数,GenEval 达到 0.85 分OpenUni-L-1024:3.1B 激活参数,GenEval 达到 0.86 分,为开源统一模型最佳其他基准测试DPG-Bench:OpenUni-L-1024 获得 83.08 分,超越所有 MetaQuery 和 BLIP3-o 变体WISE:OpenUni-L 达到 0.52 分,与 BLIP3-o-8B(公开数据版)持平生成效果展示
图 2:OpenUni-L-1024 生成的多样化高质量图像多模态理解能力由于采用冻结 InternVL3 的策略,OpenUni 继承了其理解能力:
图 3:OpenUni-L 的多模态理解能力展示理解基准测试
应用前景与开源贡献OpenUni 提供完整的开源资源:✅ 模型权重 - 所有训练阶段的 checkpoint✅ 训练代码 - 完整训练 pipeline✅ 2300 万训练数据 - 包含重新生成的 caption✅ 详细文档 - 训练配置和复现指南研究团队指出了当前的局限:生成图像中渲染文字的能力有限最大模型基于 2B MLLM 和 1.6B 扩散模型,有待扩展图像到图像生成任务将在未来版本支持GenEval 的局限性,由于 prompt 范式固定,模型经过 GPT4o 蒸馏数据(BLIP4o-60K)微调后在 GenEval 上大幅提升;作为统一模型(Show-o,Janus,Harmon,Bagel)常用的指标,GenEval 难以再真正衡量模型能力总结OpenUni 为统一多模态模型提供了一个简单但强大的基线。通过极简的架构设计和高效的参数利用,OpenUni 展示了:更少的参数可以达到有竞争力的性能简单的设计往往更有效完全开源促进社区研究和创新作为一个持续进行的项目,OpenUni 为研究社区提供了清晰、可复现、易扩展的基线实现。© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com









阅读原文
跳转微信打开