机器之心 17小时前
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

南洋理工大学 S-Lab 和商汤科技合作推出的 OpenUni,是一个开源的多模态模型,旨在统一视觉理解和图像生成。该模型仅用 11 亿参数就达到了与 80 亿参数模型相当的性能,并且完全开源了代码、权重和训练数据。OpenUni 采用了简洁的架构设计和高效的参数利用策略,在多项基准测试中表现出色,为研究社区提供了清晰、可复现、易扩展的基线实现。

🏗️ **架构极简**: OpenUni 采用仅有 6 层连接器的轻量级架构,相较于 MetaQuery 的 24 层连接器,大幅简化了模型结构,提高了效率。

⚡ **参数高效**: OpenUni-B-512 模型仅用 11 亿参数,在 GenEval 评估中达到 0.84 分,性能与 BLIP3-o-8B 模型相当,展现了其卓越的参数利用效率。

📂 **完全开源**: OpenUni 完全开源了模型权重、训练代码和包含重新生成的 caption 的 2300 万训练数据集,为研究人员提供了宝贵的资源,促进了社区的进一步研究。

🧠 **多模态能力**: OpenUni 继承了冻结的 InternVL 的理解能力,能够处理多模态输入,并生成多样化、高质量的图像。

🛠️ **两阶段训练策略**: OpenUni 采用两阶段训练策略,第一阶段使用 2300 万图文对进行预训练,第二阶段使用 6 万图文对进行微调,以提升生成质量。

2025-06-22 12:26 北京

南洋理工大学 S-Lab和商汤科技推出 OpenUni—— 仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源


随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。


南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源!




架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL(理解)与 SANA(生成)


图 1:OpenUni 在生成任务上的性能表现,展示了其高效的参数利用


三大核心优势


1. 🏗️ 架构极简


仅 6 层连接器,相比 MetaQuery 的 24 层大幅精简


2. ⚡ 参数高效


1.1B 参数达到 GenEval 0.84 分,与 BLIP3-o-8B 模型性能相当


3. 📂 完全开源

模型权重 + 训练代码 + 2300 万数据集全部公开


架构设计与训练策略


OpenUni 遵循 MetaQuery 的设计理念,包含四个核心组件:


1.256 个可学习查询 - 从用户指令中提取条件信息


2. 冻结的 InternVL - 保持原有理解能力


3.6 层 transformer 连接器 - 基于 ViT 架构


4.SANA 扩散模型 - 高效图像生成


模型对比

* 对于 BLIP3-o,将预测 CLIP 特征的 DiT 视为连接器


关键特点: - 连接器参数大幅减少 - 使用更小的 MLLM 和扩散模型 - 训练数据完全公开


两阶段训练策略


第一阶段:预训练(2300 万图文对)



第二阶段:微调(6 万图文对)




性能验证


OpenUni 在参数效率上表现出色:



其他基准测试



生成效果展示


图 2:OpenUni-L-1024 生成的多样化高质量图像


多模态理解能力


由于采用冻结 InternVL3 的策略,OpenUni 继承了其理解能力:


图 3:OpenUni-L 的多模态理解能力展示


理解基准测试



应用前景与开源贡献


OpenUni 提供完整的开源资源:


✅ 模型权重 - 所有训练阶段的 checkpoint

✅ 训练代码 - 完整训练 pipeline

✅ 2300 万训练数据 - 包含重新生成的 caption

✅ 详细文档 - 训练配置和复现指南


研究团队指出了当前的局限:


总结


OpenUni 为统一多模态模型提供了一个简单但强大的基线。通过极简的架构设计和高效的参数利用,OpenUni 展示了:



作为一个持续进行的项目,OpenUni 为研究社区提供了清晰、可复现、易扩展的基线实现。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenUni 多模态模型 开源 图像生成 参数效率
相关文章