掘金 人工智能 16小时前
开源新基准!OmniGen2 文本图像对齐度提升 8.6%,视觉一致性超越现有开源模型15%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OmniGen2是北京人工智能研究院发布的开源多模态生成模型,旨在统一文本到图像生成、图像编辑和上下文生成等多种任务。其核心创新在于采用双路径解码架构和自我反思机制,为文本和图像模态设计了独立的解码路径和非共享参数,并在现有模型基础上进行构建,保留了强大的文本生成能力。该模型在OpenBayes云平台提供便捷的使用教程,用户可一键克隆并使用预设的算力资源和镜像,快速体验文本生成图片和图像编辑等功能,并可调整多种参数以优化生成效果。

✨ OmniGen2采用创新的双路径解码架构,为文本和图像模态设计了独立的解码路径和非共享参数,这使得模型能够基于现有的多模态理解模型进行构建,无需重新适应VAE输入,从而有效保留了原有的文本生成能力,解决了多模态生成任务的统一性问题。

🌟 该模型的核心创新点之一是引入了自我反思机制,这一机制能够提升模型在生成过程中的准确性和创造性,使其成为当前开源多模态模型领域的新标杆,为相关研究和应用提供了坚实的基础。

🚀 OmniGen2在OpenBayes云平台上提供了便捷的“公共教程”和一键克隆功能,用户无需复杂的环境配置即可快速上手。平台会自动匹配所需的算力资源和镜像版本,极大地降低了使用门槛,让用户能够专注于模型的功能体验。

🖼️ 用户可以通过调整多种参数,如文本引导尺度、图像引导尺度、推理步骤、种子等,来精细控制生成图像的风格和内容。通过简单的文本提示,即可实现文本到图片的生成,例如“The girl by the sea”,并且可以对生成的图像进行编辑,如“Put a hat on her.”,展现了其强大的图像编辑能力。

💡 OmniGen2不仅支持文本到图像生成,还具备图像编辑和上下文生成的能力,为开发者和研究者提供了一个统一且强大的多模态生成解决方案,推动了多模态人工智能技术的发展和应用落地。

OmniGen2 是北京人工智能研究院(BAAI)于 2025 年 6 月 16 日发布的开源多模态生成模型,旨在为多种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑和上下文生成。与 OmniGen v1 不同,OmniGen2 为文本和图像模态设计了两条独立的解码路径,采用了非共享参数和分离的图像分词器。这一设计使得 OmniGen2 能够在现有的多模态理解模型基础上进行构建,而无需重新适应 VAE 输入,从而保留了原有的文本生成能力。其核心创新在于双路径架构和自我反思机制,成为当前开源多模态模型的新标杆。相关论文成果为「OmniGen2: Exploration to Advanced Multimodal Generation」。

教程链接:go.openbayes.com/oCWcX

使用云平台: OpenBayes

openbayes.com/console/sig…

首先点击「公共教程」,在公共教程中找到「OmniGen2:探索高级多模态生成」,单击打开。

页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在当前页面中看到的算力资源均可以在平台一键选择使用。平台会默认选配好原教程所使用的算力资源、镜像版本,不需要再进行手动选择。点击「继续执行」,等待分配资源。

数据和代码都已经同步完成了。容器状态显示为「运行中」后,点击「 API 地址」,即可进入界面。若显示「Bad Gateway」,这表示模型正在初始化,由于模型较大,请等待约 2-3 分钟后刷新页面。

具体参数:

官方在这里给出了很多案例,大家可以自行尝试。

我们首先使用文本生成图片功能,输入 prompt「The girl by the sea」后点击「Generate」,可以看到它快速生成了一张在海边的女孩。

接下来可以保存图片,进行图片编辑,输入 prompt「Put a hat on her.」后点击「Generate」,可以看给女孩戴了一顶帽子。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OmniGen2 多模态生成 AI模型 开源 图像编辑
相关文章