CV君 2025-07-25 15:45 江苏
证明了自回归模型在图像生成领域同样具备SOTA级别的潜力
今天一篇名为《Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling》的技术报告引非常吸引人。该研究由上海人工智能实验室、香港中文大学、上海交通大学等机构的研究者们共同完成,提出了一种全新的、完全从零开始训练的独立自回归图像生成模型——Lumina-mGPT 2.0。
这项工作最引人注目的地方在于,它成功地让一度被认为潜力有限的自回归(Autoregressive, AR)范式重焕新生,在高质量图像生成领域,取得了与DALL-E 3、SANA等顶尖扩散模型相媲美,甚至在部分评测中超越它们的惊人效果。同时,它还巧妙地在一个统一框架内实现了图像生成、编辑、可控合成、密集预测等多种复杂任务。
论文标题: Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling
作者团队: Yi Xin, Juncheng Yan, Qi Qin, Zhen Li, Dongyang Liu, Shicheng Li, Victor Shea-Jay Huang, Yupeng Zhou, Renrui Zhang, Le Zhuo, Tiancheng Han, Xiaoqing Sun, Siqi Luo, Mengmeng Wang, Bin Fu, Yuewen Cao, Hongsheng Li, Guangtao Zhai, Xiaohong Liu, Yu Qiao, Peng Gao
所属机构: 上海人工智能实验室、香港中文大学、上海交通大学、上海创新研究院、浙江工业大学、南京大学
研究背景与意义
近年来,AIGC(人工智能生成内容)领域,特别是图像生成,几乎被扩散模型(Diffusion Models)所主导。扩散模型通过从噪声中逐步去噪来生成图像,其生成质量和逼真度达到了前所未有的高度。然而,这种主流范式也存在一些局限,例如依赖复杂的预训练组件(如CLIP)、架构设计受限、以及在多任务处理上的灵活性不足。
与此同时,自回归模型,这种像“写小说”一样、一个token接一个token-地生成内容的范式,虽然在语言模型领域大放异彩(如GPT系列),但在图像生成上却似乎遇到了瓶颈。它们通常被认为在生成质量上不及扩散模型,且推理速度较慢。
Lumina-mGPT 2.0的研究者们挑战了这一普遍认知。他们认为,自回归模型固有的灵活性、组合性和可解释性,使其在统一多模态任务上具有巨大潜力。因此,他们决定重新审视并重振自回归范式,通过一个完全从零开始训练的、独立的、仅解码器(decoder-only)的模型,来证明其不仅能迎头赶上,还能在统一生成框架下实现更广泛的应用。
Lumina-mGPT 2.0展现出的强大且统一的多任务处理能力。
核心方法与技术创新
Lumina-mGPT 2.0的成功并非偶然,其背后是一系列精心设计的技术创新。
1. 纯粹的仅解码器自回归架构
与依赖U-Net等复杂结构的扩散模型不同,Lumina-mGPT 2.0采用了更为简洁的仅解码器Transformer架构。这种架构完全基于自回归原理,通过预测下一个图像“token”来逐步完成图像的生成。该模型完全从零开始训练,摆脱了对任何预训练组件的依赖,这不仅赋予了其最大的架构设计自由度,也确保了其授权的灵活性。
Lumina-mGPT 2.0的仅解码器Transformer架构图
2. 统一的多任务生成框架
该研究的第一个核心创新是其统一的tokenization和生成方案。研究者设计了一种巧妙的“光栅扫描(Raster-Scan)”方案,将文本提示、参考图像和控制信号等不同模态的信息,统一编码成序列token。
统一生成方案示意图,模型可根据上下文无缝衔接生成内容
这种设计使得模型可以在一个单一的生成流程中,无缝处理各种看似不同的任务。无论是根据文本提示生成全新图像,还是在给定上半部分图像后进行“图像续写”,亦或是根据Canny边缘、深度图、人体姿态等条件进行可控生成,甚至是进行图像修复和主体驱动生成,所有任务都被统一为“预测下一个token”的自回归过程。
用于控制不同下游任务的系统提示(System Prompt)设计
3. 高效的图像Tokenizer与解码策略
为了将图像转换为模型可以处理的离散token,研究团队对现有的图像Tokenizer(如VQGAN、ViT-VQGAN)进行了详细评估。他们发现,尽管这些Tokenizer在重建质量上存在差异,但最终对生成模型的性能影响并不显著。
不同图像Tokenizer的重建效果对比
不同图像Tokenizer的重建性能指标
更重要的是,为了提升自回归模型的生成质量和速度,研究者引入了两种高效的解码策略:
推理时缩放(Inference-time Scaling):通过在推理阶段调整模型的注意力分数,显著提升生成图像的质量和保真度。
投机性Jacobi采样(Speculative Jacobi Sampling):这是一种并行解码技术,可以有效加速生成过程,缓解自回归模型逐个token生成所带来的速度瓶頸。
4. 引入“思考过程”提升生成质量
一个有趣且新颖的尝试是,团队为模型引入了类似人类的“思考过程”。在接收到用户较为模糊的提示时,模型会先调用GPT-4o等强大的语言模型进行“思考”,将简单的提示扩展成一个更详细、更具逻辑性的分步计划,然后再根据这个“思考后”的详细提示进行生成。这种方法能显著提升最终生成图像的连贯性和质量。
高质量采样流程,引入了“思考”和“N选优”策略
调用GPT-4o进行“思考”的示例
实验结果与分析
Lumina-mGPT 2.0在多个主流文本到图像生成基准测试(如GenEval和DPG-Bench)上进行了广泛评估。结果显示,其性能不仅与DALL-E 3、SANA等顶尖的闭源或开源扩散模型相当,在GenEval等评测中,其FID(Fréchet Inception Distance,一种衡量图像生成质量的指标,越低越好)分数甚至优于DALL-E 3。
此外,在Graph200K基准测试中,原生的Lumina-mGPT 2.0也展现出了卓越的多任务处理能力,证明了其统一生成框架的有效性。
更多结果展示
Lumina mGPT 2.0在文本到图像生成和多任务生成结果
Lumina mGPT 2.0、Lumina mGP和Janus Pro之间在文本到图像的视觉比较
Lumina mGPT 2.0、Lumina mGP、OneDiffusion和OmniGen之间可控/受试者驱动生成的视觉比较。控制输入包括Canny(第一行)和Depth(第二行)。
从上面两表中,作者验证了Lumina-mGPT 2.0在可控生成(表5)和主题驱动生成(表6)方面的能力。结果表明,Lumina-mGPT 2.0作为通用多模态模型表现卓越:在可控生成领域,该模型在Canny边缘图和深度图条件下均展现出顶尖的结构遵循能力,同时保持优异的图像质量与文本一致性;在主题驱动任务中,其主体身份保持度超越所有对比模型,并在图像一致性与文本对齐方面取得突出成果。
论文贡献与价值
Lumina-mGPT 2.0的问世,具有多方面的贡献和价值:
范式突破: 它有力地证明了,自回归模型在图像生成领域同样具备SOTA(State-of-the-Art)级别的潜力,打破了扩散模型一家独大的局面,为AIGC技术路线提供了新的可能性。
统一框架: 提出了一个强大、灵活且统一的多模态生成基础模型,能够仅用一个模型便高效处理多种复杂的生成和编辑任务,极具研究和应用价值。
开源共享: 团队开源了训练细节、代码和模型,这对于整个AI社区无疑是一份宝贵的财富,将极大地推动相关领域的研究和发展。
设计自由: “从零开始”的训练方式,摆脱了对特定预训练模型的依赖,为未来更大规模、更自由的模型设计铺平了道路。
总而言之,Lumina-mGPT 2.0不仅是一款性能强大的图像生成模型,更是对自回归技术范式的一次成功“复兴”和重要探索。它向我们展示了通往更通用、更灵活的多模态人工智能的一条可行路径。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net