CV君 2025-07-25 15:45 江苏
证明了自回归模型在图像生成领域同样具备SOTA级别的潜力
今天一篇名为《Lumina-mGPT 2.0: Stand-Alone AutoRegressive Image Modeling》的技术报告引非常吸引人。该研究由上海人工智能实验室、香港中文大学、上海交通大学等机构的研究者们共同完成,提出了一种全新的、完全从零开始训练的独立自回归图像生成模型——Lumina-mGPT 2.0。
这项工作最引人注目的地方在于,它成功地让一度被认为潜力有限的自回归(Autoregressive, AR)范式重焕新生,在高质量图像生成领域,取得了与DALL-E 3、SANA等顶尖扩散模型相媲美,甚至在部分评测中超越它们的惊人效果。同时,它还巧妙地在一个统一框架内实现了图像生成、编辑、可控合成、密集预测等多种复杂任务。
近年来,AIGC(人工智能生成内容)领域,特别是图像生成,几乎被扩散模型(Diffusion Models)所主导。扩散模型通过从噪声中逐步去噪来生成图像,其生成质量和逼真度达到了前所未有的高度。然而,这种主流范式也存在一些局限,例如依赖复杂的预训练组件(如CLIP)、架构设计受限、以及在多任务处理上的灵活性不足。
与此同时,自回归模型,这种像“写小说”一样、一个token接一个token-地生成内容的范式,虽然在语言模型领域大放异彩(如GPT系列),但在图像生成上却似乎遇到了瓶颈。它们通常被认为在生成质量上不及扩散模型,且推理速度较慢。
Lumina-mGPT 2.0的研究者们挑战了这一普遍认知。他们认为,自回归模型固有的灵活性、组合性和可解释性,使其在统一多模态任务上具有巨大潜力。因此,他们决定重新审视并重振自回归范式,通过一个完全从零开始训练的、独立的、仅解码器(decoder-only)的模型,来证明其不仅能迎头赶上,还能在统一生成框架下实现更广泛的应用。
Lumina-mGPT 2.0展现出的强大且统一的多任务处理能力。
核心方法与技术创新Lumina-mGPT 2.0的成功并非偶然,其背后是一系列精心设计的技术创新。
1. 纯粹的仅解码器自回归架构与依赖U-Net等复杂结构的扩散模型不同,Lumina-mGPT 2.0采用了更为简洁的仅解码器Transformer架构。这种架构完全基于自回归原理,通过预测下一个图像“token”来逐步完成图像的生成。该模型完全从零开始训练,摆脱了对任何预训练组件的依赖,这不仅赋予了其最大的架构设计自由度,也确保了其授权的灵活性。
Lumina-mGPT 2.0的仅解码器Transformer架构图
2. 统一的多任务生成框架该研究的第一个核心创新是其统一的tokenization和生成方案。研究者设计了一种巧妙的“光栅扫描(Raster-Scan)”方案,将文本提示、参考图像和控制信号等不同模态的信息,统一编码成序列token。
统一生成方案示意图,模型可根据上下文无缝衔接生成内容
这种设计使得模型可以在一个单一的生成流程中,无缝处理各种看似不同的任务。无论是根据文本提示生成全新图像,还是在给定上半部分图像后进行“图像续写”,亦或是根据Canny边缘、深度图、人体姿态等条件进行可控生成,甚至是进行图像修复和主体驱动生成,所有任务都被统一为“预测下一个token”的自回归过程。
用于控制不同下游任务的系统提示(System Prompt)设计
3. 高效的图像Tokenizer与解码策略为了将图像转换为模型可以处理的离散token,研究团队对现有的图像Tokenizer(如VQGAN、ViT-VQGAN)进行了详细评估。他们发现,尽管这些Tokenizer在重建质量上存在差异,但最终对生成模型的性能影响并不显著。
不同图像Tokenizer的重建效果对比
不同图像Tokenizer的重建性能指标
更重要的是,为了提升自回归模型的生成质量和速度,研究者引入了两种高效的解码策略:
推理时缩放(Inference-time Scaling):通过在推理阶段调整模型的注意力分数,显著提升生成图像的质量和保真度。投机性Jacobi采样(Speculative Jacobi Sampling):这是一种并行解码技术,可以有效加速生成过程,缓解自回归模型逐个token生成所带来的速度瓶頸。4. 引入“思考过程”提升生成质量一个有趣且新颖的尝试是,团队为模型引入了类似人类的“思考过程”。在接收到用户较为模糊的提示时,模型会先调用GPT-4o等强大的语言模型进行“思考”,将简单的提示扩展成一个更详细、更具逻辑性的分步计划,然后再根据这个“思考后”的详细提示进行生成。这种方法能显著提升最终生成图像的连贯性和质量。
高质量采样流程,引入了“思考”和“N选优”策略
调用GPT-4o进行“思考”的示例
实验结果与分析Lumina-mGPT 2.0在多个主流文本到图像生成基准测试(如GenEval和DPG-Bench)上进行了广泛评估。结果显示,其性能不仅与DALL-E 3、SANA等顶尖的闭源或开源扩散模型相当,在GenEval等评测中,其FID(Fréchet Inception Distance,一种衡量图像生成质量的指标,越低越好)分数甚至优于DALL-E 3。
此外,在Graph200K基准测试中,原生的Lumina-mGPT 2.0也展现出了卓越的多任务处理能力,证明了其统一生成框架的有效性。
更多结果展示
Lumina mGPT 2.0在文本到图像生成和多任务生成结果
Lumina mGPT 2.0、Lumina mGP和Janus Pro之间在文本到图像的视觉比较
Lumina mGPT 2.0、Lumina mGP、OneDiffusion和OmniGen之间可控/受试者驱动生成的视觉比较。控制输入包括Canny(第一行)和Depth(第二行)。
从上面两表中,作者验证了Lumina-mGPT 2.0在可控生成(表5)和主题驱动生成(表6)方面的能力。结果表明,Lumina-mGPT 2.0作为通用多模态模型表现卓越:在可控生成领域,该模型在Canny边缘图和深度图条件下均展现出顶尖的结构遵循能力,同时保持优异的图像质量与文本一致性;在主题驱动任务中,其主体身份保持度超越所有对比模型,并在图像一致性与文本对齐方面取得突出成果。
论文贡献与价值Lumina-mGPT 2.0的问世,具有多方面的贡献和价值:
范式突破: 它有力地证明了,自回归模型在图像生成领域同样具备SOTA(State-of-the-Art)级别的潜力,打破了扩散模型一家独大的局面,为AIGC技术路线提供了新的可能性。统一框架: 提出了一个强大、灵活且统一的多模态生成基础模型,能够仅用一个模型便高效处理多种复杂的生成和编辑任务,极具研究和应用价值。开源共享: 团队开源了训练细节、代码和模型,这对于整个AI社区无疑是一份宝贵的财富,将极大地推动相关领域的研究和发展。设计自由: “从零开始”的训练方式,摆脱了对特定预训练模型的依赖,为未来更大规模、更自由的模型设计铺平了道路。总而言之,Lumina-mGPT 2.0不仅是一款性能强大的图像生成模型,更是对自回归技术范式的一次成功“复兴”和重要探索。它向我们展示了通往更通用、更灵活的多模态人工智能的一条可行路径。
了解最新 AI 进展,欢迎关注公众号
投稿寻求报道请发邮件:amos@52cv.net