2025-04-21 19:42 江苏
关注公众号,发现CV技术之美
本篇分享论文SimpleAR: Pushing the Frontier of Autoregressive Visual Generation through Pretraining, SFT, and RL
,复旦联手字节Seed开源纯AR图像生成模型。
序言
基于Transformer的自回归架构在语言建模上取得了显著成功,但在图像生成领域,扩散模型凭借强大的生成质量和可控性占据了主导地位。虽然也有一些早期工作如Parti[1]、LlamaGen[2],尝试用更强的视觉tokenizer和Transformer架构来提升自回归生成的效果,但他们论文中的结果表明,只有更多的参数量才能让自回归模型勉强和扩散模型“掰掰手腕”。
这也让越来越多的研究者质疑自回归视觉生成是否是一条可行、值得探索的路径。通常来说,大家的担忧集中在三个方面:
近些时间,也有一些工作如VAR[4]和MAR[5]尝试重新定义视觉里自回归的形式,比如下一个尺度预测、或用连续token做自回归。这些方法在ImageNet这样的学术数据集上取得了不错的效果,但是也潜在地破坏了视觉模态和语言模型的对齐性。
带着好奇的心态,来自复旦视觉与学习实验室和字节Seed的研究者们希望“验一验”自回归视觉生成模型的能力,他们保持“Next-token prediction”这样简洁优美的形式,而通过优化训练和推理过程来探究自回归视觉生成是否可以像扩散模型一样取得不错的文生图效果。
方法
先说结论!这篇工作有三点惊艳的发现:
性能比较
本文提出的SimpleAR在GenEval和DPG上都取得了不错的结果,其中0.5B模型显著超越了SDv2.1和LlamaGen。值得一提的是,扩散模型和Infinity这类方法都依赖于外挂的文本编码器,如Infinity [7]使用了3B的FlanT5-XL[8],而本文提出的自回归模型则将文本(prompt)编码和视觉生成集成在了一个decoder-only的Transformer里,不仅可以更好地学习跨模态对齐,也能更加高效地利用参数。
1.5B模型的性能距离Infinity[7]还有差距,但本文相信这主要是由数据规模导致的,当用更多的高质量数据训练时,模型的性能还可以被进一步提升。此外,本文选择了Cosmos[9]作为视觉tokenizer,其在重建低分辨率图像和人脸等细节上十分有限,因此生成能力还有充分被改进的空间。
本文还首次在文生图上成功应用了GRPO进行后训练,结果表明:利用CLIP这样非常简单的reward函数,也依然可以观察到非常有潜力的reward曲线、并在GenEval上了取得了显著的性能提升:
最后是关于效率问题。本文首先尝试了用vLLM[10]将模型部署到A100上,结果表明其可以显著地提升模型的推理速度:仅需13.55秒就能生成1024分辨率的高质量图像,这显著缩小了和扩散模型的差距,并由于可以使用KV Cache技术而相比于MaskGIT更有优势。本文也实现了推断采样,其可以有效降低2倍的自回归推理步数。
可视化结果
总结和几点思考
顾名思义,SimpleAR只是团队关于自回归视觉生成的一次简单尝试,但从中可以看到自回归模型相较于扩散模型的几点优势:
本文训练及测试代码以及模型权重均已开源,希望鼓励更多的人参与到自回归视觉生成的探索中。
引用
[1] Scaling Autoregressive Models for Content-Rich Text-to-Image Generation.
[2] Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation.
[3] MaskGIT: Masked Generative Image Transformer. [4] Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction.
[5] Autoregressive Image Generation without Vector Quantization.
[6] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.
[7] Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis.
[8] Scaling Instruction-Finetuned Language Models.
[9] https://github.com/NVIDIA/Cosmos-Tokenizer
[10] https://github.com/vllm-project/vllm
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「图像生成」交流群👇备注: