2025-04-22 14:33 江苏
关注公众号,发现CV技术之美
来自复旦大学和美团的研究者们提出了 UniToken —— 一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。
UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新的范式。为了便于社区内研究者们复现与进一步开发,代码与模型已全部开源👇
任务背景:统一建模的挑战
在传统图文理解或图像生成模型中,其视觉编码的底层特性差异较大。譬如图文理解模型(如LLaVA、Qwen-VL等)要求从图像中抽取高层语义,从而进一步结合文本进行协同理解;而图像生成模型(如DALL-E、Stable Diffusion等)则要求保留充分的底层细节以高保真图像的生成。由此,开发理解生成一体化的多模态大模型面临着以下几大难题:
为了应对上述挑战,领域内的相关工作通常采取两类范式:以VILA-U等为代表的工作通过结合图像重建与图文对比学习的训练目标,来提升离散视觉编码的语义丰富度;以Janus等为代表的工作通过为理解和生成任务分别定制相应的视觉编码器与预测头,来实现两个任务之间的解耦。
然而,前者在理解任务上目前依旧难以与连续视觉编码驱动的多模态大模型匹敌;后者则在应对更复杂的多模任务(例如多轮图像编辑等)时面临严重的上下文切换开销及单边信息缺失等问题。
UniToken:统一视觉表示,融合两种世界
1. 核心设计:连续+离散双编码器
不同于Janus的多任务解耦的设计思路,UniToken为所有下游任务均提供一套完备的视觉信息,促使多模态大模型以指令驱动的形式从中吸收相应的知识。具体而言,UniToken采取统一的双边视觉编码器,其中将VQ-GAN的离散编码与SigLIP的连续表征以下述方式进行拼接,从而得到一套兼备高层语义与底层细节的视觉编码:
[BOS][BOI]{离散图像token}[SEP]{连续图像embedding}[EOI]{文本}[EOS]
2. 多阶段训练策略
为了协调理解与生成任务的特性,UniToken采用三阶段训练流程:
阶段一:视觉语义空间对齐:基于Chameleon作为基座,本阶段旨在为LLM接入SigLIP的连续视觉编码。为此,在训练时冻结LLM,仅训练SigLIP ViT和Adapter,使其输出与语言空间对齐。
阶段二:多任务联合训练:基于第一阶段对齐后的双边编码器所提供的完备视觉信息,本阶段在大规模图文理解与图像生成数据集上联合训练,通过控制数据配比(10M:10M)以均衡提升模型理解与生成任务的性能。
阶段三:指令强化微调:通过测试发现,第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强,故在本阶段进一步引入高质量多模态对话(423K)与精细化图像生成数据(100K),进一步增强模型对复杂指令的跟随能力。
3. 细粒度视觉增强
得益于保存了双边视觉编码的完备性,UniToken可无缝衔接现有的细粒度视觉增强技术。具体而言,UniToken在连续视觉编码侧引入两项增强策略
实验结果:超越SOTA,多模态统一的“优等生”
在多个主流多模态基准(图文理解+图像生成)上,UniToken均取得了媲美甚至领先于领域内专用模型的性能:
与此同时,研究者们对于训练策略及视觉编码的影响进行了进一步深入的消融分析:
结语与未来展望:迈向通用理解生成一体化的多模态大模型
从发展趋势上来看,目前图文理解模型在通用性上远远领先于图像生成模型。而Gemini-2.0-Flash与GPT-4o在指令跟随的图像生成方面的惊艳表现,带来了通用图像生成模型未来的曙光。在这样的时代背景下,UniToken仅是初步的尝试,而其信息完备的特性也为进一步挖掘其更深层次的潜力提供了更多信心:
最新 AI 进展报道
请联系:amos@52cv.net
END
欢迎加入「图像生成」交流群👇备注: