孙海龙 2025-06-23 08:30 浙江
在用中文向多模态AI提问时,你是否遇到过这样的尴尬:模型回复的内容“夹生”,不是直接给你英文答案,就是中英混杂
这是2025年的第70篇文章
( 本文阅读时间:15分钟 )
01
前言
在用中文向多模态AI提问时,你是否遇到过这样的尴尬:模型回复的内容“夹生”,不是直接给你英文答案,就是中英混杂,活脱脱像个刚学中文的外国友人?
这种“多语言能力退化”(Multilingual Erosion)现象,是当前许多多模态大模型(MLLM)在经过指令微调后普遍面临的痛点。其根源在于,训练数据严重偏向英语,导致模型在处理非英语指令时“水土不服”。
面对这一痛点,我们的最新研究成果 《Parrot: Multilingual Visual Instruction Tuning》 已被机器学习顶会 ICML 2025 接收!我们提出了一个全新方法 Parrot 🦜,并构建了一个大规模的多语言多模态评测基准 MMMB,旨在让MLLM真正成为一个“世界公民”。
论文、代码和MMMB数据集已全部开源,欢迎访问
论文链接: https://arxiv.org/abs/2406.02539
代码与数据集: https://github.com/AIDC-AI/Parrot
02
问题的核心:为何AI会“语言错乱”?
目前主流的MLLM,如GPT-4V,通常通过监督式微调(SFT)将视觉编码器和语言模型对齐。然而,这些微调数据集绝大多数是英文的。这导致模型虽然在英文世界里表现优异,但其多语言能力却在微调过程中被“侵蚀”了。 如下图所示,当我们用中文提问时,基于标准OpenAI-CLIP的模型的回答(下图右侧)出现了中英混杂的困惑。这直观地揭示了视觉特征与非英语文本之间存在的“鸿沟”。
03
Parrot:高效激活多语言潜能
如何用最少的多语言数据,撬动最大的多语言能力?
Parrot的核心思想是:用文本指令来引导视觉特征的语言级对齐。我们为此设计了一套精巧的三步走策略,其核心是一个轻量而高效的混合专家(MoE)模块。
下面,我们来揭秘Parrot实现“语言魔法”的全过程:
你可以把它想象成一个“多语言专家团队”:
接收任务 🌐:当模型收到一张图片和一个非英语(比如中文)问题时。
智能路由 🧠:一个“调度员”(Router)会根据输入的中文文本,判断出“哦,这个问题需要我们的中文专家来处理!”
专家处理 👩🏫:它会将原本偏向英文的视觉特征,交给被激活的“中文专家”。这位专家会将视觉信息转换成与中文语义更对齐的表达。
生成回答 ✍️:最后,经过适配的视觉信息与问题一起送入大语言模型,从而生成地道、准确的中文回答。
第一步:信息融合 - 用跨模态注意力“听懂”指令
当模型接收到一张图片和一个特定语言(如中文)的文本指令时,我们首先面临两个问题:
视觉特征是“英语味”的:通过预训练CLIP视觉编码器提取的视觉特征(我们称之为 Hv),天然地与英语语义更对齐。
文本指令是“本地化”的:输入的中文问题被转换成中文文本特征(Ht)。
为了让“英语味”的视觉特征能理解“本地化”的指令,我们引入了跨模态注意力机制。它的作用就像一个翻译和联络官,让视觉特征去“倾听”文本指令,并从中捕捉关键信息,比如:“这条指令是中文的”、“它在问图里的动物是什么”。 通过这个过程,我们生成了一个融合了文本意图的引导信号。这个信号将成为下一步指挥“专家团队”工作的关键指令。
第二步:专家处理 - MoE模块的动态语言适配
这是Parrot方法的核心。我们设计的MoE模块包含一个智能路由器(Router)和多个语言专家(Experts),每个专家对应一种语言(如中文专家、俄语专家等)。
智能路由(Router):
这个路由器接收上一步生成的引导信号。
它会根据信号中蕴含的语言信息,瞬间判断出应该激活哪些语言专家。例如,如果引导信号表明输入是中文,路由器就会给“中文专家”分配一个很高的权重,而其他专家权重则很低。
这个过程是动态的、自动的,确保了每次都能精准调用最合适的专家。
语言专家(Experts):
每个专家本质上是一个小型的多层感知机(MLP),结构简单但任务明确。
被激活的专家(如中文专家)会接收原始的、“英语味”的视觉特征 Hv。
它的工作就是将这些通用但有偏见的视觉特征,巧妙地转换为与自身语言(中文)语义高度对齐的新特征。
通过路由器的智能调度和专家的分工合作,原本单一的视觉信息流被成功地转换成了与输入指令语言相匹配的、定制化的信息流。
第三步:稳定输出 - 残差重加权
为了确保模型的稳定性和性能,我们并没有完全用专家处理后的新特征去替代原始特征。相反,我们采用了一种更稳健的残差连接方式。 最终的视觉特征 Gv 由两部分组成: Gv = 原始视觉特征 Hv + α * 专家适配增量 MoE(Hv) 这里的 α 是一个平衡参数。这种做法的好处是:
保留泛化能力:完整保留了原始视觉特征中强大的、通用的图像理解能力。
精准适配:在此基础上,精确地“加上”一个由相应语言专家提供的“语言适配包”。
这确保了Parrot在增强多语言能力的同时,不会损害其在通用视觉任务上的卓越表现。
精巧的两阶段训练策略
Parrot之所以能用极少数据实现高效对齐,还得益于我们精心设计的两阶段训练法:
第一阶段:模态对齐预训练
目标:先让模型建立起通用的视觉-语言对齐能力。
方法:使用海量的英文图文数据,冻结语言模型和视觉编码器,只训练连接二者的投影器(Projector)。
关键:此阶段完全关闭MoE模块,避免其随机初始化的参数干扰基础对齐。
第二阶段:多语言指令微调
目标:在已有的良好基础上,教会模型进行多语言适配。
方法:引入我们收集的少量多语言数据,激活并训练MoE模块、投影器和语言模型。
优势:由于第一阶段已经打下了坚实基础,MoE模块可以在一个非常好的起点上进行学习,只需少量数据就能快速掌握将视觉特征适配到不同语言的“窍门”。
通过这一系列环环相扣的设计,Parrot成功地用一种“小投入、大回报”的方式,解决了多模态大模型中的多语言对齐难题,让AI真正学会了“见人说人话”。
04
MMMB:权威多语言多模态评测基准
没有好的评测标准,就无法衡量真正的进步。现有的多语言评测基准存在语言种类少、任务过时、评测不公等问题。
为此,我们构建了大规模多语言多模态基准(Massive Multilingual Multimodal Benchmark, MMMB)。
覆盖广泛:包含英语、中文、葡萄牙语、阿拉伯语、土耳其语、俄语等6种语言。
内容丰富:涵盖15个类别,共计12,000个高质量问答对。
公平公正:通过严格的半自动化构建流程和独特的循环验证策略,确保了跨语言内容的一致性和评测的可靠性。
05
Parrot以极低数据量取得多语言SOTA性能
在MMMB和MMBench两大权威榜单上,Parrot都取得了SOTA(State-of-the-Art)表现。 结果显示,Parrot取得了SOTA(State-of-the-Art)性能。
全面领先:在多个语言上,尤其是在土耳其语和阿拉伯语等资源相对较少的语言上,Parrot的性能远超现有顶尖模型。
高效对齐:值得一提的是,Parrot取得如此优异的成绩,所使用的多语言微调数据量不到其他一些多语言MLLM的1%!这充分证明了我们方法的有效性和高效性。
06
总结与展望
Parrot的研究,本质上是对多模态大模型“语言偏见”问题的一次技术探索。针对主流模型因训练数据偏向英语导致的多语言能力退化现象,我们提出了通过文本引导视觉特征语言级对齐的解决方案——结合轻量级混合专家(MoE)模块与两阶段训练策略,在有限多语言数据下实现了视觉与目标语言的高效适配。
实验结果显示,该方法在MMMB、MMBench等权威多语言评测中取得了领先性能,且在多语言微调数据用量上显著低于同类工作,验证了其技术有效性。
这项工作的价值,不仅在于为多语言多模态模型的构建提供了新的技术思路,更通过自建的MMMB基准为跨语言模型评估提供了标准化工具。未来可进一步探索将框架扩展至更多语言类型,或深入研究细粒度的文化内容理解,推动AI系统向更全面的全球化视野发展。
值得注意的是,技术的进步不应无意中加剧现有的“数字鸿沟”。当前AI对英文数据的依赖,客观上可能使非英语用户面临更高的使用门槛。Parrot的设计尝试以更高效、低成本的方式缓解这一矛盾,也希望相关工作能推动学界关注AI公平性与包容性问题,共同构建对不同语言、文化背景用户更友好的技术生态。
欢迎留言一起参与讨论~