阿里技术 11小时前
ICML 2025 | Parrot:通过多语言视觉指令微调,让AI说地道多国语言
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了Parrot,一种针对多模态大模型(MLLM)在处理非英语指令时出现“语言错乱”问题的创新解决方案。通过轻量级混合专家(MoE)模块和两阶段训练策略,Parrot实现了在有限多语言数据下高效地将视觉特征适配到不同语言。研究成果在MMMB和MMBench等权威多语言评测中取得领先性能,且多语言微调数据用量远低于同类工作。这为构建更具包容性的AI技术生态提供了新的思路。

🗣️ **语言退化问题:** 现有MLLM在处理非英语指令时常出现中英混杂等“语言错乱”现象,主要源于训练数据严重偏向英语。

🦜 **Parrot的创新方案:** Parrot的核心在于通过文本指令引导视觉特征的语言级对齐,采用轻量级混合专家(MoE)模块,实现高效的多语言适配。

🧠 **MoE模块工作原理:** MoE模块包含智能路由器和多个语言专家,根据输入指令语言激活相应专家,将“英语味”视觉特征转换为与目标语言语义对齐的新特征。

📊 **卓越性能与高效性:** Parrot在MMMB和MMBench等权威多语言评测中取得SOTA表现,且多语言微调数据用量远低于同类模型,展现了其高效性。

孙海龙 2025-06-23 08:30 浙江

在用中文向多模态AI提问时,你是否遇到过这样的尴尬:模型回复的内容“夹生”,不是直接给你英文答案,就是中英混杂



这是2025年的第70篇文章

( 本文阅读时间:15分钟 )




01



前言

在用中文向多模态AI提问时,你是否遇到过这样的尴尬:模型回复的内容“夹生”,不是直接给你英文答案,就是中英混杂,活脱脱像个刚学中文的外国友人? 

这种“多语言能力退化”(Multilingual Erosion)现象,是当前许多多模态大模型(MLLM)在经过指令微调后普遍面临的痛点。其根源在于,训练数据严重偏向英语,导致模型在处理非英语指令时“水土不服”。

面对这一痛点,我们的最新研究成果 《Parrot: Multilingual Visual Instruction Tuning》 已被机器学习顶会 ICML 2025 接收!我们提出了一个全新方法 Parrot 🦜,并构建了一个大规模的多语言多模态评测基准 MMMB,旨在让MLLM真正成为一个“世界公民”。

论文、代码和MMMB数据集已全部开源,欢迎访问

论文链接: https://arxiv.org/abs/2406.02539

代码与数据集: https://github.com/AIDC-AI/Parrot



02



问题的核心:为何AI会“语言错乱”?

目前主流的MLLM,如GPT-4V,通常通过监督式微调(SFT)将视觉编码器和语言模型对齐。然而,这些微调数据集绝大多数是英文的。这导致模型虽然在英文世界里表现优异,但其多语言能力却在微调过程中被“侵蚀”了。 如下图所示,当我们用中文提问时,基于标准OpenAI-CLIP的模型的回答(下图右侧)出现了中英混杂的困惑。这直观地揭示了视觉特征与非英语文本之间存在的“鸿沟”。

图1:不同模型对中文提示的响应对比,清晰展示了“语言错乱”问题



03



Parrot:高效激活多语言潜能

如何用最少的多语言数据,撬动最大的多语言能力?

Parrot的核心思想是:用文本指令来引导视觉特征的语言级对齐。我们为此设计了一套精巧的三步走策略,其核心是一个轻量而高效的混合专家(MoE)模块。

下面,我们来揭秘Parrot实现“语言魔法”的全过程:

图2:Parrot模型整体架构

你可以把它想象成一个“多语言专家团队”:

    接收任务 🌐:当模型收到一张图片和一个非英语(比如中文)问题时。

    智能路由 🧠:一个“调度员”(Router)会根据输入的中文文本,判断出“哦,这个问题需要我们的中文专家来处理!”

    专家处理 👩‍🏫:它会将原本偏向英文的视觉特征,交给被激活的“中文专家”。这位专家会将视觉信息转换成与中文语义更对齐的表达。

    生成回答 ✍️:最后,经过适配的视觉信息与问题一起送入大语言模型,从而生成地道、准确的中文回答。


第一步:信息融合 - 用跨模态注意力“听懂”指令

当模型接收到一张图片和一个特定语言(如中文)的文本指令时,我们首先面临两个问题:

    视觉特征是“英语味”的:通过预训练CLIP视觉编码器提取的视觉特征(我们称之为 Hv),天然地与英语语义更对齐。

    文本指令是“本地化”的:输入的中文问题被转换成中文文本特征(Ht)。

为了让“英语味”的视觉特征能理解“本地化”的指令,我们引入了跨模态注意力机制。它的作用就像一个翻译和联络官,让视觉特征去“倾听”文本指令,并从中捕捉关键信息,比如:“这条指令是中文的”、“它在问图里的动物是什么”。 通过这个过程,我们生成了一个融合了文本意图的引导信号。这个信号将成为下一步指挥“专家团队”工作的关键指令。


第二步:专家处理 - MoE模块的动态语言适配

这是Parrot方法的核心。我们设计的MoE模块包含一个智能路由器(Router)和多个语言专家(Experts),每个专家对应一种语言(如中文专家、俄语专家等)。


智能路由(Router):

    这个路由器接收上一步生成的引导信号

    它会根据信号中蕴含的语言信息,瞬间判断出应该激活哪些语言专家。例如,如果引导信号表明输入是中文,路由器就会给“中文专家”分配一个很高的权重,而其他专家权重则很低。

    这个过程是动态的、自动的,确保了每次都能精准调用最合适的专家。


语言专家(Experts):

    每个专家本质上是一个小型的多层感知机(MLP),结构简单但任务明确。

    被激活的专家(如中文专家)会接收原始的、“英语味”的视觉特征 Hv

    它的工作就是将这些通用但有偏见的视觉特征,巧妙地转换为与自身语言(中文)语义高度对齐的新特征。

通过路由器的智能调度和专家的分工合作,原本单一的视觉信息流被成功地转换成了与输入指令语言相匹配的、定制化的信息流。


第三步:稳定输出 - 残差重加权

为了确保模型的稳定性和性能,我们并没有完全用专家处理后的新特征去替代原始特征。相反,我们采用了一种更稳健的残差连接方式。 最终的视觉特征 Gv 由两部分组成: Gv = 原始视觉特征 Hv + α * 专家适配增量 MoE(Hv) 这里的 α 是一个平衡参数。这种做法的好处是:

    保留泛化能力:完整保留了原始视觉特征中强大的、通用的图像理解能力。

    精准适配:在此基础上,精确地“加上”一个由相应语言专家提供的“语言适配包”。

这确保了Parrot在增强多语言能力的同时,不会损害其在通用视觉任务上的卓越表现。


精巧的两阶段训练策略

Parrot之所以能用极少数据实现高效对齐,还得益于我们精心设计的两阶段训练法

第一阶段:模态对齐预训练

    目标:先让模型建立起通用的视觉-语言对齐能力。

    方法:使用海量的英文图文数据,冻结语言模型和视觉编码器,只训练连接二者的投影器(Projector)。

    关键:此阶段完全关闭MoE模块,避免其随机初始化的参数干扰基础对齐。


第二阶段:多语言指令微调

    目标:在已有的良好基础上,教会模型进行多语言适配。

    方法:引入我们收集的少量多语言数据,激活并训练MoE模块、投影器和语言模型。

    优势:由于第一阶段已经打下了坚实基础,MoE模块可以在一个非常好的起点上进行学习,只需少量数据就能快速掌握将视觉特征适配到不同语言的“窍门”。

通过这一系列环环相扣的设计,Parrot成功地用一种“小投入、大回报”的方式,解决了多模态大模型中的多语言对齐难题,让AI真正学会了“见人说人话”。



04



MMMB:权威多语言多模态评测基准

没有好的评测标准,就无法衡量真正的进步。现有的多语言评测基准存在语言种类少、任务过时、评测不公等问题。

为此,我们构建了大规模多语言多模态基准(Massive Multilingual Multimodal Benchmark, MMMB)

    覆盖广泛:包含英语、中文、葡萄牙语、阿拉伯语、土耳其语、俄语等6种语言。

    内容丰富:涵盖15个类别,共计12,000个高质量问答对。

    公平公正:通过严格的半自动化构建流程和独特的循环验证策略,确保了跨语言内容的一致性和评测的可靠性。

图3:MMMB评测基准概览



05



Parrot以极低数据量取得多语言SOTA性能

在MMMB和MMBench两大权威榜单上,Parrot都取得了SOTA(State-of-the-Art)表现。 结果显示,Parrot取得了SOTA(State-of-the-Art)性能。

    全面领先:在多个语言上,尤其是在土耳其语和阿拉伯语等资源相对较少的语言上,Parrot的性能远超现有顶尖模型。

    高效对齐:值得一提的是,Parrot取得如此优异的成绩,所使用的多语言微调数据量不到其他一些多语言MLLM的1%!这充分证明了我们方法的有效性和高效性。

表1:Parrot在多语言基准测试中的SOTA表现,加粗为最佳

表2:Parrot在多语言训练数据上的高效性



06



总结与展望

Parrot的研究,本质上是对多模态大模型“语言偏见”问题的一次技术探索。针对主流模型因训练数据偏向英语导致的多语言能力退化现象,我们提出了通过文本引导视觉特征语言级对齐的解决方案——结合轻量级混合专家(MoE)模块与两阶段训练策略,在有限多语言数据下实现了视觉与目标语言的高效适配。

实验结果显示,该方法在MMMB、MMBench等权威多语言评测中取得了领先性能,且在多语言微调数据用量上显著低于同类工作,验证了其技术有效性。

这项工作的价值,不仅在于为多语言多模态模型的构建提供了新的技术思路,更通过自建的MMMB基准为跨语言模型评估提供了标准化工具。未来可进一步探索将框架扩展至更多语言类型,或深入研究细粒度的文化内容理解,推动AI系统向更全面的全球化视野发展。

值得注意的是,技术的进步不应无意中加剧现有的“数字鸿沟”。当前AI对英文数据的依赖,客观上可能使非英语用户面临更高的使用门槛。Parrot的设计尝试以更高效、低成本的方式缓解这一矛盾,也希望相关工作能推动学界关注AI公平性与包容性问题,共同构建对不同语言、文化背景用户更友好的技术生态。




欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态AI 多语言 MLLM Parrot MoE
相关文章