ICML 2025 | Parrot：通过多语言视觉指令微调，让AI说地道多国语言

孙海龙 2025-06-23 08:30 浙江

在用中文向多模态AI提问时，你是否遇到过这样的尴尬：模型回复的内容“夹生”，不是直接给你英文答案，就是中英混杂

这是2025年的第70篇文章

（本文阅读时间：15分钟）

前言

在用中文向多模态AI提问时，你是否遇到过这样的尴尬：模型回复的内容“夹生”，不是直接给你英文答案，就是中英混杂，活脱脱像个刚学中文的外国友人？

这种“多语言能力退化”（Multilingual Erosion）现象，是当前许多多模态大模型（MLLM）在经过指令微调后普遍面临的痛点。其根源在于，训练数据严重偏向英语，导致模型在处理非英语指令时“水土不服”。

面对这一痛点，我们的最新研究成果《Parrot: Multilingual Visual Instruction Tuning》已被机器学习顶会 ICML 2025 接收！我们提出了一个全新方法 Parrot 🦜，并构建了一个大规模的多语言多模态评测基准 MMMB，旨在让MLLM真正成为一个“世界公民”。

论文、代码和MMMB数据集已全部开源，欢迎访问

论文链接： https://arxiv.org/abs/2406.02539

代码与数据集： https://github.com/AIDC-AI/Parrot

问题的核心：为何AI会“语言错乱”？

目前主流的MLLM，如GPT-4V，通常通过监督式微调（SFT）将视觉编码器和语言模型对齐。然而，这些微调数据集绝大多数是英文的。这导致模型虽然在英文世界里表现优异，但其多语言能力却在微调过程中被“侵蚀”了。如下图所示，当我们用中文提问时，基于标准OpenAI-CLIP的模型的回答（下图右侧）出现了中英混杂的困惑。这直观地揭示了视觉特征与非英语文本之间存在的“鸿沟”。

图1：不同模型对中文提示的响应对比，清晰展示了“语言错乱”问题

Parrot：高效激活多语言潜能

如何用最少的多语言数据，撬动最大的多语言能力？

Parrot的核心思想是：用文本指令来引导视觉特征的语言级对齐。我们为此设计了一套精巧的三步走策略，其核心是一个轻量而高效的混合专家（MoE）模块。

下面，我们来揭秘Parrot实现“语言魔法”的全过程：

图2：Parrot模型整体架构

你可以把它想象成一个“多语言专家团队”：

接收任务 🌐：当模型收到一张图片和一个非英语（比如中文）问题时。

智能路由 🧠：一个“调度员”（Router）会根据输入的中文文本，判断出“哦，这个问题需要我们的中文专家来处理！”

专家处理 👩‍🏫：它会将原本偏向英文的视觉特征，交给被激活的“中文专家”。这位专家会将视觉信息转换成与中文语义更对齐的表达。

生成回答 ✍️：最后，经过适配的视觉信息与问题一起送入大语言模型，从而生成地道、准确的中文回答。

第一步：信息融合 - 用跨模态注意力“听懂”指令

当模型接收到一张图片和一个特定语言（如中文）的文本指令时，我们首先面临两个问题：

视觉特征是“英语味”的：通过预训练CLIP视觉编码器提取的视觉特征（我们称之为 Hv），天然地与英语语义更对齐。

文本指令是“本地化”的：输入的中文问题被转换成中文文本特征（Ht）。

为了让“英语味”的视觉特征能理解“本地化”的指令，我们引入了跨模态注意力机制。它的作用就像一个翻译和联络官，让视觉特征去“倾听”文本指令，并从中捕捉关键信息，比如：“这条指令是中文的”、“它在问图里的动物是什么”。通过这个过程，我们生成了一个融合了文本意图的引导信号。这个信号将成为下一步指挥“专家团队”工作的关键指令。

第二步：专家处理 - MoE模块的动态语言适配

这是Parrot方法的核心。我们设计的MoE模块包含一个智能路由器（Router）和多个语言专家（Experts），每个专家对应一种语言（如中文专家、俄语专家等）。

智能路由（Router）：

这个路由器接收上一步生成的引导信号。

它会根据信号中蕴含的语言信息，瞬间判断出应该激活哪些语言专家。例如，如果引导信号表明输入是中文，路由器就会给“中文专家”分配一个很高的权重，而其他专家权重则很低。

这个过程是动态的、自动的，确保了每次都能精准调用最合适的专家。

语言专家（Experts）：

每个专家本质上是一个小型的多层感知机（MLP），结构简单但任务明确。

被激活的专家（如中文专家）会接收原始的、“英语味”的视觉特征 Hv。

它的工作就是将这些通用但有偏见的视觉特征，巧妙地转换为与自身语言（中文）语义高度对齐的新特征。

通过路由器的智能调度和专家的分工合作，原本单一的视觉信息流被成功地转换成了与输入指令语言相匹配的、定制化的信息流。

第三步：稳定输出 - 残差重加权

为了确保模型的稳定性和性能，我们并没有完全用专家处理后的新特征去替代原始特征。相反，我们采用了一种更稳健的残差连接方式。最终的视觉特征 Gv 由两部分组成： Gv = 原始视觉特征 Hv + α * 专家适配增量 MoE(Hv) 这里的 α 是一个平衡参数。这种做法的好处是：

保留泛化能力：完整保留了原始视觉特征中强大的、通用的图像理解能力。

精准适配：在此基础上，精确地“加上”一个由相应语言专家提供的“语言适配包”。

这确保了Parrot在增强多语言能力的同时，不会损害其在通用视觉任务上的卓越表现。

精巧的两阶段训练策略

Parrot之所以能用极少数据实现高效对齐，还得益于我们精心设计的两阶段训练法：

第一阶段：模态对齐预训练

目标：先让模型建立起通用的视觉-语言对齐能力。

方法：使用海量的英文图文数据，冻结语言模型和视觉编码器，只训练连接二者的投影器（Projector）。

关键：此阶段完全关闭MoE模块，避免其随机初始化的参数干扰基础对齐。

第二阶段：多语言指令微调

目标：在已有的良好基础上，教会模型进行多语言适配。

方法：引入我们收集的少量多语言数据，激活并训练MoE模块、投影器和语言模型。

优势：由于第一阶段已经打下了坚实基础，MoE模块可以在一个非常好的起点上进行学习，只需少量数据就能快速掌握将视觉特征适配到不同语言的“窍门”。

通过这一系列环环相扣的设计，Parrot成功地用一种“小投入、大回报”的方式，解决了多模态大模型中的多语言对齐难题，让AI真正学会了“见人说人话”。

MMMB：权威多语言多模态评测基准

没有好的评测标准，就无法衡量真正的进步。现有的多语言评测基准存在语言种类少、任务过时、评测不公等问题。

为此，我们构建了大规模多语言多模态基准（Massive Multilingual Multimodal Benchmark, MMMB）。

覆盖广泛：包含英语、中文、葡萄牙语、阿拉伯语、土耳其语、俄语等6种语言。

内容丰富：涵盖15个类别，共计12,000个高质量问答对。

公平公正：通过严格的半自动化构建流程和独特的循环验证策略，确保了跨语言内容的一致性和评测的可靠性。

图3：MMMB评测基准概览

Parrot以极低数据量取得多语言SOTA性能

在MMMB和MMBench两大权威榜单上，Parrot都取得了SOTA（State-of-the-Art）表现。结果显示，Parrot取得了SOTA（State-of-the-Art）性能。

全面领先：在多个语言上，尤其是在土耳其语和阿拉伯语等资源相对较少的语言上，Parrot的性能远超现有顶尖模型。

高效对齐：值得一提的是，Parrot取得如此优异的成绩，所使用的多语言微调数据量不到其他一些多语言MLLM的1%！这充分证明了我们方法的有效性和高效性。

表1：Parrot在多语言基准测试中的SOTA表现，加粗为最佳

表2：Parrot在多语言训练数据上的高效性

总结与展望

Parrot的研究，本质上是对多模态大模型“语言偏见”问题的一次技术探索。针对主流模型因训练数据偏向英语导致的多语言能力退化现象，我们提出了通过文本引导视觉特征语言级对齐的解决方案——结合轻量级混合专家（MoE）模块与两阶段训练策略，在有限多语言数据下实现了视觉与目标语言的高效适配。

实验结果显示，该方法在MMMB、MMBench等权威多语言评测中取得了领先性能，且在多语言微调数据用量上显著低于同类工作，验证了其技术有效性。

这项工作的价值，不仅在于为多语言多模态模型的构建提供了新的技术思路，更通过自建的MMMB基准为跨语言模型评估提供了标准化工具。未来可进一步探索将框架扩展至更多语言类型，或深入研究细粒度的文化内容理解，推动AI系统向更全面的全球化视野发展。

值得注意的是，技术的进步不应无意中加剧现有的“数字鸿沟”。当前AI对英文数据的依赖，客观上可能使非英语用户面临更高的使用门槛。Parrot的设计尝试以更高效、低成本的方式缓解这一矛盾，也希望相关工作能推动学界关注AI公平性与包容性问题，共同构建对不同语言、文化背景用户更友好的技术生态。

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

第一步：信息融合 - 用跨模态注意力“听懂”指令

第二步：专家处理 - MoE模块的动态语言适配

第三步：稳定输出 - 残差重加权

精巧的两阶段训练策略

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签