作者: 张岩召* 李明鑫* 龙丁坤* 张鑫* 林欢 杨宝松 谢鹏军 安阳 刘 dayiheng 林俊阳 黄飞 周景仁
机构: 阿里巴巴集团通义实验室
翻译: yiyanwannian04
链接:
整体训练流程图(此图非原文内容)
摘要
在这项工作中,我们介绍了Qwen3 Embedding系列,它基于Qwen3基础模型构建,在文本嵌入和重排序能力上较前身GTE-Qwen系列实现了显著提升。借助Qwen3大语言模型在多语言文本理解与生成方面的强大能力,我们创新的多阶段训练流程将大规模无监督预训练与高质量数据集上的有监督微调相结合。有效的模型合并策略进一步确保了Qwen3 Embedding系列的鲁棒性和适应性。
在训练过程中,Qwen3大语言模型不仅作为骨干模型,还在跨多个领域和语言合成高质量、丰富且多样的训练数据方面发挥关键作用,从而增强了训练流程。Qwen3 Embedding系列提供了一系列模型规模(0.6B、4B、8B),适用于嵌入和重排序任务,满足多样化的部署场景,用户可针对效率或效果进行优化。
实证评估表明,Qwen3 Embedding系列在各种基准测试中取得了最先进的结果。值得注意的是,它在多语言评估基准MTEB的文本嵌入任务,以及包括代码检索、跨语言检索和多语言检索在内的各种检索任务中表现出色。为促进可复现性并推动社区驱动的研究与开发,Qwen3 Embedding模型已在Apache 2.0许可证下公开提供。
1 引言
文本嵌入和重排序是众多自然语言处理和信息检索应用的基础组件,包括网页搜索、问答系统、推荐系统等(Karpukhin等人,2020;Huang等人,2020;Zhao等人,2023;2024)。高质量的嵌入使模型能够捕捉文本之间的语义关系,而有效的重排序机制确保将最相关的结果优先呈现。
最近,在大型语言模型(如Qwen3(Yang等人,2025)、GPT-4o(Hurst等人,2024))的推动下,检索增强生成(RAG)和智能体系统等新兴应用范式,对文本嵌入和重排序在模型训练范式和应用场景方面都提出了新的要求和挑战。尽管取得了显著进展,但训练在可扩展性、上下文理解以及与特定下游任务对齐方面表现良好的嵌入和重排序模型仍然具有挑战性。
大型语言模型(LLMs)的出现显著推进了文本嵌入和重排序模型的发展。在LLMs引入之前,主要方法是使用仅编码器的预训练语言模型(如BERT)作为训练的基础模型(Reimers & Gurevych,2019)。LLMs固有的更丰富的世界知识、文本理解和推理能力,导致在这些架构上训练的模型得到了进一步增强。
此外,已有大量研究促进了LLMs在训练数据合成和高质量数据过滤等流程中的集成(Wang等人,2024;Lee等人,2024;2025b)。LLMs的基本特性还启发了新训练范式的引入。例如,在嵌入模型训练过程中,结合指令类型、领域和语言等方面的差异化任务,已在下游任务中取得了更好的性能(Su等人,2023)。类似地,对于重排序模型训练,通过基于用户提示的零样本方法和结合有监督微调的方法都实现了进展(Ma等人,2023;Pradeep等人,2023;Zhang等人,2024a;Zhuang等人,2024)。
在这项工作中,我们介绍了构建在Qwen3基础模型之上的Qwen3 Embedding系列模型。Qwen3基础模型同时发布了基础版和指令版模型,我们利用这些模型强大的多语言文本理解和生成能力,充分发挥它们在训练嵌入和重排序模型中的潜力。
为了训练嵌入模型,我们实施了一个多阶段训练流程,包括大规模无监督预训练,随后在高质量数据集上进行有监督微调。我们还采用了与各种模型检查点的模型合并策略,以增强鲁棒性和泛化能力。Qwen3指令模型允许高效合成大规模、高质量、多语言和多任务的文本相关性数据集。这些合成数据用于初始的无监督训练阶段,而选择高质量的小规模数据子集用于第二阶段的有监督训练。
对于重排序模型,我们采用了类似的两阶段训练方案,包括高质量有监督微调和模型合并阶段。基于Qwen3骨干模型的不同规模(包括0.6B、4B和8B),我们最终训练了三个文本嵌入模型和三个文本重排序模型。为了促进它们在下游任务中的应用,Qwen3 Embedding系列支持几个实用功能,如嵌入模型的灵活维度表示,以及嵌入和重排序模型的可定制指令。
我们在跨越多个任务和领域的全面基准测试中评估了Qwen3 Embedding系列。实验结果表明,我们的嵌入和重排序模型取得了最先进的性能,在几个检索任务中与领先的专有模型具有竞争力。例如,旗舰模型Qwen3-8B-Embedding在MTEB多语言基准(Enevoldsen等人,2025)上获得70.58分,在MTEB代码基准(Enevoldsen等人,2025)上获得80.68分,超过了之前最先进的专有嵌入模型Gemini-Embedding(Lee等人,2025b)。
此外,我们的重排序模型在一系列检索任务中提供了有竞争力的结果。Qwen3-Reranker-0.6B模型在众多检索任务中超过了以前的顶尖模型,而更大的Qwen3-Reranker-8B模型表现出更优的性能,在多个任务上比0.6B模型的排名结果提高了3.0分。此外,我们包括了一个建设性的消融研究,以阐明促成Qwen3 Embedding系列卓越性能的关键因素,为其有效性提供见解。
在以下部分中,我们描述模型架构的设计,详细说明训练过程,呈现Qwen3 Embedding系列的嵌入和重排序模型的实验结果,并通过总结关键发现和概述未来研究的潜在方向来结束本技术报告。
2 模型架构
嵌入和重排序模型的核心思想是以任务感知的方式评估相关性。给定一个查询q和一个文档d,嵌入和重排序模型基于指令I定义的相似性标准评估它们的相关性。为了使模型能够进行任务感知的相关性估计,训练数据通常组织为{I_i, q_i, d_i^+, d_i,1^-, ..., d_i,n^-},其中d_i^+表示查询q_i的正例(相关)文档,d_i,j^-是负例(不相关)文档。在多样化的文本对上训练模型,扩展了其对一系列下游任务的适用性,包括检索、语义文本相似性、分类和聚类。
图1:Qwen3嵌入模型(左)和Qwen3重排序模型(右)的模型架构
架构
Qwen3嵌入和重排序模型基于Qwen3基础模型的密集版本构建,有三种规模:0.6B、4B和8B参数。我们使用Qwen3基础模型初始化这些模型,以利用它们在文本建模和指令遵循方面的能力。每个模型配置的模型层、隐藏大小和上下文长度在表1中详细说明。
嵌入模型
对于文本嵌入,我们利用具有因果注意力的LLMs,在输入序列的末尾附加一个[EOS]标记。最终的嵌入来自对应于该[EOS]标记的最后一层的隐藏状态。
为了确保嵌入在下游任务中遵循指令,我们将指令和查询连接成一个单一的输入上下文,而在使用LLMs处理之前,文档保持不变。查询的输入格式如下:
{Instruction} {Query}<|endoftext|>
重排序模型
为了更准确地评估文本相似性,我们在单个上下文中使用LLMs进行点式重排序。与嵌入模型类似,为了实现指令遵循能力,我们在输入上下文中包含指令。我们使用LLM聊天模板,并将相似性评估任务构建为二分类问题。LLMs的输入遵循如下模板:
<|im_start|>systemJudge whether the Document meets the requirements based on the Query and theInstruct provided. Note that the answer can only be "yes" or "no".<|im_end|><|im_start|>user<Instruct>: {Instruction}<Query>: {Query}<Document>: {Document}<|im_end|><|im_start|>assistant<think>\n\n</think>\n\n
为了根据给定的输入计算相关性分数,我们评估下一个标记为"是"或"否"的可能性。这用数学表达式表示为:
表1:Qwen3嵌入模型的模型架构
表1:Qwen3嵌入模型的模型架构。“多模态表示学习(MRL)支持”表示嵌入模型是否支持最终嵌入的自定义维度。“指令感知”注明嵌入模型或重排序模型是否支持根据不同任务定制输入指令。
图2:Qwen3嵌入模型和重排序模型的训练流程
3 模型训练
在本节中,我们描述所采用的多阶段训练流程,并呈现此训练方法的关键要素,包括训练目标、训练数据合成和高质量训练数据的过滤。
3.1 训练目标
在介绍我们的训练流程之前,我们首先概述训练过程中嵌入和重排序模型使用的优化损失函数。对于嵌入模型,我们利用基于InfoNCE框架(Oord等人,2018)的改进对比损失。给定一批N个训练实例,损失定义为:
其中s(·, ·)是一个相似性函数(我们使用余弦相似性),τ是温度参数,Z_i是归一化因子,它聚合正例对与各种负例对的相似性分数:
其中这些项表示与以下的相似性:(1) 正例文档d_i^+,(2) K个硬负例d_i,k^-,(3) 批内其他查询q_j,(4) 批内其他正例和负例文档d_j。掩码因子m_ij旨在减轻假负例的影响,定义为:
其中s_ij是q_i与d_j或q_i与q_j的对应分数。
对于重排序模型,我们优化定义为的有监督微调(SFT)损失:
其中p(·|*)表示LLM分配的概率。标签l对于正例文档为"是",对于负例为"否"。此损失函数鼓励模型为正确标签分配更高的概率,从而提高排序性能。
3.2 多阶段训练
多阶段训练方法是训练文本嵌入模型的常见实践(Li等人,2023;Wang等人,2022;Chen等人,2024)。该策略通常开始于在包含噪声的大规模半监督数据上进行初始训练,随后使用较小的高质量有监督数据集进行微调。这个两步过程提高了嵌入模型的性能和泛化能力。大规模弱监督训练数据对模型的泛化做出了重要贡献,而后续阶段用高质量数据进行的微调进一步提高了模型性能。嵌入模型的两个训练阶段都利用了等式1中定义的优化目标,而重排序模型训练采用等式2中定义的损失函数作为优化目标。
在现有多阶段训练框架的基础上,Qwen3 Embedding系列引入了以下关键创新:
大规模合成数据驱动的弱监督训练: 与之前的工作(如GTE、E5、BGE模型)不同,其中弱监督训练数据主要从开源社区(如问答论坛或学术论文)收集,我们提出利用基础模型的文本理解和生成能力直接合成配对数据。这种方法允许在合成提示中任意定义所需配对数据的各种维度,如任务、语言、长度和难度。与从开放域源收集数据相比,基础模型驱动的数据合成提供了更大的可控性,能够精确管理生成数据的质量和多样性,特别是在低资源场景和语言中。
监督微调中高质量合成数据的利用: 由于Qwen3基础模型的卓越性能,合成数据具有显著的高质量。因此,在第二阶段的监督训练中,选择性地纳入这种高质量合成数据进一步增强了整体模型性能和泛化能力。
模型合并: 受先前工作(Li等人,2024)的启发,在完成有监督微调后,我们应用了基于球面线性插值(slerp)的模型合并技术。该技术涉及合并在微调过程中保存的多个模型检查点。此步骤旨在提高模型在各种数据分布中的鲁棒性和泛化性能。
值得注意的是,重排序模型的训练过程不包括第一阶段的弱监督训练阶段。
3.3 合成数据集
为了创建用于在各种相似性任务上训练模型的鲁棒合成数据集,我们生成跨越检索、双语挖掘、分类和语义文本相似性(STS)等类别的多样化文本对。这些合成数据对的质量通过使用Qwen3 32B模型作为数据合成的基础模型来确保。我们设计了多样化的提示策略来提高生成数据的多样性和真实性。
例如,在文本检索任务中,我们使用来自Qwen3的多语言预训练语料库合成数据。在数据合成过程中,为每个文档分配特定角色,以模拟潜在用户查询该文档的情况。这种用户视角的注入增强了合成查询的多样性和现实性。具体来说,我们使用检索模型从角色库中为每个文档识别前五个角色候选,并将这些文档与其角色候选一起呈现给提示。这指导模型输出最适合查询生成的角色配置。此外,提示包含查询类型(如关键词、事实性、摘要、判断)、查询长度、难度和语言等各种维度。这种多维方法确保了合成数据的质量和多样性。
最终,我们创建了总共约1.5亿对多任务弱监督训练数据。我们的实验表明,用这些合成数据训练的嵌入模型在下游评估中表现异常出色,特别是在MTEB多语言基准中超过了许多以前的有监督模型。这促使我们过滤合成数据以识别高质量对,用于纳入第二阶段的监督训练。我们采用简单的余弦相似性计算来选择数据对,从随机采样的数据中保留余弦相似性大于0.7的对。最终,选择了约1200万高质量监督训练数据对用于进一步训练。表2:在多语言文本嵌入基准(MTEB)(埃内沃尔森等人,2025年)上的表现。对于对比模型,分数是从2025年6月4日的MTEB在线排行榜上获取的。
4 评估
我们在多个基准上进行全面和公平的评估,以评估Qwen3 Embedding模型的能力。
4.1 设置
对于文本嵌入模型,我们利用大规模多语言文本嵌入基准(MMTEB)(Enevoldsen等人,2025)进行评估。MMTEB是MTEB(Muennighoff等人,2023)的大规模社区驱动扩展,涵盖超过500个经过质量控制的评估任务,跨越超过250种语言。除了检索、分类和语义文本相似性等经典文本任务外,MMTEB还包括一系列具有挑战性的新任务,如指令遵循、长文档检索和代码检索,代表了迄今为止嵌入模型评估任务的最大多语言集合。
我们的MMTEB评估包括216个单独的评估任务,由131个MTEB(多语言)(Enevoldsen等人,2025)任务、41个MTEB(英语,v2)(Muennighoff等人,2023)任务、32个CMTEB(Xiao等人,2024)任务和12个MTEB(代码)(Enevoldsen等人,2025)代码检索任务组成。
表3:在多语言文本嵌入基准(MTEB)英语版、中文版以及代码相关版本上的表现。其中,α数据来源于(埃内沃尔森等人,2025年),γ数据来源于(李等人,2025b)。对于其他对比模型,其分数是从2025年6月4日的多语言文本嵌入基准(MTEB)在线排行榜上获取的。
此外,我们选择一系列文本检索任务来评估我们模型的文本重排序能力。我们探索三种类型的检索任务:
- 基本相关性检索,分为英语、中文和多语言,分别在MTEB(Muennighoff等人,2023)、CMTEB(Xiao等人,2024)、MMTEB(Enevoldsen等人,2025)和MLDR(Chen等人,2024)上评估代码检索,在MTEB-Code(Enevoldsen等人,2025)上评估,其仅包含与代码相关的检索数据复杂指令检索,在FollowIR(Weller等人,2024)上评估
比较方法: 我们将我们的模型与最著名的开源文本嵌入模型和商业API服务进行比较。开源模型包括GTE(Li等人,2023;Zhang等人,2024b)、E5(Wang等人,2022)和BGE(Xiao等人,2024)系列,以及NVEmbed-v2(Lee等人,2025a)、GritLM-7B(Muennighoff等人,2025)。评估的商业API包括OpenAI的text-embedding-3-large、Google的Gemini-embedding和Cohere-embedmultilingual-v3.0。对于重排序,我们与jina、mGTE(Zhang等人,2024b)和BGE-m3(Chen等人,2024)的重排序器进行比较。
4.2 主要结果
嵌入
在表2中,我们呈现了MMTEB(Enevoldsen等人,2025)的评估结果,其全面涵盖了多种语言的广泛嵌入任务。我们的Qwen3-Embedding-4B/8B模型取得了最佳性能,而我们最小的模型Qwen3-Embedding-0.6B尽管只有0.6B参数,仅落后于表现最佳的基线方法(Gemini-Embedding)。
在表3中,我们呈现了MTEB(英语,v2)(Muennighoff等人,2023)、CMTEB(Xiao等人,2024)和MTEB(代码)(Enevoldsen等人,2025)的评估结果。分数反映了与MMTEB类似的趋势,我们的Qwen3-Embedding-4B/8B模型始终优于其他模型。值得注意的是,Qwen3-Embedding-0.6B模型排名仅次于Gemini-Embedding,同时与gte-Qwen2-7B-instruct具有竞争力。
重排序
在表4中,我们呈现了各种重排序任务的评估结果(§4.1)。我们使用Qwen3-Embedding-0.6B模型检索前100个候选,然后应用不同的重排序模型进行进一步优化。这种方法确保了重排序模型的公平评估。我们的结果表明,所有三个Qwen3-Reranker模型与嵌入模型相比都提升了性能,并且超越了所有基线重排序方法,其中Qwen3-Reranker-8B在大多数任务中取得了最高性能。
表4:重排序模型的评估结果。我们使用多语言文本嵌入基准(MTEB)英语版(第2版)、中文版(第1版)以及多语言大规模文本嵌入基准(MMTEB)中的检索子集,它们分别是多语言文本嵌入基准检索子集(MTEB-R)、中文多语言文本嵌入基准检索子集(CMTEB-R)以及多语言大规模文本嵌入基准检索子集(MMTEM-R)。其余的都是检索任务。所有分数都是我们基于第一行中检索前100名的结果运行得出的。
表5:采用不同训练设置的Qwen3-嵌入-0.6B模型在多语言大规模文本嵌入基准(MMTEB)、多语言文本嵌入基准(英语,第2版)(MTEB(eng, v2))、中文多语言文本嵌入基准(CMTEB)以及多语言文本嵌入基准(代码,第1版)(MTEB(code, v1))上的(平均任务)性能表现。
4.3 分析
为了进一步分析和探索Qwen3 Embedding模型训练框架的关键要素,我们从以下维度进行分析:
大规模弱监督预训练的有效性: 我们首先分析嵌入模型大规模弱监督训练阶段的有效性。如表5所示,仅在合成数据上训练的Qwen3-Embedding-0.6B模型(第一行,没有后续训练阶段)与最终的Qwen3-Embedding-0.6B模型(最后一行)相比,取得了合理且强劲的性能。如果我们进一步移除弱监督训练阶段(即没有合成数据训练,如第二行所示),最终性能明显下降。这表明大规模弱监督训练阶段对于取得优异性能至关重要。
模型合并的有效性: 接下来,我们比较模型合并阶段引起的性能差异。如表5所示,没有使用模型合并技术训练的模型(第三行,使用数据采样来平衡各种任务)比最终的Qwen3-Embedding-0.6B模型(使用模型合并,如最后一行所示)表现差很多。这表明模型合并阶段对于开发强大的模型也至关重要。
5 结论
在本技术报告中,我们介绍了Qwen3-Embedding系列,这是一套基于Qwen3基础模型的全面文本嵌入和重排序模型。这些模型旨在在广泛的文本嵌入和重排序任务中表现出色,包括多语言检索、代码检索和复杂指令遵循。
Qwen3-Embedding模型基于强大的多阶段训练流程构建,该流程将合成数据上的大规模弱监督预训练与高质量数据集上的有监督微调和模型合并相结合。Qwen3 LLMs在合成跨多种语言和任务的多样化训练数据方面发挥关键作用,从而增强了模型的能力。
我们的综合评估表明,Qwen3-Embedding模型在各种基准上取得了最先进的性能,包括MTEB、CMTEB、MMTEB和几个检索基准。我们很高兴开源Qwen3-Embedding和Qwen3-Reranker模型(0.6B、4B和8B),使其可供社区使用和构建。
附录
A.1 合成数据
我们构建了四种类型的合成数据——检索、双语挖掘、语义文本相似性和分类,以使模型在预训练期间适应各种相似性任务。为确保多语言和跨语言多样性,数据使用Qwen3 32B生成。
下面是一个合成检索文本对的示例。检索数据使用文档到查询的方法合成。我们从Qwen3基础模型的预训练语料库中收集多语言语料库,作为文档源。然后应用两阶段生成流程,包括:(1) 配置和 (2) 查询生成。
在配置阶段,我们使用大型语言模型(LLMs)确定合成查询的"问题类型"、"难度"和"角色"。角色候选从Persona Hub(Ge等人,2024)中检索,为给定文档选择最相关的前五个。此步骤旨在增强生成查询的多样性。
配置阶段模板:
Given a **Passage** and **Character**, select the appropriate option from three fields: Character, Question_Type, Difficulty, and return the output in JSON format.First, select the Character who are likely to be interested in the Passage from the candidates. Then select the Question_Type that the Character might ask about the Passage; Finally, choose the Difficulty of the possible question based on the Passage, the Character, and the Question_Type.Character: Given by input **Character**Question_Type:- keywords: ...- acquire_knowledge: ...- summary: ...- yes_or_no: ...- background: ...Difficulty:- high_school: ...- university: ...- phd: ...Here are some examples <Example1> <Example2> <Example3>Now, generate the **output** based on the **Passage** and **Character** from user, the **Passage** will be in {language} language and the **Character** will be in English.Ensure to generate only the JSON output with content in English.**Passage**: {passage}**Character**: {character}
查询生成阶段模板:
Given a **Character**, **Passage**, and **Requirement**, generate a query from the **Character**'s perspective that satisfies the **Requirement** and can be used to retrieve the **Passage**. Please return the result in JSON format.Here is an example: <example>Now, generate the **output** based on the **Character**, **Passage** and language, the **Character** and **Requirement** will be in English. **Requirement** from user, the **Passage** will be in {corpus_language}Ensure to generate only the JSON output, with the key in English and the value in {queries_language} language.**Character**{character}**Passage**{passage}**Requirement**- Type: {type};- Difficulty: {difficulty};- Length: the length of the generated sentences should be {length} words;- Language: the language in which the results are generated should be {language} language;
表6:各阶段所使用训练数据的统计信息。
A.2 详细结果
表7:在多语言文本嵌入基准(英语,第2版)(穆尼格霍夫等人,2023年)上的结果。我们对在线排行榜中的模型进行了对比。
表8:在中文多语言文本嵌入基准(肖等人,2024年)(即多语言文本嵌入基准(中文,第1版))上的结果。
表9:在多语言文本嵌入基准(代码,第1版)(埃内沃尔森等人,2025年)上的表现。我们报告的是归一化折损累计增益(nDCG)在排名前10位时的得分。