2025-06-17 17:01 北京
|本文受小米揭榜挂帅科研专项(Xiaomi Open-Competition Research Program)支持
大语言模型(LLMs)在生成任务上表现卓越,但单向(因果)注意力机制限制了其在文本嵌入任务上的表现。虽然双向微调理论上能增强模型理解能力,却通常导致生成性能明显下降。如何在“理解”和“生成”之间取得平衡,是当前AI研究的关键挑战。
01
成果介绍
此成果相关论文在同行评审阶段获得一致正面评价,最终成功被 ICML 2025 录用。ICML(International Conference on Machine Learning),中文名称为国际机器学习大会,是机器学习领域最具影响力的顶级学术会议之一。
该会议由国际机器学习学会(IMLS)主办,与 NeurIPS 和 ICLR 并称为人工智能三大顶会。ICML 也是中国计算机学会(CCF)推荐的 A 类会议之一。2025 年的 ICML 共收到 12,107 篇投稿,最终录用 3,260 篇,录取率为 26.9% 。本次大会将于 2025 年 7 月 13 日至 19 日在加拿大温哥华举行 。
02
技术细节揭秘
▍研究背景与挑战
构建一个同时具备文本生成与文本嵌入能力的模型,一直是自然语言处理领域的重要目标之一。大型因果语言模型在多种任务中展现出强大的能力,因此被认为是实现这一目标的有力候选。然而,近期研究表明,因果语言模型在嵌入任务中受到其因果注意力机制的限制,使得单向模型在这类任务中的表现不尽理想。
一种自然的思路是增强因果语言模型的双向建模能力,以提升其在嵌入任务中的表现。但已有研究也发现,简单地在大型语言模型(LLMs)中启用双向建模,往往会导致其生成性能显著下降。因此,在构建这一类统一模型时,关键挑战在于如何在提升其双向建模能力的同时,保持其强健的生成能力。
▍技术突破1:首次提出注意力依赖指标
近期研究表明,无论是何种方式引入双向建模,都会在不同程度上导致生成性能的下降。然而,这种性能退化的具体原因仍未被系统解释。一种直观的解释是:该退化源于训练阶段引入的后向依赖性。为验证这一观点,我们提出了一种基于注意力依赖性(attention dependence)的解释方法,将每个 token 对其他token的注意力权重视为其依赖度,并在层级级别和全局级别上分别构建了平均前向/后向依赖性指标。通过提出平均前向依赖和后向依赖指标,我们从理论上揭示双向训练过程中后续依赖的增加导致生成能力下降的本质。
通过不同模型规模、评测数据集、token 长度和训练方法等维度的比较,我们发现训练阶段引入双向注意力机制会显著提升后向依赖性,从而削弱模型的生成能力。大量实验进一步验证了注意力后向依赖性与模型生成性能之间存在显著负相关关系。此外,我们还发现,在双向微调中,前馈网络(FFN)层受到的依赖性干扰最小。
理论方法
我们首先引入单层的注意力依赖性定义。对于第 n 层自注意力中的第 k 层,其注意力权重为(其中K为key,Q为query,b为注意力头的数量,l为token序列长度),我们将该层中所有注意力头的注意力矩阵进行求和,得到该层内各 token 对之间的注意力分数矩阵
。然后,我们对所有 n 层自注意力的
进行平均,得到模型的全局注意力权重
。我们假设
表示第 i 个 token 对第 j 个 token 的依赖程度,则第 i 个 token 对其前方 i-1 个 token 的平均依赖度和对其后方 l-i 个 token 的平均依赖度 可分别表示为:
其中, 和
分别反映了第 i 个 token 对其前后 token 的平均依赖程度。此外,很容易理解
表示第 i 个 token 对其自身的依赖程度,我们记为
。计算示意如下图所示。
实验验证
嵌入任务的实验结果如下表所示。在所有模型规模下,尽管不同层的微调策略在效果上略有差异,但仅微调 FFN 层或注意力层在文本相似度计算任务中均展现出稳健的性能。
我们进一步分析了基于双向对比学习训练模型在这两个模块(FFN 和 Attention)上的后向依赖性分布,以及其在不同 token 上的评估情况,结果如下表所示。结果表明,仅微调 FFN 层在各个模型规模下始终表现出最低的后向依赖性。这表明微调 FFN 层对模型整体依赖性的影响最小。
其主要原因在于:在训练早期,如果注意力层未被更新,则双向训练阶段的注意力分布实际上与单向生成时保持一致。在这种前提下,FFN 层主要学习如何在相同的注意力分布下处理包含后向 token 信息的隐藏状态。而一旦更新 ATT 层,这种注意力分布的一致性就会被打破,从而影响训练效果。
这种对建模能力的隐式分离机制,有效降低了 FFN 层在训练过程中对单向建模能力的干扰与退化。
▍技术突破2:提出了UBMoE-LLM,一种单-双向专家混合大语言模型
基于上述发现,我们提出了一种新颖的单-双向专家混合大语言模型 UBMoE-LLM(Uni-Bi-Directional Mixture-of-Expert Large Language Model),旨在在提升嵌入能力的同时减少后向依赖性对生成性能的损害。我们首先使用一个经过指令微调的模型初始化权重,然后启用双向注意力,并采用有监督对比学习增强模型的词向量嵌入能力。在这一阶段,仅更新 FFN 层参数。随后,我们将词嵌入微调模型的 FFN 层与原始指令微调模型的 FFN 层进行并联,并引入门控机制,根据每个 token 的语义上下文,动态选择使用哪个专家参数,从而构建一个包含两个专家的混合模型。最后,我们使用少量数据对门控层进行微调,以优化专家选择的平衡性和效果。
理论方法
为了将双向注意力的上下文理解能力与单向注意力的文本生成能力相结合,我们采用专家混合(Mixture of Experts, MoE)的方法,将双向注意力的 FFN 层集成到单向生成模型中。具体地,我们将双向注意力的 FFN 层定义为双向嵌入专家,将骨干模型中的FFN层定义为单向生成专家
。
我们通过门控控制层(gate control layer)实现对 token 的分配,每次仅激活一个专家。由于门控控制层在初始阶段未经过训练,我们使用少量数据对其进行训练,并冻结其他参数。参考之前的工作,我们使用交叉熵损失和门控正则化损失的组合形式对模型进行联合训练,目标函数如下:
其中,表示交叉熵损失,
表示门控正则化损失,
是用来调节两者权重的超参数。
▍实验验证与成果展示
UBMoE-LLM 的生成性能如下表所示,在 TruthfulQA 数据集上我们的方法始终表现出性能提升,同时保持了较强的生成能力。与此同时,由于在训练阶段仅学习了 token 的分配能力,部分生成任务中出现性能下降是不可避免的。这是因为双向专家在训练过程中仅接触了词嵌入任务,未经历指令对齐(instruction alignment)过程,因此其生成能力有所减弱。
值得注意的是,我们的方法在 1.8B 模型规模下仍实现了整体生成性能的提升,这表明引入双向专家具有显著的正面效应——增强模型对幻觉内容(hallucination)的抵抗力,提升语言理解能力,以及语义建模的丰富性。
03
未来展望
未来,我们团队将继续深化对混合专家结构的研究,探索更高效的训练策略,进一步降低对计算资源的需求,让更多设备(如手机、边缘计算设备)能够高效运行大语言模型。
同时,我们也将进一步强化模型在隐私保护、数据安全等领域的能力,助力AI技术的安全、广泛应用,让智能更贴近用户需求,服务于更多实际应用场景。
END