PaperWeekly 06月08日 14:37
既ZeroSearch之后,通义最新力作MaskSearch提出推理搜索预训练新框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MaskSearch 框架通过“预训练-微调”理念,革新大语言模型(LLM)的搜索与推理能力。它创新性地引入检索增强型掩码预测(RAMP)任务,让模型在预训练阶段掌握任务分解、推理策略与搜索引擎操作技巧。MaskSearch 兼容监督微调与强化学习,在多个开放域问答数据集上显著提升了性能,并探索了课程学习和不同奖励函数对模型的影响,最终实现了更强大的检索增强能力。

🔍 MaskSearch 框架的核心是检索增强型掩码预测(RAMP)任务,该任务要求模型利用搜索工具预测文本中被掩盖的关键信息,包括本体知识、特定术语和数值等。

💡 MaskSearch 采用两种训练方法:监督微调(SFT)和强化学习(RL)。SFT 使用结合 Agent 合成和蒸馏的方法生成思维链数据;RL 则采用动态采样策略优化(DAPO)算法,结合规则驱动的格式奖励和模型驱动的回答奖励。

📈 实验结果表明,MaskSearch 在领域内和领域外数据集上均取得了显著性能提升。小模型在领域外数据集上的表现甚至能媲美大模型,验证了 RAMP 作为可扩展学习信号的有效性。课程学习策略也进一步提升了模型表现。

⚙️ 实验还探讨了掩码策略和 RL 奖励函数的影响。基于困惑度的掩码策略虽然在某些数据集上有所提升,但整体效果不如结合课程学习的训练策略。基于模型的奖励函数在 RL 训练中表现最佳,有效规避了奖励欺骗问题,保证了模型性能的稳定性和高效性。

让你更懂AI的 2025-06-07 23:55 北京

本文基于“预训练-微调”理念,重磅推出 MaskSearch 通用预训练框架。


引言

当下,推理与搜索深度融合的模型范式成为 AI 研究的前沿热点。大模型通过在推理过程中灵活调用搜索工具,精准获取关键信息并驱动后续推理,为攻克复杂任务开辟了新路径。


通义实验室搜索团队此前的 ZeroSearch、OmniSearch 等研究,借助强化学习在特定下游任务训练大模型使用搜索引擎,但实践中发现,这种单一任务训练模式存在明显局限,模型泛化能力不足,难以应对多样化场景下的检索推理需求。


为突破这一瓶颈,通义实验室基于“预训练-微调”理念,重磅推出 MaskSearch 通用预训练框架。该框架创新性引入检索增强型掩码预测任务,受 BERT 掩码机制启发,让模型利用搜索工具预测文本遮蔽内容,在预训练阶段同步掌握任务分解、推理策略与搜索引擎操作技巧,为多领域适配夯实基础。


MaskSearch 兼容监督微调与强化学习,经二阶段训练验证,相比传统训练方式,在多个开放域问答数据集上实现了性能的大幅跃升。

论文标题:

MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability

论文链接:

https://arxiv.org/abs/2505.20285

代码链接:

https://github.com/Alibaba-NLP/MaskSearch



MaskSearch

接下来,我们深入探究 MaskSearch 的核心架构与运作机制。

2.1 任务定义

检索增强型掩码预测(RAMP) 作为 MaskSearch 的预训练任务,其核心要义在于:在输入的文本序列中,对关键信息进行掩码处理,模型需主动借助外部知识库,调用搜索工具来预测这些被掩盖的文本片段。


为了提升被掩码部分的难度,除了在过去掩码预测任务中常被遮蔽的命名实体(如人名、地名、组织名等)、日期和数字,MaskSearch 还考虑了以下几类关键信息:


1. 本体知识:文本中涉及的分类体系或知识体系中的关键概念;


2. 特定术语:针对特定领域或主题的专业术语;


3. 数值:文本中涉及的具体数值,如统计数据、测量值等。


这不仅增加了任务的难度,还促使模型在检索和推理过程中更加精细化地处理信息,从而提升其在多领域任务中的适应能力和泛化能力。

2.2 训练方法

监督微调


为了生成用于监督微调(Supervised Finetuning, SFT)的思维链(CoT)数据,作者提出一种结合(1)Agent合成与(2)蒸馏(Distillation)的数据生成方法,具体包括:


强化学习


强化学习部分,作者采用了动态采样策略优化(DAPO)算法,结合规则驱动的格式奖励和模型驱动的回答奖励,构建了混合奖励系统。格式奖励检查模型输出是否符合指定格式,回答奖励则评估生成答案与标准答案的一致性。


作者探索了多种回答奖励函数,最终选择基于模型的奖励函数,使用 Qwen2.5-72B-Instruct 模型作为评判,为生成答案和标准答案的一致性进行打分。


课程学习


为了帮助从易到难依次学习,作者提出依据掩码数量对训练样本进行难度分级,让模型首先通过简单样本学习基础推理技能,然后逐步提升能力以应对更具挑战性的场景。



实验

3.1 主要结果

作者通过基于不同大小的 Qwen 和 LLaMA 模型的实验证明,两阶段 MaskSearch 训练框架显著提升了大模型的搜索和推理能力。


遵循以 RAMP 作为预训练任务,HotpotQA 数据集作为下游任务的训练流程,MaskSearch 在领域内(in-domain)数据集上稳定提升模型召回率;在 Bamboogle 等领域外数据集上,性能提升更为显著,小模型甚至能媲美大模型表现,验证了 RAMP 作为可扩展学习信号的有效性。


实验进一步验证了监督学习(SFT)与强化学习(RL)两种训练方式与 MaskSearch 框架的兼容性。其中,RL 在 RAMP 任务上展现出更高性能上限,尤其在 HotpotQA 等领域内任务中,在所有大小的 Qwen 模型都取得了最优效果。


这表明 RL 通过动态采样策略和混合奖励机制,能更精准优化模型的多步搜索与推理流程,为提升检索增强模型的适应性提供了更强的训练范式。

3.2 Scaling性能

在监督学习的场景下,作者通过不同训练步数实验验证 MASKSEARCH 的可扩展性:小模型(如 1B)经预训练后性能提升显著,而大模型(如 7B)受限于自进化数据的多样性,性能增益相对平缓,但召回率分数仍相对仅微调模型有所增长。


这证明 RAMP 对不同规模模型均有持续提升的潜力,也表明数据质量和多样性是决定 SFT 方法模型性能上限的关键因素。

3.3 监督课程学习效果

此外,实验验证了基于掩码数量设计的课程学习训练策略。具体方法是训练时按掩码数量分层采样数据,每个数量对应 10K 训练样本,配合 6K HotpotQA 数据维持任务平衡。


当掩码数量从 1 逐步增至 4 时,Qwen2.5-7B 模型在验证集上的得分明显增加,且显著高于将不同数量掩码的数据混合训练时的表现。此外,在下游任务上课程学习也有进一步提升模型训练后表现的效果,验证了难度梯度设计对推理能力构建的促进作用。



更多分析

4.1 掩码策略影响

掩码策略是影响 RAMP 预训练任务难度的另一重要因素。作者对比了随机掩码与基于困惑度(PPL)的难度导向掩码策略,也就是通过计算模型恢复掩码时的损失值(即困惑度),优先选择恢复难度高的部分进行遮蔽。


实验显示,PPL 策略在 FanoutQA 数据集上提升模型召回率,但在其他数据集中也会因过度追求难度导致性能下降,表明任务难度仍需要与模型当前搜索和推理能力相匹配。因此,结合课程学习的训练策略平衡难度,能够在整体上获得更优效果。

4.2 RL 奖励函数影响

在强化学习训练过程中,不同奖励函数对模型性能影响各异。以 Qwen-7b 模型为例,基于 token 级召回率的奖励函数促使模型为提升召回率,向答案中堆砌大量无关信息,致使回答长度大幅增加,相较于其他 RL 奖励函数实际性能显著下滑。


尽管引入惩罚项以抑制回答长度,能在一定程度上减少信息冗余,但模型仍可在有限长度内通过枚举方式钻规则漏洞。


相较而言,基于模型的奖励函数表现出最佳性能,在模型生成的回答长度、token 级召回率以及经 Qwen72b 模型评判的分数上,均优于其他两种奖励方法,有效规避奖励欺骗问题,且 RL 训练全程表现出卓越的稳定性和高效性。



结论

MaskSearch致力于提升大型语言模型(LLM)的智能体推理+搜索能力。该框架依托检索增强型掩码预测(RAMP)预训练任务,赋能模型自主执行多步搜索与推理,填补文本中的掩码空白,实现外部知识的深度整合。


经监督微调(SFT)与强化学习(RL)双重训练路径锤炼,并引入课程学习策略,MaskSearch 在域内及跨域开放域问答任务上均较基线方法取得显著性能提升。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MaskSearch 大语言模型 预训练 检索增强 强化学习
相关文章