36kr 4小时前
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海AI Lab的OpenDataLab团队通过大规模实验,深入研究了强化学习与模型(RLVR)在数学、编程和逻辑谜题三大领域中的跨领域知识迁移和协同推理能力。实验基于Qwen2.5-7B模型,发现跨领域联合训练能显著提升模型整体性能,其中Math与Puzzle数据的相互支持、Instruct模型在代码领域的泛化能力尤为突出。研究还揭示了Template一致性、课程学习策略以及奖励设计对RLVR效果的关键影响。该研究为构建更强大、更具鲁棒性的AI推理模型提供了重要见解,并指出了未来研究方向,如拓展数据领域和探索模型适配性。

📈 **跨领域联合训练显著提升模型性能**:通过将数学、代码和逻辑谜题三大领域数据进行联合训练,Qwen2.5-7B模型的整体平均性能达到了56.57,显著优于任何双领域组合。这表明多领域数据的协同作用能够有效增强AI大模型的推理能力。

🧩 **逻辑推理与数学能力相辅相成**:实验发现,逻辑谜题(Puzzle)与数学(Math)数据的相互支持对模型整体性能提升有显著帮助,说明不同领域间的知识迁移和融合是提升AI泛化能力的重要途径。

💻 **指令遵循模型展现更强的跨域泛化**:相比Base模型,指令微调(SFT)后的Instruct模型在代码领域训练后,能更好地将代码能力泛化到其他领域,并在域外任务上保持甚至提升表现,这强调了指令微调在提升模型跨领域能力中的作用。

🔧 **Template一致性是RLVR成功的关键**:训练与评估Template的不匹配会导致模型性能大幅下降,而Template的一致性则能带来最佳表现。这表明在进行RLVR训练时,需要确保训练和评估环境的一致性,以避免因不匹配导致的性能瓶颈。

🎓 **课程学习与Policy Refresh策略优化训练效果**:在RLVR训练中采用课程学习(从易到难)并结合Policy Refresh策略(定期更新参考模型和优化器状态),能够显著提升模型性能上限并加速收敛,使模型更有效地掌握复杂依赖关系。

近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。

然而,现有关于强化学习和模型的研究多聚焦于单一领域优化,缺乏对跨领域知识迁移和协同推理能力的系统性探索,让模型能够在多领域协同工作,发挥更好的推理能力。

上海AI Lab的OpenDataLab团队通过大规模实验,深入剖析了RLVR在多领域推理中的复杂机制,为构建更强大、更具鲁棒性的AI推理模型提供了多个维度的关键发现。

团队构建了一个涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的多领域评估框架,并为不同训练数据设计了定制化的奖励策略。

实验基于Qwen2.5-7B系列模型,在将数学、代码和谜题三大领域数据进行联合训练后,模型的整体平均性能达到了56.57,显著优于任何双领域组合。

研究团队通过大规模实验,有以下关键发现:

Puzzle与Math数据的相互支持:逻辑推理与数学能力相辅相成,显著提升模型的整体性能。

Code推理的跨领域混合效应:指令遵循能力较强的Instruct模型可以较好的将代码能力泛化到其他领域,而Base模型则不然。

跨领域数据提升鲁棒性:多样化数据通常能提升模型能力或实现更均衡的表现,但需要更复杂的设计来解决Math、Code和Puzzle领域间的潜在冲突。

SFT可以提升强化学习效果:在强化学习前加入SFT阶段可显著改善模型性能。

Template一致性至关重要:训练与评估Template的不匹配会导致性能大幅下降,表明RLVR在特定领域训练时的泛化能力鲁棒性面临挑战。

Policy Refresh的益处:在课程学习中定期更新参考模型和优化器状态可提升模型稳定性和性能。

奖励设计需适应任务难度:根据模型在训练数据上的表现调整奖励设置,可提高学习效率。

RLVR对语言敏感:中文训练的模型性能低于英文训练的模型,存在一定的性能差距。

研究过程与性能表现

领域划分与数据构建:多域推理的“基石”

上海AI Lab的OpenDataLab团队构建了一个涵盖数学(Math)、编程(Code)和逻辑谜题(Puzzle)三大类数据的多领域评估框架,并为不同训练数据设计了定制化的奖励策略。

实验基于Qwen2.5-7B系列模型,探索了以下几方面:

模型在数据上的表现与泛化能力:重点关注单领域数据优化与跨领域泛化,以及跨领域数据间的相互影响。

训练方法与策略的有效性:评估Template在RLVR中的作用,以及课程学习策略的有效性。

模型优化要素:研究不同奖励机制的设计原则,以及训练语言对模型性能的影响。

通过系统性实验,研究揭示了强化学习(RLVR)在多领域推理中的内在机制,为优化大模型推理能力提供了新视角。

单领域训练:各领域“内卷”大比拼

在单领域训练中,模型在特定任务上展现出显著的性能提升,但跨领域效应复杂,既有协同增效也有相互削弱。

数学领域:RLVR提升数学性能,但跨域效应复杂

经过针对性训练,Base模型在CountDown任务上准确率提升了约75个百分点。同时,数学训练还能有效提升模型解决逻辑谜题的能力,平均得分得到提高。然而,深度优化数学能力的同时,也可能对代码任务产生负面影响,提示了不同领域技能间存在一定的权衡关系。

代码领域:指令微调助力编程,展现更强的跨域泛化

代码训练提升了模型在编程任务上的表现,尤其是经过SFT的Instruct模型表现出更高的性能上限。同时,Base模型在代码训练后往往在多数域外任务上出现性能下降,而Instruct模型则展现出更强的跨域泛化能力,能够在多数域外任务上保持甚至提升表现。

谜题领域:逻辑推理实力强劲,部分训练利于数学迁移

在KK数据集上,Instruct模型准确率高达99.14,在Zebra任务中,得分提升至36.20。此外,KK谜题的训练效果还能迁移到数学任务上,甚至在部分数学基准中,使得Base模型的表现接近或超过Instruct模型,进一步体现了跨领域迁移的潜力。

跨域互动:协同与冲突的探究

双领域组合:探索协同与权衡

三领域全家桶:平衡与鲁棒性

紧接着,将三个领域的数据全部组合在一起,结果如下所示,多领域联合训练展现出更优的整体表现与鲁棒性:

Template一致性:最佳表现

在RL训练中,一个常被忽略的问题是训练和测试的Template不匹配。这可能导致模型性能大幅下降。研究团队在不同Template(R1、Qwen、Base)下进行测试,揭示了Template一致性的重要性。

课程学习:从易到难,逐步征服

课程学习在SFT中已证明有效,但在RLVR中的应用仍未全面探索。研究团队在Puzzle中的KK数据集上进行测试,基于子问题数量(3PPL到8PPL)设置难度梯度,并设计了”Policy Refresh”策略——在每个难度阶段后更新参考模型并重置优化器状态。

通过实验发现,

奖励设计:个性化定制

奖励设计是强化学习的核心。研究团队在KK和LPB数据集上测试了四种策略:(1)二元奖励要求答案全对才得分;(2)部分奖励按正确比例计分;(3)格式奖励用标签引导推理;(4)重缩放奖励则将分数范围调整为[-1,1]并对错误施加惩罚。不同设计为模型塑造了截然不同的学习信号。

研究团队发现,在简单任务KK上,二元奖励R1凭借直接明了的奖励设置实现了最优表现;但在复杂任务LPB中,R1因信号稀疏反而训练崩溃。部分奖励R2能在LPB初期迅速起效,却难以长期维持优势;格式奖励R3和重缩放奖励R4则凭借稳定推理和放大行为差异,后来居上夺得LPB冠军。不过,复杂设计在KK上反成累赘。结果表明,数据集稀疏性和任务难度,是决定RLVR奖励机制成败的关键因素。

展望未来,团队呼吁拓展Science、General Reasoning等新领域数据分类,并探索Llama、DeepSeek等模型的适配性。RLVR已经在多个领域被证明其有效性,但无论训练方式如何,数据永远是模型能力来源的基石,也希望未来的研究能够更深入地探究数据对RLVR的影响。

论文地址:https://arxiv.org/abs/2507.17512

训练代码:https://github.com/Leey21/A-Data-Centric-Study

本文来自微信公众号“量子位”,作者:上海AI Lab 团队,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI大模型 强化学习 跨领域推理 RLVR 模型优化
相关文章