IT之家 02月16日
不蒸馏 R1 也能超越 DeepSeek,上海 AI Lab 用 RL 突破数学推理极限
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海AI Lab提出了一种基于结果奖励的强化学习新范式OREAL,它从Qwen2.5-32B-Base模型出发,通过微调和基于结果反馈的强化学习,在不依赖超大模型蒸馏的情况下,超越了DeepSeek-R1-Distill-Qwen32B等模型在数学推理上的性能。该方法解决了稀疏奖励、局部正确陷阱和规模依赖等问题,通过模仿学习正确样本、偏好学习错误样本以及重点学习关键步骤,实现了惊人的效果。研究团队还开源了训练数据、起点模型和最终模型,以推动社区的公平比较和进一步研究。

💡OREAL 框架通过对正确样本进行模仿学习,确保模型有效吸收成功经验,同时通过奖励重塑因子精确识别关键错误边界,从而提升训练性能。

🎯OREAL 创新性地设计了 token 重要性估计器,通过构建序列累计形式的奖励函数,将结果奖励逆向分解到每个推理步骤,精确定位核心错误步骤,实现更精细的梯度更新,提升模型在长序列任务中的表现。

🏆在 7B 模型上,OREAL 在 MATH-500 上取得了 91.0 的 pass@1 准确率,首次通过强化学习而非蒸馏方法达到如此高的精度,超越了更大参数量的模型。应用于 DeepSeek-r1-Distill-Qwen-7B 后,更创下了 94.0 的 pass@1 精度记录。

📚研究团队还发现,强大的起点模型和高质量的训练数据对于 RL 在数学推理任务中的成功至关重要,为未来的研究提供了方向。

仅通过强化学习,就能超越 DeepSeek!

上海 AI Lab 提出了基于结果奖励的强化学习新范式 ——

从 Qwen2.5-32B-Base 模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如 DeepSeek-R1 的情况下,就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超强数学推理性能

团队发现,当前大模型数学推理任务面临“三重门”困局:

因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:

通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如 DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。

除此之外,团队也对不同起点模型进行了强化学习训练对比和分析,发现强化学习的起点模型训练数据分布对最终的模型效果也很重要。因此,研究团队将 RL 训练的数据、起点和最终模型一起完整开源,来推动社区的公平比较和进一步研究。项目链接已放文末。

从头设计结果奖励强化学习

针对数学推理任务中强化学习面临的稀疏奖励局部正确难题,团队提出新的策略优化框架 OREAL

通过理论创新实现针对性的算法改进,在用实验说明“怎么做更好”之前,首先论证“为什么这么做更好”

正负样本奖励重塑,解决稀疏奖励困境

在数学推理任务的采样流程中,团队经过理论分析推导,提出核心见解:在二元反馈机制下,采样任意数量包含正确答案的 BoN(Best-of-N)设置,其正确轨迹的分布具有一致性特征。这一发现表明,通过直接行为克隆(behaviorcloning)采样得到的正确轨迹,已经构成了正样本训练中的最优设置。

在对正样本做模仿学习的基础上,团队提出直接惩罚负样本会导致梯度偏差问题,对负样本的训练原则应当是维护优化梯度形式与学习 BoN 分布一致。通过深入分析正负样本的训练梯度,研究者们提出了基于平均准确率 p 的奖励重塑因子来维护上述一致性,为 GRPO 等算法的改进提供了理论依据。这种设置使模型既能有效吸收成功经验,又能精确识别关键错误边界,对训练性能有明显帮助。

结果奖励「因果溯源」,跳出局部正确陷阱

针对复杂的长推理链问题,OREAL 创新性地设计了 token 重要性估计器。通过构建序列累计形式的奖励函数,我们将结果奖励逆向分解到每个推理步骤(见下面的 token-level RM 热力图)。这种方法能够精确定位核心错误步骤,在训练时实现更精细的梯度更新,显著提升了模型在长序列任务中的表现。

OREAL 框架

将几项认知组合起来,团队提出的最优强化学习策略可以概括为:在正确样本上模仿学习,在错误样本上偏好学习,对关键步骤做重点学习。

通过合理的分析和实践,一步步将强化学习性能推到最佳水平。

强化学习超越蒸馏,摆脱规模依赖魔咒

团队在 7B 和 32B 两个规模的模型上仅使用 4 千条高质量训练样本进行了训练和测试,

在 7B 量级上,Oreal-7B 在 MATH-500 上取得了 91.0 的 pass@1 准确率。这是首次通过强化学习而非蒸馏方法达到了如此高的精度。这一成绩不仅为基于 RL 的方法树立了新的里程碑,还超越了更大参数量的模型,包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。

此外,将 Oreal 应用于此前最佳的 7B 模型(DeepSeek-r1-Distill-Qwen-7B)后,得到的新模型 OREAL-DSR1-Distill-Qwen-7B 在 MATH-500 上取得了 94.0 的 pass@1 精度,创下了 7B 模型的记录。千问的基座,经过 DeepSeek 的蒸馏训练,再经过上海 AI Lab 的强化学习训练,达到了中国原创新高度。

对于 32B 模型,Oreal-32B 在 MATH-500 上也达到了 95.0 的分数,超越了同级别的 DeepSeek-r1-Distill-Qwen-32B,实现 32B 模型的新 SOTA。

One More Thing

最后,研究团队还对比了不同基座模型下的性能表现,发现不同性能起点的策略模型 RL 后性能上限是不同的,起点模型越强,RL 后的性能越好。

并且,尽管在多个基座模型上,大部分 benchmark 性能都会在 RL 后有所提升,偶尔也会出现持平(OREAL-32B 在 AIME2025-I)或者性能下降(相比于 DSR1-Distill-Qwen-7B 在 AIME2024)。

研究认为,这些情况的出现可能与训练语料的质量、难度和数量等方面准备的不够充分有关,这也给未来的研究留下了空间。

因此,除了强大的 RL 算法,团队还提出两个关键因素对于 RL 在数学推理任务中的成功至关重要:

强大的起点模型是 RL 可以有效激发模型潜在能力的前提。

在 RL 阶段使用的数据也必须在质量、难度、数量和多样性方面都得到充分保证。高质量的数据集能够让模型通过面对广泛的挑战和学习机会,充分发挥其潜力。

模型数据全面开源,助力强化学习研究

研究团队同时也注意到,尽管 DeepSeek-R1 的出现引发了社区对于大语言模型强化学习的学习和研究热情,大家使用的训练起点模型、训练数据、训练算法和超参细节都不尽相同,影响了算法和模型性能的清晰比较。

因此,研究团队将整个 RL 训练过程中用到的训练数据、起点模型和 RL 后模型都进行了全面开源,训练代码也将开源到 XTuner。

项目链接:

https://github.com/InternLM/OREAL

论文地址:

https://arxiv.org/abs/2502.06781

RL 训练数据链接:

https://huggingface.co/datasets/internlm/OREAL-RL-Prompts

系列模型地址:

https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习 数学推理 AI模型 上海AI Lab
相关文章