量子位 01月06日
仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学等团队提出的PRIME方法,是一种结合过程奖励的强化学习新方法。该方法无需依赖蒸馏数据和模仿学习,仅用少量资源即可训练出数学能力超越GPT-4o和Llama-3.1-70B的7B模型。PRIME利用隐式过程奖励,为每个token提供价值估计,并在线更新,有效解决了强化学习中的奖励稀疏问题。实验表明,PRIME的采样效率和下游任务性能均有显著提升,为大模型复杂推理能力的提升提供了新思路,有望推动下一代人工智能发展。

🚀PRIME方法不依赖模仿学习和蒸馏数据,仅用少量资源,即可训练出高性能数学模型,突破了传统方法的数据依赖瓶颈。

💡PRIME算法核心在于隐式过程奖励,它能为每个token提供价值评估,无需额外训练价值模型,简化了强化学习流程,提升了效率。

📈PRIME算法的在线更新机制,通过结合策略模型采样与结果验证器直接更新过程奖励模型,有效缓解了分布偏移问题,提升了算法的鲁棒性。

🎯实验结果表明,PRIME算法相比于仅用结果监督的方法,采样效率提升了2.5倍,并在下游任务上表现出显著的性能优势,验证了算法的有效性。

关注前沿科技 2025-01-06 12:29 北京

无需模仿,超越蒸馏

PRIME团队 投稿
量子位 | 公众号 QbiAI

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力,在基于模仿学习的Scaling Law逐渐受到质疑的今天,基于探索的强化学习有望带来新的Scaling Law。

近日,清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方法——PRIME(Process Reinforcement through IMplicit REwards)

采用PRIME方法,研究人员不依赖任何蒸馏数据和模仿学习,仅用8张A100,花费一万块钱左右,不到10天时间,就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

具体而言,研究人员利用Qwen2.5-Math-7B-Base作为基座模型,训练出了新模型Eurus-2-7B-PRIME,并在美国IMO选拔考试AIME 2024上的准确率达到26.7%,大幅超越GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且仅使用了Qwen Math数据的 1/10。其中,强化学习方法PRIME为模型带来了16.7%的绝对提升,远超已知的任何开源方案。


该项目一经开源就在海外AI社区爆火,短短几天Github取得近300star。

未来,基于PRIME方法和更强的基座模型有潜力训练出接近OpenAI o1的模型。

PRIME方法介绍

长久以来,开源社区严重依赖数据驱动的模仿学习来增强模型推理能力,但这种方法的局限也显而易见——更强的推理能力需要更高质量的数据,但高质量数据总是稀缺,使得模仿和蒸馏难以持续。

虽然OpenAI o1和o3的成功证明了强化学习有着更高的上限,但强化学习有着两个关键挑战:(1)如何获得精准且可扩展的密集奖励;(2)如何设计可以充分利用这些奖励的强化学习算法。

PRIME算法从隐式过程奖励(implicit process reward)的思想出发解决这两个问题。隐式过程奖励模型可以仅在输出奖励模型(outcome reward model, ORM)的数据,即答案的最终对错上进行训练,而隐式地建模过程奖励,最终自动训练出一个过程奖励模型,这整个过程都有严格的理论保证。

详细推导见:https://huggingface.co/papers/2412.01981

基于隐式过程奖励模型的这种性质,研究人员指出将其应用于强化学习有三大优势:

隐式过程奖励解决了PRM在大模型强化学习中怎么用,怎么训,怎么扩展的三大问题,甚至不需要训练额外的奖励模型就可以开始强化学习,易用性和可扩展性极佳。

具体的PRIME算法流程如下图所示,它是一种在线强化学习算法,能够将每个token的过程奖励无缝应用于强化学习流程中。

实验结果

研究人员详细比较了PRIME算法和基线方法。

相比于仅用结果监督,PRIME有着2.5倍的采样效率提升,在下游任务上也有着显著提升。


研究人员还验证了PRM在线更新的重要性,可以看到,在线的PRM更新要显著优于固定不更新的PRM,这也证明了PRIME算法设计和合理性。

此外,研究人员还额外收集数据,基于Qwen2.5-Math-Instruct训练了SOTA水平的EurusPRM,能够在Best-of-N采样中达到开源领先水平。

Showcase演示

Question (AIME 2024试题,Claude-3.5-Sonnet做错)

Answer

Question

Which number is larger? 9.11 or 9.9?

Answer

强化学习是连接已有智能体(大模型)和现实世界(世界模型,具身智能)的桥梁,以及将世界反馈内化为模型智能的路径,将在下一代人工智能的发展中起到重要作用。PRIME 算法创新性地将隐式过程奖励与强化学习结合,解决了大模型强化学习的奖励稀疏问题,有望推动大模型复杂推理能力的进一步提升。

blog链接:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896f
GitHub链接:https://github.com/PRIME-RL/PRIME

—  —


投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你


点这里?关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PRIME 强化学习 大模型 隐式过程奖励 数学推理
相关文章