UW&微软｜显著提升LLM在数学任务上的表现，单样本强化学习，可至73.6%，代码全开源

智源社区 05月20日 12:32

UW&微软｜显著提升LLM在数学任务上的表现，单样本强化学习，可至73.6%，代码全开源

本文介绍了一种名为单样本强化学习（1-shot RLVR）的方法，该方法仅使用一个训练示例，就能显著提升大语言模型在数学任务上的表现。实验表明，该方法在Qwen2.5-Math-1.5B模型上，将MATH500基准的准确率从36.0%提升至73.6%，六大数学推理基准的平均性能从17.6%提高至35.7%，效果堪比使用1.2k示范集。该方法在多种模型和算法上均有效，并展现出跨领域泛化、自我反思加强和“后饱和泛化”等现象，熵损失等探索机制在其中发挥关键作用。相关代码、模型和数据已开源。

🚀**单样本强化学习（1-shot RLVR）**：一种仅使用一个训练示例即可显著提升大语言模型数学推理能力的方法。

📈**性能大幅提升**：在Qwen2.5-Math-1.5B模型上，MATH500准确率从36.0%提升至73.6%，六大数学推理基准平均性能从17.6%提高至35.7%。

🌐**泛化能力**：通过单样本RLVR训练，模型展现出跨领域泛化、自我反思加强和“后饱和泛化”等现象。

🔑**关键机制**：熵损失等探索机制在单样本强化学习中发挥了关键作用。

报告主题：单样本强化学习，显著提升大语言模型在数学任务上的表现

报告日期：05月22日（周四）10:30-11:30

报告要点:

可验证奖励强化学习（RLVR）是现在常用的用于提升大语言模型数学推理能力的方法。本文发现，仅使用一个训练示例进行RLVR训练（1-shot RLVR）在一些模型上即可达到与用数千个数据进行RLVR训练相同的巨大提升。以 Qwen2.5-Math-1.5B 为，模型在 MATH500 基准上的准确率由 36.0% 提升至 73.6%，并将六大常见数学推理基准的平均性能从 17.6% 提高至 35.7%，效果与使用 1.2k 示范集相当；在多种模型（如 Qwen2.5-Math-7B、Llama3.2-3B-Instruct 等）、多种算法（GRPO、PPO）和不同示例上均可观察到明显增长。同时还发现，通过一个示例进行RLVR训练即可出现跨领域泛化、自我反思加强和“后饱和泛化”等现象，并证实熵损失等探索机制在该方法中发挥了关键作用。代码，模型和数据都已经开源：https://github.com/ypwang61/One-Shot-RLVR

报告嘉宾：

王宜平是华盛顿大学西雅图分校的二年级博士生，导师是杜少雷教授。他的研究兴趣包括大语言模型数学推理和AI4Math，数据选择，对大语言模型训练动力学的理论理解，以及多模态评估（如视频生成）等方面。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

强化学习大语言模型数学推理单样本学习 AI4Math

相关文章

Import AI 370: 213 AI safety challenges; everything becomes a game; Tesla’s big cluster

Exploring the Frontiers of AI: The Emergence of LLM-4 Architectures

Graphs and Language

LangChain, Python, and Heroku

AI News Weekly - Issue #378: Top AI Books to Read in 2024 - Mar 28th 2024

This AI Paper by Alibaba Group Introduces AlphaMath: Automating Mathematical Reasoning with Monte Carlo Tree Search

When More is More? When For an LLM is Enough?

? 第十一期即刻AIGC大目录来了，本期名为《千脑智能》。距离上期《真实世界的脉络》两个月，AI 新能力在各个生态位的喷发让人应接不暇。大模型发布速度有增...

Amazon’s New AI Assistant Is an Editor to Prevent Hallucinations

ChuXin: A Fully Open-Sourced Language Model with a Size of 1.6 Billion Parameters