智源社区 04月25日
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华和上海AI Lab周伯文团队提出一种无需数据标注的测试时强化学习(TTRL)方法,该方法在模型测试阶段进行强化学习,显著提升了模型的数学能力。实验结果表明,Qwen-2.5-Math-7B模型在AIME 2024竞赛题上的成绩提高了159%。TTRL通过“生成、投票、强化”三个步骤,利用模型自身生成数据进行强化学习,其性能甚至超过了用于训练的伪标签。这种方法无需大量带标签的数据集,为LLM的发展带来了新的可能性。

💡**测试时强化学习(TTRL)**:该方法结合了测试时扩展和测试时训练,分为“生成、投票、强化”三个步骤,无需数据标注,在测试阶段提升模型性能。

🗳️**生成与投票机制**:通过增加采样数量(例如,每个prompt采样64次)来生成多样化的候选答案,然后采用多数投票的方式来估计正确答案,作为伪标签,用于后续的强化学习。

🚀**强化学习与性能提升**:利用强化学习算法(如GRPO),基于伪标签优化模型策略,使其倾向于给出正确答案。实验表明,该方法在AIME 2024、AMC和MATH-500等数据集上显著提升了模型的数学能力,Qwen-2.5-Math-7B在AIME 2024上的准确率提升高达159%。

🌱**泛化能力与纠错机制**:TTRL方法具有良好的泛化性,在一个数据集上应用后,性能的提高可以迁移到其他数据集。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

无需数据标注,在测试时做强化学习,模型数学能力暴增159%!

清华和上海AI Lab周伯文团队用这样的方法,对模型进行了强化——

结果模型在多个数据集上的成绩均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024竞赛题的成绩直接提高了159%

实验过程中,强化学习的数据均由被训练的模型自身生成

作者还发现,训练后的模型性能,准确性已经超过了用于训练它的伪标签(测试时强化学习过程中产生)

DeepMind工程师评价,这种测试时强化学习的方式将改变LLM的格局:

它利用预训练模型和特定任务的提示进行实时自适应,而无需大量带标签的数据集,这是向前迈出的重要一步。

模型自己生成强化学习数据

作者提出的测试时强化学习(TTRL)过程是测试时扩展和测试时训练的结合,具体可以分为“生成、投票、强化”三个大步骤。

第一步生成的目的,是让模型针对每个输入的prompt,生成尽可能多样化的候选答案,该过程通过测试时推理来实现。

其思路是在推理阶段增加计算资源以获得更好的性能,具体到TTRL采用的是增加采样数量的方式,即对每个prompt,让模型采样生成N个不同的答案,而不是只生成一个确定性最高的输出。

作者的实验中,当在AIME 2024数据集上应用TTRL训练Qwen2.5-Math-7B模型时,每个prompt采样64次(N=64),温度系数设为1.0,以鼓励模型生成多样化的答案。

投票过程从上一步生成的N个候选答案出发,通过多数投票的方式来估计正确答案,并将其作为伪标签。

TTRL在实际应用投票机制时还引入了一个参数 Maj@N,表示多数投票的估计准确率。

它衡量的是伪标签与真实标签的一致性。通过控制Maj@N,可以权衡伪标签的质量和数量。

最后一步利用强化学习,基于上一步估计出的伪标签,来优化语言模型的策略,使其倾向于给出正确答案。

TTRL采用GRPO算法,还加入了重要性采样和蒙特卡洛估计等技术,以提高训练效率和稳定性。

模型数学能力大幅提升

为了评估TTRL的效果,作者在AIME 2024、AMC和MATH-500三个数据集上对调整前后的三款模型进行了测试。

    在AIME 2024数据集上,对于Qwen2.5-Math-7B基础模型,TTRL将其准确率从16.7%提高到43.3%,提升幅度高达159.3%,超越了所有在大规模标注数据上训练的模型。
    在AMC数据集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的准确率分别获得了74.9%、63.1%和68.4%的大幅提高。
    MATH-500数据集上的表现更为突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分别实现了66.4%和142.4%的惊人提升,LLaMA模型的准确率也提高了29.3%。

平均而言,TTRL使Qwen2.5-Math-7B模型在三个数据集上的性能提高了84.1%。

进一步的泛化性实验表明,在一个数据集上应用TTRL后,性能的提高可以自然迁移到其他数据集,甚至是从未参与训练的任务。

为了分析TTRL方法有效的原因,作者比较了TTRL训练前后模型的多数投票性能。

结果,应用TTRL后,模型的多数投票准确率(Maj@64)显著高于原始的Qwen模型,说明通过多数投票得到的伪标签质量优于单个模型输出

并且强化学习具备纠错能力。即使伪标签并非完全准确,强化学习也可以通过奖惩机制引导模型朝着正确方向优化。

从AIME 2024上标签准确率和奖励准确率的变化曲线中可以看到,即使在标签准确率较低的阶段,奖励准确率也能维持在90%以上。

作者简介

这项研究的领导者是清华大学C3I课题组博士生张开颜和上海AI实验室青年研究员崔淦渠

张开颜的导师是上海人工智能实验室主任、首席科学家周伯文教授;崔淦渠则毕业于清华NLP实验室,读博期间导师是刘知远副教授。

本文共同一作是张开颜和同样来自清华的Yuxin Zuo,周伯文和C3I课题组博士后丁宁是本文的通讯作者。

论文地址:
https://arxiv.org/abs/2504.16084

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

测试时强化学习 数学模型 AI Lab Qwen-2.5-Math-7B
相关文章