少点错误 前天 03:02
Tsinghua paper: Does RL Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

清华大学的研究揭示了基于可验证奖励的强化学习(RLVR)在提升模型能力方面的作用。研究对比了基础模型与经过RL训练的模型的pass@k分数,发现在数学基准测试中,RL模型在原始分数和pass@1方面表现更佳,但pass@256却低于基础模型。研究表明,RL可能会限制模型推理路径的多样性,尽管在某些情况下,这种多样性对于解决问题至关重要。研究还探讨了RL在不同领域和任务中的表现,以及与蒸馏等其他技术手段的对比,揭示了RL的局限性和应用场景。

💡研究的核心在于比较基础模型和经过RL训练的模型的pass@k分数。Pass@k是指模型在对每个问题进行k次尝试后,至少成功解决一次的百分比。

📈在数学基准测试中,RL模型在原始分数和pass@1方面表现更优,但pass@256的分数低于基础模型。这表明RL可能会“缩小推理边界”,即限制模型解决问题的能力范围。

🌍研究结果显示,在多个数学基准测试中,当k足够大时,基础模型的pass@k分数高于RL模型,交叉点有时低至k=4。但在不同数学基准测试中,RL模型在pass@256方面表现更好,尤其是在使用RLOO和Reinforce++等算法时。

🧐为了验证pass@1024的结果并非仅仅是运气,研究人员对推理轨迹进行了检验,发现对于大多数问题,基础模型至少生成了一个正确的推理轨迹。同时,对于长时间的编码任务,几乎不可能通过猜测来获得正确答案。

📉研究还测试了RL模型生成的困惑度,发现其低于基础模型,这表明RL训练的模型很可能是在任务提示的条件下由基础模型生成的。

📚与RL不同,从更强大的教师模型进行蒸馏“扩大了推理边界”,因此在所有best@k值上,性能都有所提高。

Published on May 5, 2025 6:56 PM GMT

arXiv | project page | Authors: Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang

This paper from Tsinghua find that RL on verifiable rewards (RLVR) just increases the frequency at which capabilities are sampled, rather than giving a base model new capabilities. To do this, they compare pass@k scores between a base model and an RLed model. Recall that pass@k is the percentage of questions a model can solve at least once given k attempts at each question.

Main result: On a math benchmark, an RLed model (yellow) has much better raw score / pass@1 than the base model (black), but lower pass@256! The authors say that RL prunes away reasoning pathways from the base model, but sometimes reasoning pathways that are rarely sampled end up being useful for solving the problem. So RL “narrows the reasoning boundary”— the region of problems the model is capable of solving sometimes.

Further results

Limitations

Takeaways

Thanks to @Vladimir_Nesov for mentioning this paper here.



Discuss

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RL 模型训练 pass@k 强化学习 推理边界
相关文章