量子位 03月07日
7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Tufa Labs提出的LADDER方法,通过递归问题分解和强化学习,使AI模型无需人工标注数据即可实现自我改进。DeepSeek蒸馏的Qwen2.5 7B模型在麻省理工学院积分大赛中达到90分,超越了o1。LADDER通过自主生成和求解渐进简化的问题变体,不断提升模型解决复杂问题的能力。它包含变体生成、解的验证和强化学习等组件,构建自然的难度梯度。此外,测试时强化学习方法TTRL让模型在推理时动态生成简单变体,积累经验,从而解决原始难题。LADDER为提升模型性能开辟了新道路。

🪜LADDER方法的核心在于让LLM通过自我生成和求解渐进简化的问题变体,从而不断提升解决复杂问题的能力。它包含变体生成、解的验证和强化学习三个关键组件,形成一个结构化的框架。

✅LADDER方法无需人工标注数据,降低了数据获取成本,同时模型通过生成问题变体构建针对性的学习路径,使得学习过程更加高效,并且生成的问题变体与原始问题相关性高,避免了无关细节的干扰。

💡TTRL是一种创新的测试时强化学习方法,它在推理阶段遇到复杂问题时,会动态生成一系列更简单的变体,模型通过解决这些变体来积累经验,最终找到解决原始难题的方法,从而动态扩展模型的能力边界。

🏆实验结果表明,LADDER方法能够显著提升模型的解题准确率。例如,一个原本只有1%准确率的Llama 3.2 3B模型,在使用LADDER后,准确率飙升至82%。更强大的基础模型Qwen2.5 7B Deepseek-R1 Distilled,在用上LADDER方法后,MIT Integration Bee比赛的成绩也得到了显著提升。

关注前沿科技 2025-03-07 15:12 广东

用人工标注数据,AI自己刷题

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

见识过32B的QwQ追平671的DeepSeek R1后——

刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事?

新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。

使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省理工学院积分大赛MIT Integration Bee)上达到90分超越o1。

注意,不是积分制的比赛哦,是只做微积分中积分题的比赛,MIT的数学高手每年都会挑战一次,题目像这样:

LADDER论文来自小型独立研究团体Tufa Labs,论文已上传到arXiv。

在推理时间强化学习

LADDER,全称Learning through Autonomous Difficulty-Driven Example Recursion,即”通过自主难度驱动的样本递归进行学习”。

这个名字听起来有点拗口,但核心其实很容易理解:就是让语言模型(LLM)通过自我生成和求解渐进简化的问题变体,来不断提升自己解决复杂问题的能力。

具体来说,LADDER是一个结构化框架,由以下组件组成:

而LADDER这个名字,也意味着像是模型学会了”爬梯子”:通过自主生成一系列从易到难的问题变体,不断练习和强化,最终爬到顶端。

以往的训练方法,总是离不开大规模标注数据。

LADDER利用模型现有能力来生成问题变体,形成循序渐进的难度梯度,最终实现自举学习。整个过程只需对答案进行验证即可,无需人工干预。

相比之前的方法,LADDER有三大优势:

不再依赖人工标注数据,降低了数据获取成本;模型通过生成问题变体构建针对性的学习路径,学习更高效;生成的问题变体与原始问题相关性高,避免陷入无关细节。

此外,作者还提出了一种创新的测试时强化学习方法TTRL。在推理阶段遇到复杂的数学积分测试问题时,TTRL会动态生成一系列更简单的积分变体,模型通过解决这些变体来积累经验,找到解决原始难题的方法。

这种测试时计算扩展的思路,为进一步提升模型性能开辟了新的道路。不同于简单增加输出长度,TTRL能够让模型在推理时针对性地”刷题”,动态扩展能力边界。

通过LADDER,一个原本只有1%准确率的Llama 3.2 3B模型,在没有任何人工标注数据的情况下,解题准确率飙升至82%。

更强大的基础模型Qwen2.5 7B Deepseek-R1 Distilled,在用上LADDER方法后,

MIT Integration Bee比赛的成绩就从50%提高到73%。

最后,LADDER加上TTRL方法,让最终成绩达到90。

不过作者也强调,与o1的对比不是严格的头对头评估。

o1无法访问数字检查器,这意味着它在不同的约束下运行。LADDER的结果强调了通过递归问题分解和强化学习进行自我提升的有效性,而不是表明它直接优于o1的方法。

论文地址:https://arxiv.org/abs/2503.00735

参考链接:
[1]
https://x.com/yoshiyama_akira/status/1897662722679959583

评选报名2025年值得关注的AIGC企业&产品

下一个AI“国产之光”将会是谁?

本次评选结果将于4月中国AIGC产业峰会上公布,欢迎参与!


一键关注 ? 点亮星标

科技前沿进展每日见



一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LADDER AI模型 自我改进 强化学习
相关文章