掘金 人工智能 06月08日
TORL:工具集成强化学习,让大语言模型学会用代码解题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

TORL (Tool-Integrated Reinforcement Learning) 是一种创新的强化学习框架,它使基础语言模型能够通过自主学习来使用代码工具辅助推理。该框架无需依赖监督微调,通过强化学习从零开始训练模型,并在训练过程中通过代码执行结果获得奖励反馈。实验结果表明,TORL 在数学推理等复杂任务上显著优于现有方法,并展现出策略性调用工具、自我修正代码错误等多种自发认知能力。TORL 为大模型在精密计算和逻辑推理领域的发展提供了新的可能性。

💡 TORL 框架的核心在于**通过强化学习,让基础语言模型自主学习使用代码工具**。它不需要依赖传统的监督微调,而是通过执行代码和奖励机制来引导模型学习合理的工具调用策略。

📈 实验结果显示,**TORL 在多个数学推理数据集上显著优于现有方法**。尤其是在高难度基准任务中,TORL 模型展现出更强的推理能力,验证了其在复杂逻辑问题上的优越性。

🧠 TORL 模型**展现出多种自发认知能力**,包括策略性调用工具、自我修正代码错误、以及灵活切换计算与语言推理方式。这表明 TORL 不仅提升了模型的推理准确性,还促进了模型智能行为的涌现。

摘要

近年来,大语言模型(LLMs)在推理能力上取得突破,但在精确计算和复杂逻辑任务中仍受限。本文提出 TORL(Tool-Integrated Reinforcement Learning),一个可扩展的强化学习框架,使基础语言模型直接通过强化学习自主学会使用代码工具来辅助推理。

实验证明,TORL 显著优于当前主流方法,7B 模型在 AIME24 数据集上准确率达43.3%,超越无工具强化学习方法 14%,超过最强工具集成模型 17%。此外,TORL 模型表现出多种自发认知能力,包括策略性调用工具、自我修正代码错误、以及灵活切换计算与语言推理方式。

1 引言

传统的自然语言推理方法(如 Chain-of-Thought)虽在多个任务中有效,但在遇到复杂计算、精度要求高的逻辑问题时,常常力不从心。近期研究提出“工具集成推理”(TIR),即让语言模型写出代码,通过调用解释器执行,结合自然语言与程序反馈形成更强的推理能力。

已有方法/模型如 ToRA、MathCoder、Qwen2.5-Math-Instruct-TIR 等都验证了 TIR 的有效性。但这些方法依赖强模型微调,限制了模型自由探索工具使用策略的能力。TORL则跳出这一限制,从“零”开始训练模型,通过强化学习自主探索并学习如何在推理中合理使用代码工具,最终涌现出显著性能与认知能力。

2 方法

2.1 数据集构建

训练数据来自三个高质量数学题库:NuminaMATH、MATH和DeepScaleR。数据清洗后,保留 75,149 道可验证问题。随后使用 LIMR 数据蒸馏技术提取高质量、难度分布均衡的 28,740 道题目用于训练。

2.2 工具集成推理(TIR)

TIR 通过让模型生成代码并执行,获得中间反馈,不断优化推理路径。推理轨迹定义如下:

sk=(r1,c1,o1,,rk,ck,ok)(1)s_k = (r_1, c_1, o_1, \dots, r_k, c_k, o_k) \tag{1}

其中:rir_i为自然语言推理,cic_i表示生成代码,oi=I(ci)o_i = I(c_i)则代表代码执行器返回的执行结果。

推理过程迭代如下:

(rk,ck)=M(Qsk1)(2)(r_k, c_k) = M(Q \oplus s_{k-1}) \tag{2}
ok=I(ck)(3)o_k = I(c_k) \tag{3}
sk=sk1rkckok(4)s_k = s_{k-1} \oplus r_k \oplus c_k \oplus o_k \tag{4}

每一步都基于之前的执行结果更新,从而实现动态推理与自我修正(图2给出了TIR与COT的示例对比)。

2.3 TORL:工具集成强化学习

TORL 的核心创新是:

训练参数设计:

代码执行环境选用 Sandbox Fusion,以提高训练过程的稳定性和隔离性。

3 实验

3.1 实验结果

整体实验结果如下表所示:

对于1.5B模型,相比于TIR微调模型,在五个数据集上平均提升7.2;对于7B模型则平均提升14.7。并且,TORL 在高难度基准任务(AIME24/25、OlympiadBench)中尤为突出。

3.2 实验分析

4 总结

TORL 是一套创新的强化学习训练框架,使大语言模型能自主学会调用工具(如写代码)来辅助复杂推理任务。其核心优势包括:

TORL 的出现,为“工具增强大模型”的发展提供了新范式,尤其在精密科学计算、数学推理等任务中具有广泛应用潜力。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TORL 强化学习 大语言模型 工具集成推理
相关文章