(本文阅读时间:11分钟)
编者按:大语言模型(LLMs)在语言生成与基础推理中已展现出强大的能力,但它们在数学解题上的能力仍存在明显短板,尤其是难以兼顾复杂计算与定理证明。这背后的关键原因在于,现有模型普遍依赖于单一的推理范式(如自然语言、代码或符号推理),缺乏人类思考问题时那种灵活的推理能力。
为此,微软亚洲研究院与清华大学联合提出了“推理链”(Chain-of-Reasoning, CoR)框架,引入了自然语言、代码与符号三种范式协同推理的新视角,支持模型跳跃式“思考”,显著提升了模型的通用数学能力。相关论文已被 ACL 2025 收录。
数学题通常可以被分为计算和定理证明两大类任务。尽管大语言模型(LLMs)在对话、写作等任务中表现惊艳,但目前的开源 LLMs 在解决数学问题时往往难以同时胜任这两类问题。其原因在于现有工作会分别针对这两个任务进行训练,借助增强模型基于特定结构化的知识表示(即推理范式)来推导答案。常见的推理范式主要有自然语言推理、代码推理和符号推理。
具体来说,自然语言推理是利用自然语言文本,根据人类常识和语义上下文进行推理,具有明确的逐步自然语言解释。代码推理是将任务转化为代码来模拟计算机的操作并执行,从而对最终目标进行推理,例如生成用于编译的 Python 代码等。符号推理则是指利用逻辑符号和公理系统作为形式化推理的基本工具,来执行推理。
当前的主流方法大致可分为两类:第一类如图1左图所示,通过链式或树搜索在单一范式内进行推理;第二类如图1右图,是将其他范式作为工具集成到单一范式的推理中,或使用来自不同任务的单一范式推理数据进行混合训练。然而,这两类方法要么忽略了不同推理范式间存在的协同与互补性,要么未意识到不同范式本身就可以独立完成推理且具有相同的隐式逻辑。
图1:当前的两类主流方法
这种局限性让模型在处理不同类型的数学任务时缺乏通用性和弹性。而在人类日常解题中,我们往往会灵活切换多种思维方式:用自然语言理解题意,用代码或符号演算推导中间结果,最终总结答案。那么如何让大模型也具备这样的“多范式协同推理”能力?
CoR:融合语言、代码与符号的多范式数学推理框架
近日,微软亚洲研究院与清华大学合作,创新性地提出了推理链(Chain-of-Reasoning, CoR)框架,将自然语言、代码和符号三种推理范式融入同一条推理轨迹中。该框架允许模型先基于某种范式进行推理,然后根据题目的需求切换范式,在先前生成内容的基础上继续推理,以此类推,从而实现了在泛化的通用数学任务上的零样本(zero-shot)推理能力。此外,模型也可以通过调整提示词来改变推理的深度和使用的范式数量,进一步提高了其对不同任务的适应性。相关论文已被 ACL 2025 收录。
论文链接:https://arxiv.org/abs/2501.11110
GitHub 链接:
https://github.com/microsoft/CoR研究员们从推理的本质出发,提出 LLMs 生成的推理文本是具有推理层次结构的。该结构由三个层次组成:
推理步骤是基本单位;推理路径由多个推理步骤组成,形成一个完整的推理线路,通常包括最终答案和解决方案过程;推理范式则代表利用单一知识媒体的一个或多个推理路径,如自然语言、代码、符号语言等。
当前的研究工作基本都集中在单一范式内,沿着两个维度进行优化——深度(推理步骤的数量)和宽度(推理路径的数量)。而 CoR 框架提出了一个与当前工作正交的新颖视角,从扩大推理范式的角度进行扩展,且理论上可以与当前基于单一范式推理的各种优化工作叠加使用。
CoR 在5个数学推理数据集上均取得了显著的提升效果,展现出了令人惊喜的通用数学解题能力,既能解决计算题,又能解决形式化证明题。例如,在定理证明任务中,CoR-Math-7B 比 GPT-4o 取得的成绩高出41.0%;在计算任务中,比 GPT-4 高出24.2%。在数学计算任务中,CoR-Math-7B 在训练资源和性能之间取得了最佳平衡,与同类模型相比,位于帕利托优化曲线区域的上沿。在美国数学竞赛(AMC)和奥林匹克数学竞赛(AIME)的考试中,CoR-Math-7B 的成绩分别答对了34道(共40题)和12道(共30题),性能接近 o1-mini。
上述结果表明,CoR 框架通过多范式推理大幅提升了模型解决数学问题的能力,同时对训练数据的依赖更少,大大降低了获取高效推理能力的成本。
表1:CoR 在5个数学推理数据集中的提升效果
多范式训练:一步步教会模型“如何思考”
CoR 能够实现跨范式推理的关键,在于其背后精心设计的数据构建与训练策略。研究员们构建了一个多范式数学(MPM)的训练数据集,包含16.7万条推理路径,同时提出了渐进范式训练(PPT)方法,使模型能够逐步掌握多个推理范式。
首先,研究员们从 Numina、Lean-Workbook 等数据集中收集了30万条不同范式的推理路径,涵盖自然语言、代码(以 Python 为主)和符号语言(以 lean4 为主)。这些样本任务类型丰富,包括函数、几何、定理证明等,蕴含多样化的推理模式。
为了支撑 CoR 的训练,研究员们将传统的单范式训练数据扩展为包含多范式信息的结构化样本,表示为< x, NLR, SR, AR, y >。如图2(a)所示,训练数据的收集过程分为两个阶段:(a.1)第一阶段:重构、扩展推理路径,(a.2)第二阶段:修订路径。
第一阶段:在进行初步的过滤后,研究员们构建了一种适用于多范式推理的通用模板,用于扩展缺失的推理范式。该模板标准化了不同推理范式的位置,并定义了它们之间的关系,还可以适应各种推理深度,也支持不同推理范式的灵活组合。这一阶段生成了约28.5万个合成样本,构成了初始的 MPM-raw 数据集。
第二阶段:研究员们通过让 MPM-raw 数据集与 Lean Prover 迭代交互,以验证符号范式呈现的证明步骤是否正确。同时,根据 Prover 的反馈信息来指导推理路径的过滤和修改。具体来说,该过程将符号推理路径提交给 Prover,一旦 Prover 成功完成证明且未返回任何错误,整个多范式推理路径将会被收集到 MPM 数据集中。否则,Prover 返回的错误信息将被合并进下一轮迭代的输入中,作为指导下一轮迭代输出的反思指导信息。如此进行多轮,最终的 MPM 数据集包含了82,770个问题和167,412个高质量的多范式推理解决方案。
图2:CoR 整体训练框架
有了数据,还需要方法。为此,研究员们引入了 PPT 的三阶段训练策略,使 LLMs 能够逐步掌握不同的推理范式。如图2(b)所示,训练过程分为以下三步:
第一阶段是一个初始化的教学阶段,鉴于自然语言在语言模型预训练数据中的主导地位,这一阶段主要训练模型能够学习使用自然语言解决复杂的数学问题。
第二阶段,考虑到预训练数据中有一定比例的代码语料库,研究员们将推理路径扩展为包括自然语言和代码两种范式。在这个阶段之后,模型可以在一次输出中,以自然语言推理为起点,同时启动代码范式处理需要精确答案的问题。
第三阶段,通过利用 MPM 数据集,研究员们将推理路径进一步扩展至三个推理范式。经过完整的 PPT 阶段后,训练好的 CoR-Math-7B 模型不仅掌握了自然语言和代码推理,还可以执行严格的逻辑符号推理。
值得注意的是,此时 CoR-Math-7B 推理的深度(采用几次不同范式间的转换迭代)和采用的范式数量(一条推理路径中会涉及几种范式)都是可变的。在 zero-shot 的情况下,也可以根据特定任务的特定需求,简单调整提示词以灵活适应各种场景。
全面验证多范式推理的优越性
研究员们在五个不同的大语言模型基础上评估了 CoR 框架的表现,包括 DeepSeekMath-7B-base、Qwen2.5-Math-7B-base、Qwen2.5-Math-1.5B-base、Llama-3.1-8B 和 Llama-3.1-70B。
为更系统地评估推理能力,研究员们将基线模型划分为两类:通用数学模型和针对特定任务优化的数学专家模型。其中,专家模型又可进一步分为面向算术计算的模型和面向定理证明的模型。
在涵盖算术与定理证明任务的五个数学数据集上,研究员们对 CoR 进行了系统测试。结果显示,在 zero-shot 设置下,由 DeepSeekMath-7B-base 微调得到的 CoR-Math-7B 在所有数据集上均取得了最佳性能,展现出极强的泛化推理能力。
表2:CoR-Math-7B 在5个具有代表性的数学推理数据集上的 zero-shot 效果
在定理证明子任务中,如表3所示,CoR-Math-7B 在 MiniF2F (证明题型)数据集上取得了66.0%的准确率,在无需额外训练的前提下达到领先水平,兼顾准确率与计算效率,表现尤为突出。
表3:CoR-Math-7B 在 MiniF2 上的性能
表4显示了 CoR 与算术计算专家模型的比较。相较于自然语言和代码碎片化交织的工具调用算法,CoR 展现出了更强的竞争力。
表4:CoR 与算术计算专家模型的比较
总体来看,CoR 在定理证明任务中超越了传统的 SFT、RL 及其变体方法,甚至优于 GPT-4o 和 o1-mini;在算术计算任务中,CoR 在性能与资源效率之间也实现了优异的平衡,显示出在多种数学任务上的广泛适应性与高效性。
迈向更强推理系统的未来
CoR 的最大价值在于:提出了一个可扩展、可组合、可解释的多范式推理方式。它不仅在数学任务上大幅超越当前最强基线,还为构建更灵活、更强大、更通用的大模型推理系统提供了清晰的路径。
未来,随着多模态、Agent 等领域的发展,如何将多范式推理进一步推广到科学发现、工程设计、自动编程等更广泛场景,将是值得期待的重要方向。
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文