量子位 05月23日 21:34
超长推理还能节省计算!Salesforce开源神器两连发:教大模型边想边省,显著提升数学编程准确率
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Salesforce AI Research团队开源了两项创新技术,旨在提升大模型推理效率,尤其是在预算有限的情况下。Elastic Reasoning通过“思考-解题”分离,优化token预算分配,缩短输出长度的同时保持甚至提升准确性。Fractured Sampling则通过“碎片化”采样,重新定义了思维链推理的成本-性能前沿,使得LLM能在更低开销下实现强大推理。这些技术在数学和编程任务中表现出色,为大模型推理带来了新的突破。

💡Elastic Reasoning:该技术将推理流程显式划分为思考部分和解题部分,为它们分别分配token预算。模型在限定的“思考预算”用完后,强制结束思考,用剩下的预算生成解答,以确保结果的完整性和可靠性。

🧠为了让模型学会在“思考被截断”时也能答对题,Salesforce团队设计了成本可控强化学习采样(Budget-constrained rollout)的方法,训练后的模型能够快速学会如何利用不完整的思考进行作答。

🧩Fractured Chain-of-Thought:该方法沿三条维度进行采样控制:推理路径数、每条路径的解答数和思考深度。通过在不同的“思考深度”上采样,形成多组“碎片化思考+答案”,再综合判断哪个最靠谱。

📈实验结果:在多个推理数据集上,增加思考深度的采样能以更少的tokens换来更高的准确率。在实际场景中,联合使用多种采样维度,可以极大提升模型的准确率。

🚀早停策略:利用Fractured Sampling进行早停,能够保持模型精度,甚至在某些情况下提高精度,同时减少约20%的生成token数量,提升计算效率。

关注前沿科技 2025-05-23 14:14 北京

在推理预算紧张时依然表现出色

Salesforce团队 投稿量子位 | 公众号 QbitAI

推理大模型如何提升效率?Salesforce AI Research开源神器两连发——

Elastic ReasoningFractured Sampling

Elastic Reasoning用“想多少、答多少”替代了“想到哪算哪”,让模型在预算范围内思考更合理,输出缩短30%,同时保持(甚至提高)了准确性。

Fractured Sampling让模型“少想早答”,重新定义了思维链推理的成本-性能前沿,使LLM能够在更低的计算开销下实现强大的推理。

这两种方案显著提高了数学和编程任务的准确率,在推理预算紧张时依然表现出色。

Elastic Reasoning:首次实现“思考-解题”分开管预算

当前的推理大模型在处理任务时往往需要生成长的Chain-of-Thought(CoT)推理链,效果虽好,但开销很大。

在预算有限的情况下,Elastic Reasoning提出了一种新的“思考分段法”:把推理流程显式划分为思考部分解题部分,为它们分别分配token预算。

通俗地讲,让大模型每次生成时,不再一股脑“想到哪说到哪”,而是在限定的“思考预算”用完后,强制结束思考,用剩下的预算生成解答。

这种“精打细算”的策略使得最终答案不会因为思考未完就被截断,保证了结果完整性和可靠性。

为了让模型学会在“思考被截断”时也能答对题,Salesforce团队设计了成本可控强化学习采样(Budget-constrained rollout)的方法,训练后的模型能够很快学会如何利用不完整的思考进行作答。

用该方法训练出的模型E1-Math-1.5B在训练步数下的验证准确率和奖励曲线如图,训练数据集可见文末。

模型效果也非常亮眼:

E1-Math-1.5B在Math数据集上能控制预算作答,同时相比于L1使用更少的训练资源,保留更多的模型性能(35.0%正确率,大幅领先L1 27.1%)

在Codeforces竞赛中,E1-Code-14B达到了1987rating(96.0%分位),媲美O1模型。

在不设预算时,由于训练后模型thinking质量提高:平均token使用大幅减少,推理更高效:AIME上减少32.1%,LiveCodeBench上减少37.4%

Fractured Chain-of-Thought:三维碎片化采样,推理效率拉满

和Elastic Reasoning基于相同的只用部分推理链就能得出正确答案,没必要等到完整的CoT生成完再做判断的观察。

Fractured Sampling则从推理的采样策略下手——将完整的推理链条在时间维度上打碎,探索“提前终止思考也能答对”的可能性。

该方法沿三条维度进行采样控制:

尤其是新提出的思考深度H,在不同的“思考深度”上采样,形成多组“碎片化思考+答案”,再综合判断哪个最靠谱。

在DeepSeek-R1系列模型上对Fractured Sampling进行实验,结果如下:

Pass@K表示在生成样本集中存在的正确预测比例。

单独分析n,m,H的test time scaling,结果显示,在多个推理数据集上,最“物超所值”的是增加H(思考深度的采样)以更少的tokens换来更高的准确率

意味着H维度相比于n和m能更高效得达到比较好的性能。

在实际场景中还能将n、m、H联合进行采样,通过动态分配采样的维度,从而极大提升模型的准确率。

除了提升Pass@K,Salesforce团队还进一步测试了Best-of-N和利用该采样策略进行早停的应用潜力,都呈现出不错的效果。

与标准采样设置H=1,m=1相比,H=1,m=4的采样平均准确率略有提升(61.6%vs.60.4%)。

有趣的是,仅将H维度增加到H=16,m=1也带来了轻微的提升(61.4%vs.60.4%),说明改变H通常比改变m在提高准确率方面更有效。

实验证明,用该采样策略进行早停能够保持模型精度,在某些情况下还能提高精度——DeepScaleR-1.5B-Preview实现了2.9%的提升。

在计算效率方面,相比标准生成,早停能将生成的token数量减少约20%。

以上工作均已开源。

Elastic Reasoning:https://github.com/SalesforceAIResearch/Elastic-ReasoningE1 models :https://huggingface.co/collections/Salesforce/elastic-reasoning-682b4bba108d6ea0a8bab275Fractured Chain-of-Thought:https://github.com/BaohaoLiao/frac-cot论文链接1:https://arxiv.org/pdf/2505.05315论文链接2:https://arxiv.org/pdf/2505.12992

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Elastic Reasoning Fractured Sampling 大模型推理 AI技术
相关文章