机器之心 04月05日
250多篇论文,上海AI Lab综述推理大模型高效思考
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了大型推理模型(LRMs)在推理过程中存在的效率问题,如冗余信息、过度思考等。研究指出,提升LRMs的思考效率对于加速模型训练、优化实际应用至关重要。文章总结了提升效率的多种方法,包括长度预算、系统切换、微调学习和强化学习等,并展望了高效多模态推理、可信赖推理等未来研究方向,强调了在性能与成本之间取得平衡的重要性。

💡 **定义与挑战:** 文章首先定义了LRMs的思考效率,即在保证任务质量的前提下,降低计算成本。随后指出了LRMs在推理过程中常见的低效模式,例如冗余输出、过度思考简单问题以及推理过程不连贯等问题,并强调了量化推理效用、控制思考长度、超越Transformer架构瓶颈等独特的挑战。

📏 **推理时如何更高效:** 文章详细介绍了四类在推理阶段提升效率的方法:长度预算(控制token数量)、系统切换(在不同推理模式间切换)、模型切换(在不同复杂度模型间分配任务)以及并行搜索(提升并行生成方法的效率)。这些方法旨在优化计算资源的分配,减少不必要的开销。

🧠 **通过微调和强化学习提升效率:** 文章探讨了如何通过监督微调(SFT)和强化学习(RL)来塑造高效推理。SFT方法侧重于让模型学习生成更简洁的推理链,而RL则通过在奖励函数中加入长度考量,或改变RL框架来间接实现效率提升。

🚀 **预训练阶段的探索:** 文章还提到了在模型预训练阶段就融入高效设计的思路,包括使用潜空间预训练、子二次注意力机制以及线性化等方法,旨在从根本上提升计算效率和性能。

🔮 **未来方向:** 文章最后展望了高效多模态与视频推理、高效测试时扩展与无限思考、高效且可信赖的推理等未来研究方向,强调了构建高效推理应用的重要性,并指出了评估与基准的不足,呼吁更细粒度的评估指标和专门的基准来衡量LRMs的过度推理倾向。

2025-04-04 13:07 北京

为何要追求「言简意赅」的 AI?


最近,像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型(Large Reasoning Models,LRMs)通过加长「思考链」(Chain-of-Thought,CoT)在推理任务上表现惊艳。


但随之而来的是一个日益严重的问题:它们太能「说」了!生成的推理过程往往充斥着冗余信息(比如反复定义)、对简单问题过度分析,以及对难题的探索浅尝辄止。


正如 Qwen2.5-32B-Instruct 回答「3 的平方是多少」只需要 30 个 token,而它的 LRM 版本 QwQ-32B 却能滔滔不绝地输出 1248 个 token 来反复验证。


这种低效不仅拖慢了模型训练和推理速度,也给实际应用(如智能体系统)带来了巨大挑战。莎士比亚说:「简洁是智慧的灵魂(Brevity is the soul of wit)」。在 LRM 时代,我们提出「效率是智慧的精髓(Efficiency is the essence of intelligence)」。


一个真正智能的模型,应该懂得何时停止不必要的思考,明智地分配计算资源(token),优化求解路径,用优雅的精确性平衡成本与性能。


上海AI Lab联合 9 家单位,总结超过 250 篇相关论文,深入探讨了当前提升 LRMs 思考效率的研究,聚焦于这个新范式下的独特挑战。




图表 1:综述的主要结构,分类章节,以及未来重要的研究方向


思考效率:定义、常见模式与挑战


在深入探讨方法之前,我们先明确什么是思考效率,看看 LRMs 通常在哪些方面表现「低效」,以及提升思考效率面临哪些独特挑战。


思考效率的定义


我们从任务分布的角度定义推理效率。对于一个 LRM 模型,其在任务分布上的思考效率定义为:



其中,每个任务被形式化定义为,其中代表一个数据集,而是对应的质量。是模型在任务上的质量(如准确率、创造力等),是计算成本(如 FLOPs、生成 token 数等)。简单来说,提高效率要么提升表现 Q,要么降低成本 C。这个公式强调了性能与成本的权衡。


推理低效的常见模式


尽管长 CoT 有效,但 LRMs 常常表现出以下低效模式:





LRM 思考效率提升的独特挑战


提升 LRM 的推理效率面临一些新的、独特的挑战:






推理时如何更高效?



这一部分聚焦于在模型推理(生成答案)阶段提升效率的方法,主要有四类策略:


长度预算(Length Budgeting)


最直接的方法是明确限制计算资源。





系统切换(System Switch)


借鉴人类思维的双系统理论(System1 快直觉,System2 慢审慎)。



模型切换(Model Switch)


在不同复杂度的模型间分配计算任务。



并行搜索(Parallel Search)


提升 Best-of-N、Self-Consistency 等并行生成方法的效率。



通过微调学习高效推理



监督微调(SFT)是让模型学习遵循特定指令的常用方法。这一部分探讨如何通过 SFT 让 LRM 学会更高效地推理,主要分为两类:


推理链压缩(Reasoning Chain Compression)



潜空间微调(Latent-Space SFT)



如何用强化学习塑造高效推理?



强化学习(Reinforcement Learning,RL)已被证明能有效引导 LLM 发展深度推理能力(如 DeepSeek-R1)。这自然引出了一个想法:能否用 RL 更直接、更直观地提升推理效率?目前的研究主要围绕如何通过 RL 策略减少或控制推理轨迹的 token 使用,同时保持性能。


带长度奖励的强化学习(Efficient RL with Length Reward)




1. 设定预算

基于任务难度(通过成功率等指标量化)设定 token 长度预算,并据此设计奖励。

在 prompt 中明确给出目标长度指令,并惩罚偏离目标的行为。

2. 归一化奖励

将长度奖励与基线模型(通过预采样得到)的长度进行比较和归一化。

在每个 prompt 内部进行长度惩罚归一化。

使用相对于同问题下生成的最长/最短答案的归一化长度因子作为奖励。

3. 设计特定函数

使用如余弦函数形式的奖励,在鼓励有效推理步骤的同时,对过度增长的长度施加惩罚。

无长度奖励的强化学习(Efficient RL without Length Reward)



从源头提升效率:预训练阶段的探索



这一部分着眼于在模型预训练阶段就融入高效设计的思路,旨在从根本上提升计算效率和性能。主要有三条路线:


潜空间预训练(Pretraining with Latent Space)



子二次注意力(Subquadratic Attention)



线性化(Linearization)


未来方向:路在何方?


针对 LRM 高效思考的研究尚处早期,未来有许多激动人心的方向值得探索:



高效多模态与视频推理(Efficient Multimodal and Video Reasoning)



高效测试时扩展与无限思考(Efficient Test-time Scaling and Infinity Thinking)





高效且可信赖的推理(Efficient and Trustworthy Reasoning)





构建高效推理应用(Building Efficient Reasoning Applications)






评估与基准(Evaluation and Benchmark)





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大型推理模型 AI效率 Chain-of-Thought 推理优化
相关文章