机器之心 03月21日 15:57
树搜索也存在「过思考」与「欠思考」?腾讯AI Lab与厦大联合提出高效树搜索框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯 AI Lab 与厦门大学、苏州大学研究团队合作,提出高效树搜索框架Fetch,旨在解决大语言模型推理过程中存在的“过思考”与“欠思考”问题。该框架通过冗余节点合并和验证方差抑制,显著提升了计算效率和性能,为大语言模型推理效能提供了新的方法论支持。

🧐 传统树搜索算法在推理过程中存在“过思考”与“欠思考”的困境,导致计算开销高昂且难以动态调整资源分配,性能提升有限。

💡 Fetch框架通过冗余节点合并机制,将语义重复的节点聚合为超节点,从而避免了重复探索,有效压缩了搜索空间,降低了计算开销。

✅ Fetch框架还采用验证方差抑制机制,在训练和推理阶段分别进行优化。训练阶段引入时序差分学习,降低方差,推理阶段采用验证器集成策略,抑制评分波动,保障搜索方向的稳定性。

📈 实验结果表明,Fetch框架在跨数据集与跨算法测试中均展现出显著优势,计算开销降低至原有的1/3,准确率提升1-3个点,特别是在计算规模提升时,Fetch带来的增益更加显著。

2025-03-21 12:10 北京

适用于主流搜索算法的高效树搜索框架 Fetch,实现了计算效率和性能的同步提升。


通讯作者包括腾讯 AI Lab研究员宋林峰与涂兆鹏,以及厦门大学苏劲松教授。论文第一作者为厦门大学博士生王安特。


本文探讨基于树搜索的大语言模型推理过程中存在的「过思考」与「欠思考」问题,并提出高效树搜索框架——Fetch。本研究由腾讯 AI Lab 与厦门大学、苏州大学研究团队合作完成。




背景与动机


近月来,OpenAI-o1 展现的卓越推理性能激发了通过推理时计算扩展(Test-Time Computation)增强大语言模型(LLMs)推理能力的研究热潮。


该研究领域内,基于验证器引导的树搜索算法已成为相对成熟的技术路径。这类算法通过系统探索庞大的解空间,在复杂问题的最优解搜索方面展现出显著优势,其有效性已获得多项研究实证支持。


尽管诸如集束搜索(Beam Search)、最佳优先搜索(Best-First Search)、A*算法及蒙特卡洛树搜索(MCTS)等传统树搜索算法已得到广泛探索,但其固有缺陷仍待解决:树搜索算法需承担高昂的计算开销,且难以根据问题复杂度动态调整计算资源分配。


针对上述挑战,研究团队通过系统性解构树搜索的行为范式,首次揭示了该推理过程中存在的「过思考」与「欠思考」双重困境。


「过思考」与「欠思考」


研究团队选取最佳优先搜索算法为研究对象,基于 GSM8K 数据集开展系统性研究。实验设置中逐步增加子节点拓展数(N=2,3,5,10)时发现:模型性能虽持续提升但呈现边际效益递减规律(图 a),而计算开销却呈指数级增长(图 b),二者形成的显著差异揭示出传统树搜索在推理时计算扩展的效率瓶颈。



通过深度解构搜索过程,研究团队首次揭示搜索树中存在两类关键缺陷:




Fetch


为应对「过思考」与「欠思考」问题,研究团队提出适用于主流搜索算法的高效树搜索框架 Fetch,其核心包含两部分:





冗余节点合并


研究团队采用层次聚类算法(Agglomerative Clustering)实现节点冗余合并。具体而言,当搜索算法生成子节点后,首先基于 SimCSE 句子表示模型提取节点语义特征向量,随后应用聚类算法形成超节点(Hyper-Node,)。该机制通过将语义等价节点聚合为单一超节点,有效避免冗余节点的重复拓展。



针对通用领域预训练 SimCSE 在数学推理场景下存在的领域适配问题,研究团队对 SimCSE 进一步微调。为此,提出两种可选的节点对语义等价标注方案:




最终,利用收集的节点对标注,通过交叉熵损失对 SimCSE 进行微调:



其中, 表示余弦相似度计算函数。


验证方差抑制


现有验证器普遍采用判别方式对树节点进行质量评分。传统训练方法基于强化学习经验,通过蒙特卡洛采样估计节点期望奖励:



其中,表示从当前状态(节点)出发通过策略模型采样获取的推理路径,即 是采样的次数。受限于高昂的采样代价, 通常设置较小(例如),导致奖励估计存在显著方差,进而削弱验证器的决策稳健性。

为此,研究团队提出训练和测试两阶段的优化方案:


训练阶段,研究团队借鉴时序差分学习(Temporal Difference Learning),引入训练验证器。是经典的强化学习算法,通过将蒙特卡洛采样与时序差分学习结合,以平衡训练数据的偏差(bias)及方差(variance)。对于节点,其期望奖励为



其中,是总计后续采样节点数,为偏差-方差权衡系数,


随后,通过标准的均方误差损失进行训练:



该方案虽有效降低方差,但引入的偏差可能损害验证精度,且不兼容现有开源验证器的迁移需求。因此,研究团队进一步提出在推理阶段实施验证器集成策略,以有效抑制个体验证器的异常波动:



其中,为集成验证器的个数。


实验结果



实验结果表明,Fetch 框架在跨数据集与跨算法测试中均展现出显著优势。例如,对于 BFS 及 MCTS 算法,相较于基线,Fetch 计算开销降低至原有的 1/3,并且保持 1~3 个点的准确率提升。



当测试时计算规模逐步提升时,Fetch 带来的增益也更加显著,验证了框架的效率优势。


总结


本研究由腾讯 AI Lab 联合厦门大学、苏州大学科研团队共同完成,首次揭示基于树搜索的大语言模型推理中存在的「过思考-欠思考」双重困境。


分析表明,该现象的核心成因源于两个关键缺陷:搜索树中大量语义冗余节点导致的无效计算循环,以及验证器评分方差过高引发的探索路径失焦。二者共同导致树搜索陷入计算资源错配困境——即消耗指数级算力却仅获得次线性性能提升。


针对上述挑战,研究团队提出高效树搜索框架 Fetch,其创新性体现在双重优化机制:



结果表明,Fetch 在 GSM8K、MATH 等基准测试中展现出显著优势:相较传统树搜索算法,框架实现了计算效率和性能的同步提升。该成果为提升大语言模型推理效能提供了新的方法论支持。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 树搜索 Fetch框架 推理效率 过思考欠思考
相关文章