掘金 人工智能 23小时前
高效智能体设计:如何在不牺牲效果的前提下降低成本?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OPPO AI Agent团队发布的论文《Efficient Agents: Building Effective Agents While Reducing Cost》系统性地探讨了在大语言模型驱动的智能体(Agent)领域,如何在保持高性能的同时显著降低成本。研究发现,过度的复杂性,如过多的推理步数、复杂的记忆机制,往往是“高成本、低收益”的。通过对骨干模型、测试时扩展策略、规划、工具使用和记忆等关键组件进行成本效益分析,论文提出了一套“高性价比”的Agent配置,能在GAIA基准测试中,以约28.4%的成本降低,同时保留96.7%的准确率,为Agent的实际落地提供了宝贵的工程经验。

💡 **成本度量与核心发现**:论文引入“cost-of-pass”(单次推理成本/成功率)作为关键成本指标,并指出并非所有复杂组件都带来同等收益。研究发现,在GAIA数据集上,高难任务(L3)中推理型大模型的cost-of-pass激增,且测试时扩展策略(如Best-of-N)对准确率提升有限但显著增加成本。这表明,过度追求复杂性是导致Agent成本飙升的主要原因,需要有针对性地优化。

🛠️ **组件优化策略**:针对Agent的不同组件,论文提出了具体的优化方向。例如,在骨干模型选择上,MoE架构在低复杂度任务上显示出成本优势;在规划方面,适度的规划复杂性和更新频率比过于频繁的重规划更有效;在工具使用上,多源检索和简化的浏览策略能显著提升效率;而在记忆模块,简单记忆往往优于复杂记忆,以避免信息损失和额外的token消耗。

📈 **高效Agent配置实践**:基于上述分析,论文最终推荐了一套“高性价比”的Agent配置,即在不显著牺牲性能的前提下,选择成本最低的组件配置。与现有开源智能体系统(如OWL和Smolagents)相比,OPPO提出的高效Agent在保持相似性能的同时,实现了28.4%的成本降低,为开发者提供了切实可行的优化路径。

🎯 **工程化思维的价值**:该研究强调了“高性能 ≠ 高复杂度”的理念,提倡开发者应采用数据驱动的成本分析方法,而非凭感觉调参。简单的设计有时反而更高效,尤其是在Agent的应用日益广泛的当下,关注“性价比”而非一味追求“能力卷”是Agent工程化落地的关键。这为大模型应用开发者提供了重要的启示。

本文解读的是 OPPO AI Agent 团队于 2025 年 8 月发布的论文
《Efficient Agents: Building Effective Agents While Reducing Cost》
arXiv: 2508.02694v1

引言

大语言模型驱动的智能体(Agent)近年来在复杂任务上展现了惊人的能力——从多轮推理、跨工具调用,到信息检索与整合。然而,性能的提升往往伴随着成本的飙升:更多的推理步数、更多的工具调用、更复杂的记忆机制,都意味着更多的 token 消耗与 API 调用费用。

那么问题来了:

来自 OPPO AI Agent 团队的这篇论文系统回答了这些问题,并提出了一套“高性价比”Agent 配置,在 GAIA 基准测试中保留了其他主流智能体框架的 96.7% 的准确率的前提下,单题过关成本降低了约 28.4%

核心内容

论文提出了一个非常关键的指标来度量成本:cost-of-pass ,直观上的含义是:得到一个正确答案所需的期望花费,公式是单次推理成本/成功率 。 此外由于输入输出的计价方案往往不一样,论文研究中也会注意到计算花费是要分开算输入和输入的消耗再加起来。

本研究的评测基准是GAIA数据集,并且按照难度分成了L1,L2,L3三档分别统计指标。评测的对象维度有下面5个:

Backbones

在模型选择上,最近很火热的推理类型的模型是必须要上阵的,这类模型的特点是利用扩展的链式推理能力可以提升回答的准确度,但带来的副作用是会消耗大量token甚至会出现过度思考。模型架构上也有MoE架构的Qwen3以及密集型的QwQ。

通过测试结果的图表就能很明显的看出来,任务越难(L3)推理型大模型 cost-of-pass 激增(如 Claude 1.69→9.04;o1 1.96→12.66),显示高难任务效率恶化显著。MoE 小激活在低复杂度/省钱方面有优势,但效果有限

Test-time Scaling Stratiges

在测试时利用多次推理运行可以提升模型性能,这种方式需要多次重复调用大模型,这显然会增加token的消耗。本研究中评估了常见的策略,即最佳N(BoN, Best-of-N)。在每个步骤中,从N个可能的动作中采样并通过进度奖励模型(PRM)进行评估。得分最高的动作被保留为下一个动作。

实验测试了N=1、N=2、N=4(每个任务分别生成 1、2、4 个解答,选最优)几种情况下的结果。

可以看出:

BoN 对准确率提升有限,但显著增加调用次数与 token 消耗

Planning

目前智能体设计中,为了提升长期任务的处理能力,往往会在执行前先进行任务规划,这个规划的操作当然对于任务执行的效率是会产生影响的。在论文实验中,在采取任何行动前会被提示生成一个显式计划。随后,它将按照该计划一步步执行,这里采用了ReAct风格,且为了适应动态环境,计划会定期修订:每执行N步后,智能体将基于当前上下文重新生成计划。并且实验改变了允许的ReAct步骤的最大数量,选择4、8、12。此外还通过将规划间隔N设置为1、2、4来控制计划更新的频率。

从实验结果可以看到:

当前模型在处理推理长度调节时面临挑战,常常出现过度思考的情况,导致在问题无法解决时成本过高。适度的规划复杂性能够显著提升效率。

Tool Using

现在的智能体设计有很多都会引入外部工具,但这显然会带来额外的开销。本论文研究中关注的是网页浏览器工具的有效性和效率。主要原因在于:1. 它是一个广泛使用的工具;2.这个工具可能对效率产生很大的影响,因为网页中会包含大量的文本、多媒体等内容,处理过程中会产生大量的token消耗。

实验中也控制了几种跟浏览相关的因素。包括多检索源(Google、DuckDuckGo等)、浏览策略(仅搜索静态元素、具有基本处理能力的浏览器、高级操作功能的浏览器。)以及扩展查询重写次数三个方面。

实验结果大概可以总结为:

不同的工具配置,例如增加搜索来源、简化浏览器操作以及扩展重写的查询用于网络搜索,显然能够提升信息检索的有效性和效率。

Memory

记忆模块是智能体系统中很重要的一个模块,它能够实现与动态环境的有效交互并从中学习。记忆模块支持经验积累和知识抽象等核心功能,同时作为推理过程的一部分,它也会引入额外的计算成本。本论文研究中设计了六种记忆配置来评估它们对整个系统的有效性和效率的影响,包括简单记忆、摘要记忆、w/o extra无额外内存记忆、额外摘要记忆、额外固定长度记忆、额外混合记忆。

从实验结果来看,简单记忆往往优于复杂记忆,原因是摘要过程会引入信息损失,并额外消耗 token。

高效智能体的最优配置

文章最终给出了推荐的最高效智能体配置如上图所示,具体而言,就是对于智能体系统中的每个组件,采用在不导致性能显著下降的情况下成本最低的配置。

论文中还将当前这种智能体设计和两个开源智能体系统进行了比较,包括OWL和Smolagents。最终结果上,高效智能体在保持类似性能的同时,实现了28.4%的成本降低。

总结

这篇论文是一篇更像是系统性工程实证性的论文,并不难懂,但其最大的价值在于,它不是在“卷”能力,而是在“卷”性价比。 在 Agent 落地越来越多的今天,这种研究对于我们这些大模型应用开发者意识到:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI Agent 大模型 成本优化 OPPO 智能体
相关文章