一篇72页的DeepSeek-R1/QWQ-32B推理能力在AI Agents场景的应用分析

2025-03-21 21:42 湖北

大型推理模型（LRMs）的兴起标志着计算推理领域的范式转变。然而，这一进步也颠覆了传统的 Agent 框架，而这些框架传统上是由以执行为导向的大型语言模型（LLMs）所锚定的，深入理解LRMs在AI Agents中的作用势在必行。

ReAct范式下的整体性能表现。a) 不同任务和模型的性能表现；b) 效率和成本比较。

为了探索这一变革，提出了LaRMA框架，该框架涵盖了工具使用、计划设计和问题解决等九项任务，并使用三种顶级LLMs（例如Claude3.5-sonnet）和五种领先的LRMs（例如DeepSeek-R1、QWQ-32B-Preview）进行了评估，并得出了一些AI Agents设计的重要结论。

LaRMA框架分为三个阶段：

任务分割：将任务分解为工具使用、计划设计和问题解决三个维度，进一步细分为具体子任务，以探索推理需求。

范式选择：选择ReAct和Reflexion两种范式，分别考察实时交互和迭代反思对推理的影响。

性能评估：使用多种LLMs和LRMs，通过准确率、效率和成本等多维度指标评估推理的实际影响。

LLMs：包括LLaMA3.1-70B、GPT-4o和Claude3.5-sonnet。

LRMs：包括DeepSeek-R1、Claude3.7-sonnet、Gemini-2.0-Flash、QWQ-32B-Preview和GLM-Zero。

数据集：使用METATOOL、API-Bank、PlanBench、ALFWorld、Web Shop和HotpotQA等数据集。

评估指标：准确率、效率（执行时间或交互步骤）和成本（计算资源消耗，如内存或功耗）。

性能比较：

LRMs在推理密集型任务（如计划设计）中优于LLMs，准确率超过90%。

LLMs在执行驱动的任务（如工具使用）中表现更好，准确率较高。

混合配置：将LLMs作为执行组件，LRMs作为反思组件，可以优化性能，尤其是在复杂的推理任务中。

效率和成本：

LRMs在推理密集型任务中表现出更高的计算成本和更长的处理时间。

LLMs在执行驱动的任务中效率更高，成本更低。

推理过程的挑战：

过度思考：LRMs在简单任务中可能会过度思考，导致不必要的计算开销。

忽视事实：LRMs有时会忽视与外部环境的交互，依赖内部推理，可能导致决策失误。

混合架构的优势：

将LLMs的执行效率与LRMs的推理深度相结合，可以实现更优的Agent性能。

https://arxiv.org/pdf/2503.11074Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities

Fish AI Reader