“AI交响乐团”横扫榜单，AgentOrchestra强势登顶智能体评测

昆仑万维集团 07月16日 20:07

昆仑万维Skywork联合南洋理工大学发布的AgentOrchestra，是一个创新的分层多智能体协作框架。它如同一个AI交响乐团，由顶层“指挥”智能体统筹，底层智能体分工协作。该框架在SimpleQA、GAIA、HLE等权威评测中表现出色，展现出强大的协同效能，尤其在信息检索、网页操作和多模态分析等领域。AgentOrchestra的开源，为开发者提供了探索通用人工智能协作的新思路。

🎼 AgentOrchestra采用分层架构，顶层“指挥”智能体负责全局规划，底层“乐手”智能体各司其职。这种设计使得系统具备高扩展性，易于应对不同领域和新功能的需求。

🌐 框架支持多模态融合，通过统一的工具接口，可以处理文本、图片、音频、视频等多模态信息。它支持网页浏览、文档解析、代码执行等多种工具，实现跨模态理解与推理。

⚙️ AgentOrchestra采用模块化设计，将智能体、工具、模型等功能解耦，支持灵活组合与替换。这种设计提升了系统的可扩展性和可维护性，使其能够适配各类实际应用场景。

🚀 框架的核心理念是高效协同。通过分层规划与动态角色分配，不同专长的智能体能高效协作、沟通与分工，从而高效攻克复杂任务。

🏆 AgentOrchestra在多个权威评测任务中表现出色，超越了多个主流大模型与智能体框架。这证明了多智能体协作在通用 AI 方向上的巨大潜力。

原创昆仑万维 2025-07-16 10:01 北京

在 AI 的世界里，一直以来都有一个难题：通用 AI 模型和单一智能体系统在面对复杂任务时，总是显得力不从心。它们要么只能在特定领域里“单打独斗”，要么在处理多模态信息时手忙脚乱。就好比一个乐队里只有一个乐手，想要演奏出复杂的交响乐，确实是个难题。

近期，如 GPT-4.1、Claude-4、Gemini 2.5 在通用人工智能领域屡屡登顶，成为众多AI爱好者心中的“智慧天花板”。但你是否想过，当人工智能不再是单打独斗，而像交响乐团一样协作，会产生怎样的化学反应？

近日，昆仑万维Skywork联合南洋理工大学，正式发布全新的分层多智能体协作框架——AgentOrchestra。

顾名思义，AgentOrchestra 就像是一支由各类智能体组成的“AI交响乐团”：每个智能体都是独当一面的“乐手”，由顶层“指挥”智能体统筹规划，分工协作，各展所长。

更令人振奋的是，这套框架在 SimpleQA、GAIA、HLE 等全球权威通用智能评测中大放异彩，多项核心指标一举刷新纪录，整体成绩强势超越了多家商业和开源的智能体系统。无论是信息检索、网页操作，还是复杂推理和多模态分析，AgentOrchestra 都展现出了前所未有的协同效能和创新能力，被认为是“智能体协作”迈向通用智能新时代的重要突破。

当前该项目的完整代码与详细技术报告现已开源，便于广大开发者和研究者参考。

《AgentOrchestra: A Hierarchical Multi-Agent Framework for General-Purpose Task Solving》

🔗 论文地址：

https://arxiv.org/pdf/2506.12508

🔗 项目代码：

https://github.com/SkyworkAI/DeepResearchAgent

01为什么要推出 AgentOrchestra？虽然大语言模型（LLM）已经具备强大的理解和生成能力，但现实世界中的复杂任务，往往超出了单一模型或单一智能体的处理极限。

比如遇到多步骤推理、跨模态信息整合、需要结合外部工具的操作时，单一大模型容易出现泛化能力不足、工具集成受限、处理流程僵化、应对新场景适应性差等问题：

泛化与迁移能力有限

许多智能体框架只能针对特定场景或任务设计，遇到全新环境或任务时往往难以适应，难以满足真实世界的开放需求。

多模态感知与推理不足

现有智能体常常只能处理单一类型的信息，对于需要同时整合文本、图片、音频、视频等多模态数据的复杂任务，表现力明显不足。

系统可扩展性和维护性差

传统智能体架构缺乏模块化和灵活性，接入新模型、新工具或支持新应用场景时非常困难，难以实现大规模和可持续演进。

多智能体协作与沟通机制缺失

当前方案大多是“单兵作战”，缺少高效的多智能体协作与分工，动态角色分配和团队协同能力有限，难以胜任复杂或大型任务。

正因如此，昆仑万维Skywrok联合南洋理工大学借鉴了交响乐团的协作模式，提出了AgentOrchestra：让各自擅长不同领域的智能体像乐团成员一样，分工协作，由“指挥”智能体负责全局规划和任务拆解，充分发挥每个智能体的专长，实现高效、灵活、可扩展的智能体“团队作战”。

这样一来，无论是资料检索、数据分析、网页自动操作还是多模态理解，AgentOrchestra都能像交响乐团一样“有组织地高效合奏”。

02AgentOrchestra框架理念超前实现全面领先AgentOrchestra 以分层多智能体协作为核心，专为解决通用复杂任务而设计，全面践行四大设计理念：

高扩展性

框架采用分层架构，顶层“指挥”智能体统筹全局，底层各类“分工”智能体可按需增删，轻松应对不同领域和新功能扩展。

多模态融合

提供统一的工具接口，支持网页浏览、文档解析、代码执行等多种工具即插即用，轻松处理文本、图片、音频、视频、结构化数据等多模态信息，实现跨模态理解与推理。

模块化设计

将智能体、工具、模型等功能彻底解耦，支持灵活组合与替换，极大提升了系统的可扩展性和可维护性，适配各类实际应用场景。

高效协同

通过分层规划与动态角色分配，不同专长的智能体能高效协作、沟通与分工，联手攻克复杂任务。

此外，AgentOrchestra 在多个权威评测任务中展现出卓越表现，不仅在泛化能力、多模态理解和团队协作等方面全面领先，更为AI系统的通用性和实用性树立了新标杆。

AgentOrchestra 以“交响乐团式协作”为核心，将复杂任务分解，由多个智能体分工协作完成。整体结构分为“指挥”与“乐手”两大层：

顶层“指挥”——Planning Agent

就像交响乐团的总指挥，Planning Agent 负责全局统筹与规划。它会根据用户需求，对复杂任务进行拆解，制定行动方案，并将不同子任务分配给最适合的子智能体（“乐手”）。同时，Planning Agent 动态监控进展、聚合反馈，灵活调整策略，保障任务高效推进。

三大专长“乐手”——子智能体

每个子智能体都像乐团里的专业乐手，各司其职、协同作战：

🔎 Deep Researcher Agent

信息检索大师，善于提出和优化搜索问题，利用多引擎和 LLM 进行全网资料筛查、分析与总结，生成结构化的高质量研究结果。适用于需要大量查证、获取权威信息的任务。

🌐 Browser Use Agent

网页操作能手，能够自动浏览网页、操控 PDF、填报表单、抓取网页内容，甚至控制视频播放，为复杂网页任务提供自动化高效处理能力。

📊 Deep Analyzer Agent

深度分析专家，面对复杂文本、图片或多模态数据时，能够调用大模型和代码工具完成深入推理、统计分析、自动生成报告等高阶任务，提供“专家级”洞察力。

实际运行时，Planning Agent 会像指挥家一样，灵活调度三类“乐手”智能体，有时还会让多个智能体协同配合完成复杂任务。例如先由 🔎 Researcher 检索信息，再让 🌐 Browser 进行细致交互，最终交给 📊 Analyzer 做深度分析，层层协作、高效合奏。

03技术创新突破高效响应复杂任务在实现层面，AgentOrchestra 同样具备诸多创新特性，为系统灵活高效地应对复杂任务提供坚实基础：

⚡ 协程并发调度

全面引入异步协程技术，支持多智能体间高并发协作。无论任务分解、信息检索还是多模态处理，都能高效并行推进，大幅提升系统响应速度和吞吐量。

🌏 商业与本地模型兼容

框架原生支持主流商业大模型（如 GPT-4、Claude、Gemini 等）与开源本地模型（如 Qwen2.5 等）自由切换。可根据实际需求，灵活选择模型，兼顾能力、隐私与成本。

🔗 本地 MCP 与远程 MCP 全面支持

充分适配 Anthropic MCP（Model-Context Protocol）协议，无论本地部署还是云端环境，均可无缝集成各类智能体与工具，既保障安全性，也便于云端多模型联动。

🧩 支持 Function Calling 与 JSON 调用模式

完美兼容 OpenAI Function Calling 及标准 JSON 调用方式。不同工具、子智能体之间可以通过结构化的参数接口自动协同，极大提升了系统的互操作性和自动化程度。

为了验证 AgentOrchestra 框架的通用性和实用性，团队在多个国际权威通用智能基准任务上进行了全面测试。在下述权威评测中，AgentOrchestra 均取得了优于多个主流大模型与智能体框架的成绩，其中在GAIA validation数据集上取得了pass@1 (82.42)的成绩，HLE 也超越了包括 Perplexity Deep Research 在内的强力对手。

** 以上评测结果截至5月10日*

AgentOrchestra 以“交响乐团式”的多智能体协作为核心理念，通过分层规划、模块化设计和多模态融合，全面突破了传统单一智能体在复杂任务中的种种瓶颈。

无论是信息检索、网页操作，还是多模态深度分析，都展现出极强的灵活性与泛化能力，在多个权威评测中取得了领先成绩，证明了多智能体协作在通用 AI 方向上的巨大潜力。

面向未来，昆仑万维Skywork团队将持续打磨 AgentOrchestra，进一步提升系统的效率和智能体间的自适应协作能力，拓展更多专业化智能体和实用工具，推动其在科学研究、办公自动化、知识管理等更多真实场景落地。

同时，我们也欢迎开发者和AI爱好者关注、体验并共建这一“智能体交响乐团”，共同推动通用人工智能的边界不断拓展。

往期推荐

昆仑万维再次开源奖励模型

自主代码智能体基座模型发布

天工超级智能体面向全球发布

中国首个面向AI短剧的SkyReels-V2开源

全球首个音乐推理大模型Mureka发布