微软开源5级Agent框架，复杂任务就这么被解决了~

2024-11-09 21:30 湖北

微软又来卷Agent，开源了解决复杂任务的通用Multi-Agent框架Magentic-One，它旨在解决开放性的网络和基于文件的任务，跨越各种领域，如操作网络浏览器、导航本地文件、编写和执行Python代码、做市场调研、写论文等等。

Magentic-One由5个智能体组成，Orchestrator 总指挥，WebSurfer 网络助手，FileSurfer 文件助手、Coder 编程助手、ComputerTerminal 终端助手，主智能体Orchestrator规划、跟踪进度，并在出现错误时重新规划，指导专业智能体执行任务。

Magentic-One工作原理

Magentic-One的特点是一个Orchestrator智能体，它实现了两个循环：外循环和内循环。外循环（浅背景与实箭头）管理任务账本（包含事实、猜测和计划），内循环（深背景与虚箭头）管理进度账本（包含当前进度、任务分配给智能体）。

Orchestrator：主智能体，负责任务分解和规划，指导其他智能体执行子任务，跟踪整体进度，并在需要时采取纠正措施。

WebSurfer：这是一个基于LLM的智能体，擅长命令和管理基于Chromium的网络浏览器的状态。每次收到请求，WebSurfer都会在浏览器上执行一个操作，然后报告网页的新状态。WebSurfer的动作空间包括导航（例如访问URL，执行网络搜索）；网页动作（例如点击和输入）；以及阅读动作（例如总结或回答问题）。WebSurfer依赖于浏览器的可访问性树和一组标记提示来执行其动作。

FileSurfer：这是一个基于LLM的智能体，命令一个基于Markdown的文件预览应用程序来读取大多数类型的本地文件。FileSurfer还可以执行常见的导航任务，例如列出目录的内容和导航文件夹结构。

Coder：这是一个通过其系统提示专门化的LLM智能体，用于编写代码、分析从其他智能体收集的信息或创建新工件。

ComputerTerminal：最后，ComputerTerminal为团队提供了访问控制台外壳的权限，Coder的程序可以在这里执行，也可以在这里安装新的编程库

Magentic-One（GPT-4o，o1）在GAIA和AssistantBench上实现了与以前SOTA方法统计上相当的性能，并在WebArena上实现了竞争性能。

Magentic-One的5个智能体协同解决复杂任务的一个示例

https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签