2024-11-09 21:30 湖北
微软又来卷Agent,开源了解决复杂任务的通用Multi-Agent框架Magentic-One,它旨在解决开放性的网络和基于文件的任务,跨越各种领域,如操作网络浏览器、导航本地文件、编写和执行Python代码、做市场调研、写论文等等。
Magentic-One由5个智能体组成,Orchestrator 总指挥,WebSurfer 网络助手,FileSurfer 文件助手、Coder 编程助手、ComputerTerminal 终端助手,主智能体Orchestrator规划、跟踪进度,并在出现错误时重新规划,指导专业智能体执行任务。
Magentic-One工作原理
Magentic-One的特点是一个Orchestrator智能体,它实现了两个循环:外循环和内循环。外循环(浅背景与实箭头)管理任务账本(包含事实、猜测和计划),内循环(深背景与虚箭头)管理进度账本(包含当前进度、任务分配给智能体)。
Orchestrator:主智能体,负责任务分解和规划,指导其他智能体执行子任务,跟踪整体进度,并在需要时采取纠正措施。
WebSurfer:这是一个基于LLM的智能体,擅长命令和管理基于Chromium的网络浏览器的状态。每次收到请求,WebSurfer都会在浏览器上执行一个操作,然后报告网页的新状态。WebSurfer的动作空间包括导航(例如访问URL,执行网络搜索);网页动作(例如点击和输入);以及阅读动作(例如总结或回答问题)。WebSurfer依赖于浏览器的可访问性树和一组标记提示来执行其动作。
FileSurfer:这是一个基于LLM的智能体,命令一个基于Markdown的文件预览应用程序来读取大多数类型的本地文件。FileSurfer还可以执行常见的导航任务,例如列出目录的内容和导航文件夹结构。
Coder:这是一个通过其系统提示专门化的LLM智能体,用于编写代码、分析从其他智能体收集的信息或创建新工件。
ComputerTerminal:最后,ComputerTerminal为团队提供了访问控制台外壳的权限,Coder的程序可以在这里执行,也可以在这里安装新的编程库
Magentic-One(GPT-4o,o1)在GAIA和AssistantBench上实现了与以前SOTA方法统计上相当的性能,并在WebArena上实现了竞争性能。
Magentic-One的5个智能体协同解决复杂任务的一个示例
https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one
推荐阅读
• 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
• RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!
• Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。