掘金 人工智能 前天 16:48
以Magentic-UI为例,简单聊一聊,跑一跑,测一测,比一比,多智能体的能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软开源的Magentic-UI是一个基于多Agent、以人为中心设计的人机交互界面系统,擅长处理网络任务,如填写表单、定制视频内容等。它能生成和执行代码与文件,提供透明且可控的操作环境,促进高效人机协作。Magentic-UI基于AutoGen技术,支持人类协作规划、行动保护机制、计划学习与检索、并行任务执行。文章介绍了如何使用Azure OpenAI API部署Magentic-UI,并通过实例展示了其在信息检索、内容总结等方面的应用,并与Manus进行了对比。

🌐Magentic-UI是微软开源的智能体研究项目,它是一个基于多Agent、以人为中心设计的人机交互界面系统,擅长处理网络上的任务,并能生成及执行代码与文件,简化复杂网络操作流程。

🔑Magentic-UI提供了透明且可控的操作环境,所有操作对用户可见,避免了黑盒操作,支持随时打断,允许人类及时干预,避免资源浪费。

🛠️文章详细介绍了使用Azure OpenAI API部署Magentic-UI的步骤,包括环境配置、安装依赖、启动服务以及配置Azure OpenAI API等。

📝通过让Magentic-UI查找掘金主页并总结博文生成公众号文章的实例,展示了其在信息检索、内容总结等方面的应用能力,验证了其完成度很高。

🆚Magentic-UI与Manus在处理逻辑上有相似之处,都支持操作可见和随时打断,但Magentic-UI作为本地部署产品,体验上目前不如Manus,但未来可期,且基于AutoGen开发,生态能力更好。

聊一聊

微软最近开源了一个名为Magentic-UI的智能体研究项目,这是一套基于多Agent、以人为中心设计的人机交互界面系统。它特别擅长处理网络上的任务,如填写表单、定制视频内容等,并能够生成及执行代码与文件。不同于其他浏览器代理工具,Magentic-UI提供了透明且可控的操作环境,促进了更加高效的人机协作。该平台依托于AutoGen技术构建而成,具备多项特色功能:支持人类协作规划与任务合作;实施行动保护机制确保安全;具备计划学习与检索能力以提升自动化效率;还支持并行任务执行来提高工作效率。简而言之,Magentic-UI开启了一种新颖的人机互动模式,极大地简化了复杂的网络操作流程。

更多关于Magentic-UI的介绍,可以浏览他们的项目主页:github.com/microsoft/m…

跑一跑

官方文档里已经有详细的部署流程了,但主要是基于OpenAI API的方式,众所周知,这种方式对国内大部分用户来说是有困难的。我这里就以官方介绍的另外一种方式来部署,也就是Azure OpenAI API的方式。当然官方也提供了包括OpenRouter和本地Ollama的方式这不是本篇重点,我们不在赘述。

前置要求

    Azure账号开通了Azure AI服务,并有自己的Azure AI服务节点和Deployment信息(这个Deployment就可以简单理解为给自己创建的服务节点起的名字哈)系统要求是Linux或者MacOS,Windows用户的话要求WSL2(笔者使用的正是WSL2)安装了Docker使用Azure Openai API的方式的话,还需要安装Azure CLIPython3.10以上环境,pip或者uv最好可以科学上网

部署

创建python虚拟环境

python3 -m venv .venvsource .venv/bin/active

或者

uv venv --python=3.11 .venv. .venv/bin/activate

安装Magentic-UI

pip install magentic-ui# 或者uv pip install magentic-ui

等待一段时间

启动

magentic ui --port 8081

第一次启动的话,这个要等挺长时间的,因为要构建容器镜像,安装一堆依赖等等,倒是不用一直看着它,官方文档里也说了,你可以去做杯咖啡喝。

但是后续启动就快了。

下图是启动后的样子和docker desktop里额容器状态

注意

在启动之前,或者启动之后,在另开一个终端窗口,登录你的azure账号。

az login

该步骤仅Azure OpenAI的方式需要,这是基于微软的认证授权机制,比起API Key的方式更加安全,但代价就是流程稍微多一点。

验证结果

完成上述步骤后,就可以打开浏览器,看到Magentic-UI的庐山真面目了

测一测

完善配置

成功启动之后,需要先调整一下配置,调整成Azure OpenAI 的方式,当然如果你有OpenAI的key,就用自己的就好。

点击界面右上角的⚙️图标,进入配置页,可以看到他这里支持OpenAI,Azure,OpenRouter,Ollama(也就是本地)几个方向,OpenRouter的方式我没试过,看着应该和国内硅基流动那种平台的方式很像,大家也可以自己试试,Ollama的话,我本地电脑配置有限也忽略了,这里就以Azure的方式进行配置。

这里,可以导入Yaml文件,也可以用它的模版,然后把关键参数改成自己的就好

展示

配置完成以后,可以让他帮我们干点活试试能力怎么样

这里,我让他找一下我的掘金主页,然后找一篇我之前写过的博客,再让他总结一下生成一篇公众号文章,看看它的执行效果如何。

给出任务

下图是我给出的任务提示词

拆解任务

这是它自己拆解的任务步骤,我们可以进行修改,或者直接接受,嗯这点跟Cline有点像

按步骤执行

它打开了我的博客主页

正确找到指定博文,并进入了详情页

第一步任务结束,开始第二步任务

阅读完成,开始把生成markdown格式的总结

保存到本地的时候,遇到了问题,在自行修复

应该是遇到了权限问题,这里我们可以暂停他的执行计划,然后输入新的提示词,修改任务方向

它提供的可以复制的内容(部分)

截止到今天,MagenticUI的版本也只是到了0.0.4,但实测下来,完成度还是很高的。

比一比

测完MagenticUI,在拿前阵子很火的Manus和它PK一下,同样的任务,我也发给manus,看看manus是怎么执行的。

manus现在可以把整个的执行过程分享出来,这里我就放上一个链接,或者大家也可以自己去试试。manus.im/share/UqsEA…

总结

Magentic-UI最大的亮点是透明和可交互,它所有的操作都是对用户可见的,避免了其他一些多智能体系统的那种黑盒操作,即便是发现搞错了,人类也不能及时干预,导致资源浪费。

在测试manus的时候,发现他的处理逻辑和magentic-ui很像,整个过程也是可见的,也支持随时打断,两者在这个赛道上应该说方向是一致的。

不同的话,毕竟magentic-ui是一个本地部署的产品,大版本都还没正式GA,所以体验上目前我觉得比不上manus,但未来可期,而且,从开发角度来说,magentic-ui基于自家产品AutoGen开发,后续开发层面的集成工作应该会更加的容易,也就是生态能力应该会更好。

好了,这次就这样,下次有机会再聊MagenticUI,会尝试结合使用代码和它结合实现一些更个性化的任务流。

以上内容均为人工手码,无AI生成内容,求个一键三连~👍💗➕

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Magentic-UI 人机交互 AutoGen Azure OpenAI 智能体
相关文章