聊一聊
微软最近开源了一个名为Magentic-UI的智能体研究项目,这是一套基于多Agent、以人为中心设计的人机交互界面系统。它特别擅长处理网络上的任务,如填写表单、定制视频内容等,并能够生成及执行代码与文件。不同于其他浏览器代理工具,Magentic-UI提供了透明且可控的操作环境,促进了更加高效的人机协作。该平台依托于AutoGen技术构建而成,具备多项特色功能:支持人类协作规划与任务合作;实施行动保护机制确保安全;具备计划学习与检索能力以提升自动化效率;还支持并行任务执行来提高工作效率。简而言之,Magentic-UI开启了一种新颖的人机互动模式,极大地简化了复杂的网络操作流程。
更多关于Magentic-UI的介绍,可以浏览他们的项目主页:github.com/microsoft/m…
跑一跑
官方文档里已经有详细的部署流程了,但主要是基于OpenAI API的方式,众所周知,这种方式对国内大部分用户来说是有困难的。我这里就以官方介绍的另外一种方式来部署,也就是Azure OpenAI API的方式。当然官方也提供了包括OpenRouter和本地Ollama的方式这不是本篇重点,我们不在赘述。
前置要求
- 有Azure账号开通了Azure AI服务,并有自己的Azure AI服务节点和Deployment信息(这个Deployment就可以简单理解为给自己创建的服务节点起的名字哈)系统要求是Linux或者MacOS,Windows用户的话要求WSL2(笔者使用的正是WSL2)安装了Docker使用Azure Openai API的方式的话,还需要安装Azure CLIPython3.10以上环境,pip或者uv最好可以科学上网
部署
创建python虚拟环境
python3 -m venv .venvsource .venv/bin/active
或者
uv venv --python=3.11 .venv. .venv/bin/activate
安装Magentic-UI
pip install magentic-ui# 或者uv pip install magentic-ui
等待一段时间
启动
magentic ui --port 8081
第一次启动的话,这个要等挺长时间的,因为要构建容器镜像,安装一堆依赖等等,倒是不用一直看着它,官方文档里也说了,你可以去做杯咖啡喝。
但是后续启动就快了。
下图是启动后的样子和docker desktop里额容器状态
注意
在启动之前,或者启动之后,在另开一个终端窗口,登录你的azure账号。
az login
该步骤仅Azure OpenAI的方式需要,这是基于微软的认证授权机制,比起API Key的方式更加安全,但代价就是流程稍微多一点。
验证结果
完成上述步骤后,就可以打开浏览器,看到Magentic-UI的庐山真面目了
测一测
完善配置
成功启动之后,需要先调整一下配置,调整成Azure OpenAI 的方式,当然如果你有OpenAI的key,就用自己的就好。
点击界面右上角的⚙️图标,进入配置页,可以看到他这里支持OpenAI,Azure,OpenRouter,Ollama(也就是本地)几个方向,OpenRouter的方式我没试过,看着应该和国内硅基流动那种平台的方式很像,大家也可以自己试试,Ollama的话,我本地电脑配置有限也忽略了,这里就以Azure的方式进行配置。
这里,可以导入Yaml文件,也可以用它的模版,然后把关键参数改成自己的就好
展示
配置完成以后,可以让他帮我们干点活试试能力怎么样
这里,我让他找一下我的掘金主页,然后找一篇我之前写过的博客,再让他总结一下生成一篇公众号文章,看看它的执行效果如何。
给出任务
下图是我给出的任务提示词
拆解任务
这是它自己拆解的任务步骤,我们可以进行修改,或者直接接受,嗯这点跟Cline有点像
按步骤执行
它打开了我的博客主页
正确找到指定博文,并进入了详情页
第一步任务结束,开始第二步任务
阅读完成,开始把生成markdown格式的总结
保存到本地的时候,遇到了问题,在自行修复
应该是遇到了权限问题,这里我们可以暂停他的执行计划,然后输入新的提示词,修改任务方向
它提供的可以复制的内容(部分)
截止到今天,MagenticUI的版本也只是到了0.0.4,但实测下来,完成度还是很高的。
比一比
测完MagenticUI,在拿前阵子很火的Manus和它PK一下,同样的任务,我也发给manus,看看manus是怎么执行的。
manus现在可以把整个的执行过程分享出来,这里我就放上一个链接,或者大家也可以自己去试试。manus.im/share/UqsEA…
总结
Magentic-UI最大的亮点是透明和可交互,它所有的操作都是对用户可见的,避免了其他一些多智能体系统的那种黑盒操作,即便是发现搞错了,人类也不能及时干预,导致资源浪费。
在测试manus的时候,发现他的处理逻辑和magentic-ui很像,整个过程也是可见的,也支持随时打断,两者在这个赛道上应该说方向是一致的。
不同的话,毕竟magentic-ui是一个本地部署的产品,大版本都还没正式GA,所以体验上目前我觉得比不上manus,但未来可期,而且,从开发角度来说,magentic-ui基于自家产品AutoGen开发,后续开发层面的集成工作应该会更加的容易,也就是生态能力应该会更好。
好了,这次就这样,下次有机会再聊MagenticUI,会尝试结合使用代码和它结合实现一些更个性化的任务流。
以上内容均为人工手码,无AI生成内容,求个一键三连~👍💗➕