昨天凌晨,OpenAI推出了一款新产品,ChatGPT agent。
最兴奋的不是广大用户,而是各家Agent竞品。
Manus发布多则推文与ChatGPT agent“正面较量”。图片来自:https://x.com/ManusAI_HQ/status/1945954009547677992
Manus连发十几条推文,把自己的Agent产品和OpenAI的新Agent一项项对比,暗示自己才是更早、更快、更好用的那一个。
Genspark创始人发推文展示Genspark和ChatGPT agent结果对比。图片来自:https://x.com/genspark_ai/status/1946005869533311030
Genspark也发了个轻描淡写但意味深长的demo,说自己在同样的提示词下“一次搞定”,并补了一句:
我们不想制造什么drama,只是为整个Agent生态感到兴奋。当然,也为我们自己的丝滑体验小小自豪一下。
这场热闹,不像是一家巨头发布新品,更像是扔进Agent市场的一颗“竞品炸弹”。
OpenAI发布的这个ChatGPT agent到底怎么样?能让同类产品连夜上线battle模式?
目前ChatGPT agent已经向全部的Pro用户推出。而由于需求高于预期,Plus和Team用户将于周一开始获得访问权限。
我们搜集了一些网友们的实测案例分享,试着还原一下Agent的基本样子,也找来了Kimi、Manus、Minimax几个典型的对手,做了一次实测对比。
看看这个迟到几个月才出现的ChatGPT Agent,到底是王者归来,还是落后补作业。
它确实能替你干活,但是不是“万能”还得另说
博主@rowancheung提前获得了访问权限,他尝试要ChatGPT agent给他生成一份完整的退休计划PPT。
他输入的提示词是:
为年收入50万美元、希望30岁退休并拥有500万美元的人创建一个FIRE模型。
模型包括极端储蓄率、税收优化、高效复利的投资策略,以及在加拿大温哥华生活的生活成本。包含不同提款率的情景,并展示与传统退休计划相比需要作出的牺牲。
然后,创建一个可下载的演示文稿。
ChatGPT agent的流程还是很顺的,只花了20分钟左右的时间就帮他完成了任务,生成了完整的PPT。
查找当地税法,并分析平均每月支出率;
计算30岁退休所需的储蓄,研究最优投资配置;
发现全新的税收优化策略,构建多个FIRE场景;
依旧是在ChatGPT的聊天窗口里面进行,它甚至不需要询问额外的偏好或者其他信息,直接启用虚拟电脑,自动搜索和总结归纳信息,过程中完全不需要自己动手点击。
最后ChatGPT agent生成了一份14页的PPT文档。说实话,我看到这个成品是有点失望的,因为实在是太简陋了。
来源:https://x.com/rowancheung/status/1945896543263080736
这位博主说如果他请一位财务顾问来做这件事,他需要花费5000多美元,而且要花几周的时间。
当被其他用户问到,觉得ChatGPT agent怎么样,是不是一款令人惊喜的产品,还是仅仅是功能的增强时?他也直接说,最令人印象深刻的是电子表格和幻灯片生成功能,但结果与我使用Manus或Genspark获得的结果类似。
鉴于大多数人还没有尝试过其他工具,它对大多数人来说都会是令人兴奋的。
言外之意大概是,如果你尝试过其他工具,大概兴奋不起来。
还有其他用户分享通过ChatGPT agent来帮助他准备一份购物清单。他说看着ChatGPT浏览网站、提示他输入登录详细信息、将商品添加到购物车并自主完成整个过程,是令人难以置信。
不过他在评论区也提到如果是自己去做这件事情,可能会更快。
网上的案例分享大多都是在解决一些生成PPT、表格或者制定计划清单等任务上。但很明显,我们的生活里面远不止这些问题需要Deep Research。
同样的,规划行程之类的问题还是更偏向于模糊性质的任务。对于我们实际工作生活中要处理的,更严肃的,需要更高准确度的任务,ChatGPT agent输出的内容想必经不起太多的推敲。
不过,它确实是做到了一个“进化版”的ChatGPT。
Manus、Kimi、Minimax表示:我做得更好
我们让Kimi、Minimax、和Manus也一起来做了“加拿大退休计划”这个任务,看看ChatGPT agent是否比这些先前推出的产品更出色。
首先是Manus,它的速度是最快的。我把需求发送给它,十分钟不到的时间,它就结束了整个任务。
和ChatGPT agent一样,Manus也会启用一个“Manus的电脑”来可视化模型执行任务的过程。
但是最后的结果,明显会比使用ChatGPT agent生成的PPT更“好看”的感觉。至少,Manus不像ChatGPT agent只是单纯的黑白。
而在内容上,它给我生成了10页的PPT,可能是中英文切换的原因,Manus内容比ChatGPT要更宽泛一点,整体上是差不多。
此外,相比ChatGPT agent,Manus不会在PPT文档里面标注引用的信息源。
访问链接:https://manus.im/share/kwujwPDSTQe4y8vAKQZR5Q
Manus官方自己也下场,做了多个和ChatGPT agent对比的尝试,正面硬刚。
首先是在新加坡设立企业这个任务,Manus说,自己能够提供更优质的研究和演示文稿。
在加拿大退休计划任务上,Manus是实际地完成了这件事情,而ChatGPT agent停留在空泛的计划上。
第三个对比是计划一次3天的棕榈泉网球之旅,ChatGPT依旧是白底黑字的PPT,Manus则是色彩丰富,使用符合棕榈泉、网球等特点的图片背景。
在旧金山城市预算分析与演示这个任务上,Manus提到自己不仅是给你数据,还完成了一个项目;截图里显示ChatGPT生成的PPT只是表格,而没有可视化的分析……
多个对比,从电子商务、金融分析、餐厅预订、航班查找、行程规划、和报告分析等不同的任务上,Manus都表示比ChatGPT agent聪明,且生成的内容更全面、更好看。
Manus还在更新相关的对比情况,目前已经发布了10个与ChatGPT agent比较的推文。
第二个我们尝试了Minimax,它花的时间很长,大概有将近一个小时。Minimax也会有一个类似虚拟电脑的“Minimax视窗”,就像ChatGPT agent或者Manus一样,实时地显示它的思考和行动过程。
让我感到惊喜的是,Minimax不仅给我提供了可以下载编辑的PPT文档,还有一份纯文字的PDF报告,同时还给了我一份在线浏览的链接。
Minimax生成的文字报告
在线浏览:https://rd4hl2nxlutu.space.minimax.io/
对比Manus,我觉得Minimax这份报告又更严谨,无论是内容上要更详尽,还是数据的可视化效果,都做的比ChatGPT agent和Manus要好。
最后是花了最长研究时间的Kimi,大概有超过一个小时。它是目前还没有被完全叫做Agent的一个产品,仍然是以Deep Research的形式出现,所以它没有虚拟电脑实时显示过程这个页面。
就像前段时间,Kimi团队成员在自己的博客里面写到的一样,Kimi做的不只是一个聊天机器人。它可以做的,不再是简单的返回Markdown文本,而是从chat-first到artifact-first,让AI构建交互式前端。
博客里面也提到,他对于Agentic Model的理解,是一个必须能循环性完成任务的模型。一个Agentic Model,不是你问一句、它答一句的“问答机”,而是一个能自己“观察、思考、尝试、纠错、再尝试”,最终完成复杂任务的模型。
大概正因为如此,Kimi也是唯一一个,在获取到我的任务提示词之后,会问我现在多大,租房还是买房等等问题的助手。这也让我觉得,这才像是一个现实生活中真正的“秘书”。
最后,Kimi深度研究的结果也是最让我满意的,它生成的报告非常非常的长,内容也是最详细的,同样在PPT文档里面也会有信息引用的标注。
此处仅展示全部内容的50%左右,预览链接:https://www.kimi.com/preview/1981ba88-3871-8785-9e20-edd331000509
ChatGPT agent作为新入局的Agent产品,给我的感觉就是像他们直播的时候说的一样:
ChatGPT智能体将Operator与网站交互的能力、深入研究在整合网络信息方面的优势,以及ChatGPT的对话能力有机融合,形成一个统一的智能体系统。
它也就只是把Deep Research、Operator、ChatGPT这三样结合起来了。
所以,它生成的PPT会很像是Deep Research的文字版,不会像Kimi、Manus这些产品,在前端、产品美学上下功夫。
但他们还是有一个共同点,就是这些Agent产品已经能完成复杂内容任务,且体验越来越像是“协作型AI工具”而非“问答机器人”了。
我想这次ChatGPT agent的出现,可能不是多么厉害的“革命性升级”,但确实是另一个信号:
从“回答问题”到“执行任务”,AI的形态正在变化,而大模型AI公司的野心也开始从语言模型本身,扩展到“谁来承载未来人机交互的主入口”。