你是一个成熟的Agent了，该自己报道ChatGPT Agent的新闻了

硅星人Pro 07月19日 02:21

OpenAI发布ChatGPT Agent，标志着其在Agent化道路上的重要进展，也促使AI Agent领域出现“基座派”与“应用派”两大阵营的分化。以OpenAI和Claude为代表的“基座派”致力于将Agent能力集成到底层模型，而“应用派”则专注于具体应用场景和工具调用。新锐玩家如Manus、Genspark、Flowith、Fellou等纷纷入局，并在OpenAI发布后迅速做出反应，对ChatGPT Agent的能力进行公开评价和对比测试。文章通过让多个AI Agent报道ChatGPT Agent发布以及实际执行OpenAI视频中的婚礼策划和贴纸订购案例，深入对比了Manus、Genspark、Flowith、Fellou等Agent在信息捕捉、报告生成、任务执行和工具调用等方面的表现。测试结果显示，当前AI Agent在执行复杂任务时仍面临挑战，尤其是在直接调用工具、完成在线订购等“最后一公里”环节，但激烈的市场竞争预示着更强大Agent的出现。

📈 **AI Agent领域出现两大阵营**：以OpenAI、Claude为代表的“基座派”将Agent能力融入底层模型，而Manus、Genspark等“应用派”则聚焦于具体应用场景和工具调用，预示着行业格局的初步形成。

📣 **OpenAI发布ChatGPT Agent引发行业热议**：ChatGPT Agent的发布被视为OpenAI在Agent化道路上的关键一步，但Genspark和Manus等竞争对手已公开表示其能力表现有待提升，并进行了直接对比测试。

📝 **AI Agent在信息报告与任务执行方面表现各异**：在报道ChatGPT Agent发布的新闻任务中，Manus、Genspark、Flowith等Agent在信息捕捉、报告详略和格式设计上展现出不同特点，Genspark的报告内容更为详尽。

🎯 **实际案例测试揭示“最后一公里”挑战**：在婚礼策划和贴纸订购等实际任务中，Manus、Genspark、Flowith、Fellou等Agent虽然能进行信息收集和规划，但在直接调用工具、完成在线订购等具体操作上普遍存在局限，仅Manus在贴纸订购环节接近完成。

⏳ **Fellou在任务执行时长上的表现引人关注**：Fellou在执行婚礼策划任务时耗时超过一小时，虽然其执行过程显得“靠谱”，但任务时长与最终效果的关系仍需进一步观察，这可能成为未来衡量Agent性能的一个新维度。

原创黄小艺 2025-07-18 16:28 上海

我们让几个Agent去“报道”了ChatGPT Agent，然后还互相比了比

作者｜黄小艺邮箱｜huangxiaoyi@pingwest.com

7月18日凌晨，OpenAI发布了ChatGPT Agent，这是继1月份推出operator，2月份推出deep research之后，OpenAI在Agent化道路上又一关键举动。

当下，一个有趣的现象出现了：AI Agent领域正悄然分化为两大流派。一方是以OpenAI、Claude为代表的“基座派”，正在将Agent能力融入其底层模型；另一方则是“应用派”，强调自己在具体的应用场景和灵活的工具调用上的设计规划。

3月，Manus的横空出世，便已点燃了通用Agent的第一波市场狂潮，随后，Genspark、Flowith、Fellou等一众新锐玩家纷纷从不同应用场景切入，迅速在Agent赛道上形成了各自的阵营。

就在OpenAI发布ChatGPT Agent后不久，Genspark便在社交平台X上公开“叫板”，直言视频中演示的ChatGPT Agent能力“表现不够出色”。Manus也贴脸开大，对比了自己和OpenAI展示的案例的结果。

我们也想对比一下这些产品在ChatGPT Agent展示的一些案例上究竟表现有何不同。

你是一个成熟的Agent了，你该自己报道Agent的新闻了

首先，今天的AI Agent产品这么热闹，我们觉得它们也都是成熟的Agent了，应该来自己报道其他Agent的新闻了。

于是我们让几个备受关注的AI Agent产品来报道此次ChatGPT Agent的发布。我们并没有选择只是给一个很简单Prompt的方式，而是用类似深度报告的方式来要求它们，最终产出一个有些设计要素在的one pager。

结果如下。

Manus：

有意思的地方是，Manus的Agent自己分析之后，并没有像官方X账号那样“自信”，给了OpenAI更高的分数。

Genspark：

生成了一个更复杂的报告。这个报告里对OpenAI ChatGPT的信息捕捉更全。

并输出了一份非常详细的对比。

同样，与官方X的“自信”也不同，Genspark的Agent也对OpenAI的水平表达了高度认可。

Flowith:

Flowith算是对我们比较长的Prompt做了充分理解后，抓住了要做一个one pager这个重点，这让它的结果看起来设计感也最强，交出了一个格式上更好看的one pager。

比一比：从规划到执行的“最后一公里”

在报道完ChatGPT Agent后，我们让这些AI Agent也拿OpenAI视频展示的案例练了练手。互相比较一下。

OpenAI视频中提到了四个案例，主要是行程策划、图像设计类、资讯分析类，这也是自3月份Manus推出之后比较常见的场景。

我们先找了其中一个，婚礼规划的场景，把视频中展示的Prompt提交给了Manus、Genspark、Flowith、Fellou等，看看直接对比。

prompt:Our friends are gettingmarried later this year! This is the wedding website:https://www.zola.com/wedding/minniaandsarahCan you help me find:- An outfit that matches the dress code for all the functions (mens)- Propose like five options. Something nice, mid luxury items which match the venue, and weather- Find me hotels with couple of days of buffer on either end_-Use booking.com for these, and make sure to check availability and current price-And also don't forget to pick a gift for them ideally under $500 (registry preferred if any, otherwisefind something nice)make a nice report！

Manus：https://manus.im/share/iWutNt1yTVXu8ZUTuz6YVQ?replay=1Manus输出了一个长文本页面，没有给到具体购买链接等涉及到下一步行动的结果，属于婚礼参加指南和建议。

特别是着装要求上，没有具体的图片和款式。

Flowith:

同样给出了一份详细的婚礼参与指南，无法进行到下一步加购等动作，更关键的是，因为单开了一条任务线来挑选参加婚礼的服饰，该任务线出现bug，最终没能输出服饰结果。

Fellou:

Fellou居然为这个任务一口气跑了1 小时 14 分钟。这是一个很有意思的不同，OpenAI此次发布后，它的研究员也提到，应该有一个榜单来比较AI Agent一次任务能够跑的时长。

当然，这个时长和最终效果之间的关系也需要进一步查看。但Fellou这个操作还是给用户带来某种微妙的“靠谱”感。

这个过程它非常认真的单开了很多浏览器，比较行程、路线、酒店事件和日期。

最终它把信息用一种经过简单设计的格式，提供给用户。

但是在具体推荐上，同样无法直接购买，没有具体链接，只能输出报告，更像是一个搜集信息的AI浏览器。

https://chat.fellou.ai/report/0d853b10-fcd0-4c22-a1f2-696556c8f277

第二个我们选了“做贴纸”的场景。

prompt2：Make some team swag for our launch of chatgpt agent - makesome anime-style art that'scute and quirky based on theattached photo of our teammascot. then, make them into.1x1 laptop stickers and order 500 to 575 Florida St in SF.I like StickerMule!

贴纸的设计在近三个月来各类Agent测试中算是非常简单的了，而且，很多产品，例如Genspark的任务，本身也是调取的GPT的生图能力。

不过同样的，和OpenAI展示的相比，多个产品在订购环节，因为没有调用能力，无法完成具体操作。

比如Genspark会提示：很抱歉，我无法直接为您完成在线订购，因为这需要您的个人信息、付款方式和账户验证。不过我可以为您提供详细的订购指导，让整个过程变得超级简单！

Flowith同样只能进行订购指引。

在这个任务中，Manus在流程中显示完成了购物车的添加，也是除了OpenAI以外唯一一个进行到这一步的Agent。

可以看到，今天的AI Agent依然是在一个“混沌期”，它能做到的事情，在不停让我们惊叹，而同时它也依然是不稳定的，哪怕OpenAI，今天发布的ChatGPT Agent更像是一个占位动作。但当我们把AI Agent视作一个潜力巨大，价值巨大的方向，这些新的重要玩家的加入和更激烈的竞争，都是好事——它最终会推动一个能稳定地解决人类面对的复杂任务的Agent更早出现在我们的生活里。

点个“爱心”，再走吧