笔者老于 2025-06-17 22:01 四川
Manus 的“三不”问题。
Manus 的开放注册标志着其商业化进程的正式启动。但是,Manus 到底擅长什么?
🤔 Manus的商业模式:Manus将咨询报告市场视为目标,希望通过提供报告来颠覆传统管理咨询行业,但其主要依赖网络搜索数据,缺乏企业专有数据。
🔄 飞轮方法论的挑战:Manus未能真正转动Hypothesis飞轮,无法像管理咨询顾问一样进行动态的Hypothesis演进和验证,导致其报告缺乏深度和针对性。
🚫 “三不”问题:Manus在方法论、执行和推理质量方面存在不足,包括方法论与飞轮冲突、不深入业务以及对推理质量不负责任,这些问题限制了其在管理咨询领域的竞争力。
笔者老于 2025-06-17 22:01 四川
Manus 的“三不”问题。
如果检视 Manus 的精选用例库,我们会发现约一半的用例是咨询报告(图 1),诸如,《B2B 供应商寻源报告》、《成衣行业 AI 产品分析》、《制定门店销售提升策略》等等:
图1:“出报告”是Manus引以为傲的场景咨询报告市场甚为肥厚。据 Forbes 统计,仅管理咨询行业 2024 年在全球的市场规模就超越了 1 万亿美元(麦肯锡 135 亿、BCG 120 亿、Bain 60 亿)。而一份由 3~5 个聪明的麦肯锡顾问花上十几周时间打磨的方案报告往往要破费甲方大几十万乃至数百万美元。对于 Manus 而言,这种文本与逻辑密集、暴利且高大上的领域是理想的颠覆对象。毕竟,相较于扮演客服小姐姐或程序员大叔,用 $19/月的 Agent 扮演藤校背景、年薪 $200K+ 的麦肯锡顾问是更令投资人信服的 AGI 故事。所以,Manus 对咨询报告市场这块“肥肉”的图谋也并不令人意外。沙盒
虽然 Manus 自信满满,但它真的能胜任管理咨询问题吗(例如下题)?“如何在 12 个月内提升 Tesla 的利润率?”处理如此复杂的战略问题需要专家洞察、企业专有数据(工厂、产线、设备等)、以及第三方机构的 Benchmark。而网络搜索(Web Search),对于交付质量要求极高的管理咨询而言,并不是非常可靠的数据源。但该数据源(偶尔结合极少量的企业专有数据)几乎支撑了 Manus 所有的咨询报告任务。好在当下,Manus 与用户之间的关系也没那么严肃:Manus 不会对交付质量负责,而用户也没有付出高昂的费用。这种不严肃的关系,基于不那么可靠的数据,产生了众多“没那么严肃”的报告,例如《查询 YC 的 B2B 初创公司》、《橡胶垫的供应商寻源》、《Karpathy.ai 的 SEO 优化方案》等等;这些报告也许有点用,但不多。于是,我们看到一个有趣的景象:“不可靠的数据”和“不严肃的报告”打造了一只廉价的沙盒(图 2),将 Manus 对管理咨询的图谋困囿其中。飞轮
也许在未来的某天,AGI 终将颠覆人类的思维方式。但至少在当下,评价一个 Agent 的优劣仍然取决于其是否能够完美“复刻”模仿对象的思虑和行为。以此类推,在数据之外,Manus 图谋的成败则取决于其是否能驱动 Hypothesis 飞轮(Hypothesis-Driven Flywheel)。由麦肯锡启用于上世纪六十年代,Hypothesis 飞轮是驱动管理咨询项目的核心方法论。而该方法论得以延绵六十余年而不衰的主因是其具备一整套应对多样、复杂业务的 Hypothesis 演进机制。如果让顾问驱动飞轮解决下述问题,其过程将大致由三部分构成(图3):“如何在 12 个月内提升 Tesla 的利润率?”图3:Hypothesis飞轮其一,预判(Initial Hypothesis)。顾问利用先验知识(公开资料、行业经验、对 Tesla 业务的的理解等),带着对问题根因的预判启动项目;其二,演进(Evolving)。顾问将 Hypothesis 拆解为指标,并从指标分析中提取洞察以验证 Hypothesis,验证包括正反两个结果(图 4):图4:Hypothesis演进示例1. 正向洞察则以细节优化当前 Hypothesis,或形成新的 Hypothesis。例如,在“成本控制不足造成单车利润下降”的预判之上,通过产线和供应链指标分析,以洞察“新工厂初期爬坡成本过高”优化 Hypothesis,并将后续分析的重点聚焦到新工厂相关的指标上;2. 负向洞察排除错误的 Hypothesis。例如,虽然预判“营销及管理费用上升”是利润下降的主因之一,但经过外部专家访谈后,发现营销费用远低于传统车企,遂终结该 Hypothesis。飞轮周而复始,以“Hypothesis->Analytics->Insights->Hypothesis”的迭代闭环不断演进,直到“Aha!Moment”的出现;其三,“Aha!Moment”。当顾问发现了清晰、由数据支撑的问题根因,即可依据飞轮迭代过程中所产生的细节产生最终建议。所以,Manus 能否复刻顾问的解题过程?手办
答案是:NO。如果乍一看,Manus 的复刻还有点似模似样:其表现出了对飞轮方法论的一定认知(图 5);也生成了优化产线效率、打造韧性供应链等还算靠谱的预判。图5:Manus生成的解题规划但如果细看,我们会发现 Manus 其实并未真正转动飞轮,仅仅完成一圈迭代后便草草地给出了最终建议(图 6)。图6:Manus 仅仅完成了一次迭代而在这个过程中,对于复刻顾问而言,Manus 至少存在“三不”问题:首先,Manus 的方法论不能满足飞轮。在项目开始之初,Manus 会在“todo.md”文件中一次性生成完整规划并在后续严格执行之。而 Hypothesis 的演进是一个动态搜索过程,顾问会随时调整规划,更新和终结既有 Hypothesis,或构建新的 Hypothesis(图 7),因此,Manus 和飞轮存在方法论级别的矛盾。图7: 一次性规划 vs 动态规划其次,Manus 的执行不沾业务。在任务规划之后,Manus 更热衷于在任务间传递基座大模型所生成的内容,而对内容本身并没有真正的见解,也自然谈不上优化。垂直领域的 Agent 至少还能利用知识图谱或基于业务数据的 Ground Truth 以校验思考过程,但 Manus 在这方面的能力几乎为零(图 8)。图8:Manus基本不沾业务最后,Manus 对推理质量并不负责。Anthropic 在其论文《On the Biology of a Large Language Model》中阐述:面对 Hypothesis 式的验证,如果大模型在 CoT 过程中遇到障碍(例如,没有合适的计算工具),其会“以终为始”编造推理(Unfaithful Motivated Reasoning)以迎合 Hypothesis(图 9):图9:因为大模型无法求解cos(23423),其会编造一个cos(23423) 约等于0.8以“迎合”最终答案而 Manus 对此类编造并不负责任。例如,为了支撑 Hypothesis“优化产线效率提升单车利润”,在完全无法获取真实数据的情况下,基座大模型在推理过程中编造了洞察: “Tesla 的工厂利用率为 70%,不及 85% 的行业标准”。虽然“70%”和“85%”这两个数字完全没有出处,但 Manus 仍然将其作为正向洞察以支撑 Hypothesis。这样看来,“三不”的 Manus 对顾问只是“手办”级别的模仿,虽然外壳看起来似模似样,但里子却有天壤之别。总而言之,Manus 就犹如沙盒中的一只手办,沙盒限制了其数据和任务的范围,而手办级的复刻对于高级人类思虑和行为而言则更像个玩具。也许技术的进步可以突破沙盒的界限,但玩具式的思维却很难改变。当然,Manus 的问题也并非其独有,各类 Deep Research 也或多或少地面临类似的挑战。但对于图谋咨询报告市场的 Agent 而言,立足于转动飞轮可能是破局的良方。推荐阅读
长按识别二维码,备注“白鲸”申请加入白鲸社群,获取更多资讯、活动、资源
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑