从白炽灯到小家电

原创信息平权 2025-03-06 21:01 上海

盘前英伟达还在暴跌，国内大家兴奋了一天的Manus，发现见过一些“世面”的美国人并不兴奋。的确Devin、Artifacts、各家的compute use已经在推特上火过一遍又一遍。但抛开短期的各种利空压力（宏观、capex周期、供应链噪音、模型叙事等等），来重新梳理下推理算力的计算框架。当下没人会基于此交易NV，但可能对长期思考有一点帮助。

简单来说，过去的推理需求都是基于chatbot。阿里、腾讯、字节他们目前的算力估算方式，脱不开DAU*每日query次数*每次query token的计算逻辑，再兼顾同时在线以及峰值在线人数带来的最高并发和冗余支持。坦白说，这非常“互联网思维”。

而上述最大的低估，就是一直以人去读token，人的阅读能力显然是有上限的，且token越长、门槛越高、受众越小。用这个逻辑去推算力需求，很容易证伪。

而o1/r1/豆包深度思考等推理模型，加入联网搜索和多步推理，中间会自动消耗大量input token，让每次query的算力需求可能上了一个数量级。但这还不够。大家都会反驳说“还有多模态呢”，但考虑到多模态理解与生成天然面向娱乐化或特定场景，也撑不起算力需求的数量级增长。

与此同时，优化似乎一时间成了算力的敌人，在加速算力的通缩。其实本质上是对GPU使用的学习曲线不断提高的自然结果。说白了，全世界从未几十万几十万的部署和使用GPU，过去2年都在探索高效使用的方式。而DeepSeek只是其中一个通过多年量化积累了很多know-how的“优等生”，且把作业本开源给全世界抄。但其实给他们抄，很多人也抄不会，优化不到DS那么夸张的水平。

其次，优化是有上限的。H800是被DS优化出了H200的throughput，但这也就是几倍的提升，不是数量级。以及如上所述，并不是DS开源了全世界就能学得会，太多理想情况无法普遍推广。

假如只考虑以上，算力难免会有供需周期的concern。因为供给不仅有台积电产能的每年扩张、还有老卡可复用于推理的产能“微积分”，还有软件优化压榨存量算力。需求要追上述“总算力产能”，chatbot明显是远远不够的。

而这次Manus用直观明了的步骤展示、以及传出来的所谓2美金单次任务成本，给上述计算方式加入一个巨大变量——机器自身对token的无上限消耗。具体来说，计算方式从每用户每天query次数*每次query token消耗，转变成：每用户每天任务次数*每次任务agent工作时长*单位时间的token消耗速度。越来越像人。

其实本质上，最终都可量化为人均token消耗量。但之前的chatbot除了人阅读能力上限，还有“提问题能力”的上限。让结果“真正有用”强依赖于用户query的描述能力，但能清晰准确描述出一个query其实是有门槛的（就看过去互联网，没有一个super app是建立在用户主动输入很多内容的基础上的，因为会拒绝掉很多用户...）

而Agent的变化，一是用户简单任务的描述门槛有所降低（不能说不需要，只能说依赖性有所降低），更重要的是agent整个workflow，减少了human in the loop，对token的消耗天花板大幅提升，夸张点说看不到上限。就是上午在星球发的：

就好比Manus传说中的单次任务2美金，对比过去chatbot每次query大概2美分。这不是一个数量级提升，是几个数量级....不必纠结于具体成本多少，基于不同任务复杂度、时长、延迟的要求、甚至交付质量，成本区间本身可能就很大很大，不同agentic任务之间的算力差别，完全可以是几个数量级（不同人创造的经济价值也可以差出几个数量级....）

打个比方，当年发明白炽灯，觉得耗电就几瓦，可能只会想到灯泡越来越亮、功率线性增加，但可能想象不到后面有普及千家万户的小家电、大家电，更想象不到电动车、一块功率能几千瓦的“砖”（GPU)，以及这一堆砖组成的集群能消耗一个核电站。现在的chatbot差不多就是当时的白炽灯，可能多模态顶多算个LED？Manus最多算小家电的雏形？token时代的“电动车”、“超算中心”都在后面呢。当然，这个过程中是否产生电力建设的小周期，取决于需求侧各类小家电何时实现PMF，从产品到量产品再到商品，需要一路小心求证。

再回想老黄每次给全世界洗脑，开篇必从“token”说起——token就是当年的电，是未来几十年全世界的底座。老黄的确也吹过牛，但感觉他说的，在一步步接近现实。

（完）

社群就Manus投资机会讨论100条评论了，还有腾讯大涨后的一些业绩季度和估值讨论等，欢迎加入探讨

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签