原创 信息平权 2025-03-06 21:01 上海
盘前英伟达还在暴跌,国内大家兴奋了一天的Manus,发现见过一些“世面”的美国人并不兴奋。的确Devin、Artifacts、各家的compute use已经在推特上火过一遍又一遍。但抛开短期的各种利空压力(宏观、capex周期、供应链噪音、模型叙事等等),来重新梳理下推理算力的计算框架。当下没人会基于此交易NV,但可能对长期思考有一点帮助。
简单来说,过去的推理需求都是基于chatbot。阿里、腾讯、字节他们目前的算力估算方式,脱不开DAU*每日query次数*每次query token的计算逻辑,再兼顾同时在线以及峰值在线人数带来的最高并发和冗余支持。坦白说,这非常“互联网思维”。
而上述最大的低估,就是一直以人去读token,人的阅读能力显然是有上限的,且token越长、门槛越高、受众越小。用这个逻辑去推算力需求,很容易证伪。
而o1/r1/豆包深度思考等推理模型,加入联网搜索和多步推理,中间会自动消耗大量input token,让每次query的算力需求可能上了一个数量级。但这还不够。大家都会反驳说“还有多模态呢”,但考虑到多模态理解与生成天然面向娱乐化或特定场景,也撑不起算力需求的数量级增长。
与此同时,优化似乎一时间成了算力的敌人,在加速算力的通缩。其实本质上是对GPU使用的学习曲线不断提高的自然结果。说白了,全世界从未几十万几十万的部署和使用GPU,过去2年都在探索高效使用的方式。而DeepSeek只是其中一个通过多年量化积累了很多know-how的“优等生”,且把作业本开源给全世界抄。但其实给他们抄,很多人也抄不会,优化不到DS那么夸张的水平。
其次,优化是有上限的。H800是被DS优化出了H200的throughput,但这也就是几倍的提升,不是数量级。以及如上所述,并不是DS开源了全世界就能学得会,太多理想情况无法普遍推广。
假如只考虑以上,算力难免会有供需周期的concern。因为供给不仅有台积电产能的每年扩张、还有老卡可复用于推理的产能“微积分”,还有软件优化压榨存量算力。需求要追上述“总算力产能”,chatbot明显是远远不够的。
而这次Manus用直观明了的步骤展示、以及传出来的所谓2美金单次任务成本,给上述计算方式加入一个巨大变量——机器自身对token的无上限消耗。具体来说,计算方式从每用户每天query次数*每次query token消耗,转变成:每用户每天任务次数*每次任务agent工作时长*单位时间的token消耗速度。越来越像人。
其实本质上,最终都可量化为人均token消耗量。但之前的chatbot除了人阅读能力上限,还有“提问题能力”的上限。让结果“真正有用”强依赖于用户query的描述能力,但能清晰准确描述出一个query其实是有门槛的(就看过去互联网,没有一个super app是建立在用户主动输入很多内容的基础上的,因为会拒绝掉很多用户...)
而Agent的变化,一是用户简单任务的描述门槛有所降低(不能说不需要,只能说依赖性有所降低),更重要的是agent整个workflow,减少了human in the loop,对token的消耗天花板大幅提升,夸张点说看不到上限。就是上午在星球发的:
就好比Manus传说中的单次任务2美金,对比过去chatbot每次query大概2美分。这不是一个数量级提升,是几个数量级....不必纠结于具体成本多少,基于不同任务复杂度、时长、延迟的要求、甚至交付质量,成本区间本身可能就很大很大,不同agentic任务之间的算力差别,完全可以是几个数量级(不同人创造的经济价值也可以差出几个数量级....)
打个比方,当年发明白炽灯,觉得耗电就几瓦,可能只会想到灯泡越来越亮、功率线性增加,但可能想象不到后面有普及千家万户的小家电、大家电,更想象不到电动车、一块功率能几千瓦的“砖”(GPU),以及这一堆砖组成的集群能消耗一个核电站。现在的chatbot差不多就是当时的白炽灯,可能多模态顶多算个LED?Manus最多算小家电的雏形?token时代的“电动车”、“超算中心”都在后面呢。当然,这个过程中是否产生电力建设的小周期,取决于需求侧各类小家电何时实现PMF,从产品到量产品再到商品,需要一路小心求证。
再回想老黄每次给全世界洗脑,开篇必从“token”说起——token就是当年的电,是未来几十年全世界的底座。老黄的确也吹过牛,但感觉他说的,在一步步接近现实。
(完)
社群就Manus投资机会讨论100条评论了,还有腾讯大涨后的一些业绩季度和估值讨论等,欢迎加入探讨