信息平权 03月07日
从白炽灯到小家电
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文重新梳理了推理算力的计算框架,指出传统基于chatbot的算力估算方式低估了Agent时代的需求。Agent通过联网搜索和多步推理,自动消耗大量token,使每次query的算力需求呈数量级增长。Manus的出现,展示了机器对token的无上限消耗,计算方式从用户query次数转变为任务次数*agent工作时长*token消耗速度,大大提升了token消耗天花板。未来的算力需求将呈指数级增长,如同从白炽灯到电动车、超算中心的演变。

💡传统chatbot的算力估算方式基于DAU*每日query次数*每次query token的计算逻辑,容易低估推理算力需求,因为人的阅读能力和提问能力存在上限。

🔍Agent模型如o1/r1/豆包深度思考等,通过联网搜索和多步推理,中间会自动消耗大量input token,让每次query的算力需求可能上了一个数量级。

🤖Manus的出现,展示了机器自身对token的无上限消耗,计算方式转变为每用户每天任务次数*每次任务agent工作时长*单位时间的token消耗速度,大幅提升了token消耗天花板。

🚀DeepSeek等通过优化GPU使用方式,提高了算力效率,但优化有上限。算力供给的增长包括台积电产能扩张、老卡复用以及软件优化,而Agent的出现将推动算力需求呈指数级增长。

原创 信息平权 2025-03-06 21:01 上海

盘前英伟达还在暴跌,国内大家兴奋了一天的Manus,发现见过一些“世面”的美国人并不兴奋。的确Devin、Artifacts、各家的compute use已经在推特上火过一遍又一遍。但抛开短期的各种利空压力(宏观、capex周期、供应链噪音、模型叙事等等),来重新梳理下推理算力的计算框架。当下没人会基于此交易NV,但可能对长期思考有一点帮助。

简单来说,过去的推理需求都是基于chatbot。阿里、腾讯、字节他们目前的算力估算方式,脱不开DAU*每日query次数*每次query token的计算逻辑,再兼顾同时在线以及峰值在线人数带来的最高并发和冗余支持。坦白说,这非常“互联网思维”。

而上述最大的低估,就是一直以人去读token,人的阅读能力显然是有上限的,且token越长、门槛越高、受众越小。用这个逻辑去推算力需求,很容易证伪。

而o1/r1/豆包深度思考等推理模型,加入联网搜索和多步推理,中间会自动消耗大量input token,让每次query的算力需求可能上了一个数量级。但这还不够。大家都会反驳说“还有多模态呢”,但考虑到多模态理解与生成天然面向娱乐化或特定场景,也撑不起算力需求的数量级增长。

与此同时,优化似乎一时间成了算力的敌人,在加速算力的通缩。其实本质上是对GPU使用的学习曲线不断提高的自然结果。说白了,全世界从未几十万几十万的部署和使用GPU,过去2年都在探索高效使用的方式。而DeepSeek只是其中一个通过多年量化积累了很多know-how的“优等生”,且把作业本开源给全世界抄。但其实给他们抄,很多人也抄不会,优化不到DS那么夸张的水平。

其次,优化是有上限的。H800是被DS优化出了H200的throughput,但这也就是几倍的提升,不是数量级。以及如上所述,并不是DS开源了全世界就能学得会,太多理想情况无法普遍推广。

假如只考虑以上,算力难免会有供需周期的concern。因为供给不仅有台积电产能的每年扩张、还有老卡可复用于推理的产能“微积分”,还有软件优化压榨存量算力。需求要追上述“总算力产能”,chatbot明显是远远不够的。

而这次Manus用直观明了的步骤展示、以及传出来的所谓2美金单次任务成本,给上述计算方式加入一个巨大变量——机器自身对token的无上限消耗。具体来说,计算方式从每用户每天query次数*每次query token消耗,转变成:每用户每天任务次数*每次任务agent工作时长*单位时间的token消耗速度。越来越像人。

其实本质上,最终都可量化为人均token消耗量。但之前的chatbot除了人阅读能力上限,还有“提问题能力”的上限。让结果“真正有用”强依赖于用户query的描述能力,但能清晰准确描述出一个query其实是有门槛的(就看过去互联网,没有一个super app是建立在用户主动输入很多内容的基础上的,因为会拒绝掉很多用户...)

而Agent的变化,一是用户简单任务的描述门槛有所降低(不能说不需要,只能说依赖性有所降低),更重要的是agent整个workflow,减少了human in the loop,对token的消耗天花板大幅提升,夸张点说看不到上限。就是上午在星球发的:

就好比Manus传说中的单次任务2美金,对比过去chatbot每次query大概2美分。这不是一个数量级提升,是几个数量级....不必纠结于具体成本多少,基于不同任务复杂度、时长、延迟的要求、甚至交付质量,成本区间本身可能就很大很大,不同agentic任务之间的算力差别,完全可以是几个数量级(不同人创造的经济价值也可以差出几个数量级....)

打个比方,当年发明白炽灯,觉得耗电就几瓦,可能只会想到灯泡越来越亮、功率线性增加,但可能想象不到后面有普及千家万户的小家电、大家电,更想象不到电动车、一块功率能几千瓦的“砖”(GPU),以及这一堆砖组成的集群能消耗一个核电站。现在的chatbot差不多就是当时的白炽灯,可能多模态顶多算个LED?Manus最多算小家电的雏形?token时代的“电动车”、“超算中心”都在后面呢。当然,这个过程中是否产生电力建设的小周期,取决于需求侧各类小家电何时实现PMF,从产品到量产品再到商品,需要一路小心求证。

再回想老黄每次给全世界洗脑,开篇必从“token”说起——token就是当年的电,是未来几十年全世界的底座。老黄的确也吹过牛,但感觉他说的,在一步步接近现实。

(完)

社群就Manus投资机会讨论100条评论了,还有腾讯大涨后的一些业绩季度和估值讨论等,欢迎加入探讨


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

推理算力 Agent token 算力需求
相关文章