原创 孔某人 2025-01-03 12:47 北京
谈 文本模态的效率性工具 与 推理模型。
前言
本文是我一年前(2024年2月)的文章《谈为什么效率场景LLM应用没有爆发》的V2版本,结合目前的最新情况撰写了V2部分,以反映这方面的最新情况和最新认知。
前文的内容放到现在来看其实也并没有过时,只是现在技术的发展积累已经足够多,应该要再更新一篇了。
历史相关文章:
1、V1版本内容
我也考虑过是否就让大家先去看去年原始文章,不过考虑到这篇文章不长,以及大部分读者应该没读过这篇文章,所以我就把其中现在仍然有效的部分搬过来,方便大家。
本节原始内容写于2024.2.17,已经根据现在的信息有少量调整,目前来看有待商榷的观点打了删除线。
对V1版本观点已经很熟悉的读者可以跳过本节。
1.0、TL;DR
V1版本文章希望回答一个问题:为什么目前效率场景的LLM应用在用户看来都很鸡肋,没有到达付费意愿线。
简略的答案是:大部分文本模态的应用提供的智力增量不够,需要至少100次符合期望率>96%的LLM调用 或者 预置了领域知识的workflow/专家知识才行。
1.1、从与“陌生人”沟通说起
为了让读者更容易理解本文的视角,我们首先考虑与陌生人沟通的情况,这种情况与用户与通用Agent沟通是相似的。
当我们与陌生人沟通时,“获得了一个好的沟通体验,下次还愿意与他沟通”一般可以分类到下面几种情况:
对方提供了很好的情绪价值,未必是对方故意的。
对方提供了自己需要的信息,甚至是直接的世俗价值。
对方是一个领域专家,使用他的经验解决了自己关注的一个问题,或者是把他的解决思路教给了自己。
对方并非是专家,但思维很敏捷、视野较宽,能够在聊天中根据得到的信息随机应变,进行现场推演,让自己看到了自己未曾设想的思路/解决方案,并且自己觉得这些思路还算靠谱。
情绪价值目前不被视做效率场景的核心目标,提供信息可以纳入到智能搜索范围。那么剩下的两点从技术实现上来说,可以描述为:
[1] 对方有适合自己面对的问题/任务 的 经验/workflow,能够大概率地解决自己的问题。
对方未必很聪明或者思维很敏捷,他的workflow也并非聊天中现场想出来的,更多是之前的经验或者是经验的少量组合。此时的核心价值是他“之前就持有”的workflow,应用这个workflow可能未必需要很复杂或者很高的推理成本。
[2] 对方并没有超过自己的经验/workflow,获得信息与自己接近,但进行了大量的思考工作(LLM推理),让结果变得显著。
智能检索是最简单的例子,在一次请求中,相当于LLM和其他模型并行或事先处理了大量的信息,交付过滤结果。
在多步的推理决策等场景下,能够在基于当前情况在思考中探索多种方案,并能选择出较好的方案交给用户。
AI下棋就是类似的情况,AI能够基于当前局面探索几步,并对于每个路径的剩余局面有预判,从中选择出较好的【行动】作为输出。AI并没有存储当前局面下的最优workflow,但它通过暴力探索获得了相对不错的方案。
在解决问题上也是类似的,Agent可以在内部尝试各种解决方案,最终交付给用户一个可靠性较高的方案作为结果。这时候需要Agent在内部进行大量知识型工作,包括推理或信息处理。
简单来说也就是:
要么预置专家知识workflow,直接调用即可大概率解决问题。
靠暴力的计算(知识工作)来给出当前问题的较优方案。
1.2、专家知识
从直接解决问题的角度上来说,提取专家知识/workflow是最直接的方案,特别是很多专家知识的解决方案执行未必需要很高的大模型推理成本。独立求解一个问题难,但抄答案,抄答案的思路容易。
很多人能认识到提取专家知识的重要性,但现实很骨感。在2024年初“专家知识的提取过程”本身的成本很高已经是共识。
究其原因,大致有:
传授成本太高:领域专家并不擅长传授,或workflow构建者与领域专家的认知差别过大导致沟通成本高,或领域专家的时间不够或时间成本太高。
领域专家的输出不是文字或能方便量化的方式,导致建模/学习困难,例如动作、绘画、气味、模糊不清的感觉。
领域专家不愿意真心传授。教会徒弟饿死师傅。
领域专家只能传授原有流程,但如何依托于新方案构建合适的新流程是需要探索的,这需要跨界2方面的能力,人力成本高。
目前的新技术不足以满足原有流程的需求(即使在重新设计流程的情况下),新流程目前并没有能打通的方案。
目前“把领域专家的知识从他的大脑中提取出来,并固化为可执行的workflow”还是一个无法自动化的事情,很难低成本水平扩展。
不少人希望能够构建一个直接让领域专家可用的Agent平台来让他们自己调试和迭代,但这样的平台要能实现这种目标并不容易,具体讨论参见 谈小微应用开发平台(包括Agent构建平台)【2024.8】
1.3、堆砌足够的智力工作
第1.2节是老生常谈,而本节是在2024年初很少有人提到的视角,即:在没有领域知识的时候,通过在单次使用中堆砌足够的智力工作来提升交付结果的价值。一个能给人直观感受的描述是:单次用户请求中,需要100次符合期望率>96%的等效LLM调用。
为什么说“符合期望率>96%”而不是说“GPT4级别”的LLM模型?
GPT4是(在2024年初)更常使用的说法,但workflow/推理环节中不少环节是可以在积累数据后转化为小模型的微调来降低成本的,所以很难说某某任务GPT3.5就不行,对于一些很难的步骤也很难说GPT4就足够好。
相对来说符合期望率才是一个更面向结果的指标,既然是堆砌智力工作,那么就需要一定的可靠性和有用性,不可靠的推理放在整体流程中可能会直接破坏整个结果,造成一颗老鼠屎坏了一锅汤的效果。没用的推理也只是徒增复杂度。
提升符合期望率未必仅靠LLM调用。对于提升成功率:某些环节可以有低成本的错误检测方式,可以通过发现错误时候重试来降低对于模型的要求,此时仍然能够满足整体流程的需求(只是牺牲了延时)。在2025年初来看,提升有用性目前更多还是要靠使用更强的模型。
这里的96%是指大概25次能接受不符合期望1次,是一个可以用于分析各个领域的默认值。一些高准确场景需要更高的要求。
这里的100次是个概数,2024年初的很多应用连10次都没有达到。在包含的领域知识不足时,用户的体验就会是:提供的智力价值有限,很鸡肋,不愿意付钱。也就是说好像自己不花钱,稍微想一下也能做,没到要花钱的买服务的程度。这方面海外的付费意愿高一点,能接受的最低智力价值更低一点,但面对的问题是类似的。
1.4、总结(2024年初)
上述两种思路并非互斥的,可以联合使用。
2024年初的LLM应用大多两边都不好,最终提供的智力价值较低,对于用户来说价值不够高。不像是文生图那样,大部分用户不会画图,即使专业画师也无法短时间内快速出图,所以文生图方向大模型产品的价值用户更容易感知和付费。
2023年文本模态这边没有出现大家期望的那种事先成本不是特别高、但受众很大的Super App的原因之一应该就是这点:提供的智力价值不够,无论是通过事先预置还是执行中探索提供的。
1.5、技术展望(2024年初)
除了延时之外,堆砌大量LLM调用的另一个问题是LLM推理成本/API费用。在2024年初LLM速度还较慢,推理成本还较高,所以只能在少数高价值场景才能使用这种方式。
但目前来看,2024-2025年的LLM推理成本和延时都会显著降低。
2023.10月之后,OpenAI以外的商用LLM API能力正在快速发展,到目前已经有接近于GPT4能力的模型出现了。随着技术的进一步优化,整体模型的调用成本、需要的参数量等会有所优化。
已经可预见硬件成本也在显著降低,目前AMD的发力速度很快,MI300等卡的计划定价显著低于NVIDIA,其他定制计算芯片也都正在路上。硬件方面提升导致的推理成本下降大概是未来2年贡献最大的。
所以虽然现在大部分workflow很难使用100次级别的LLM调用,但在我看来已经可以考虑为此方向进行设计和储备了。
2、效率性产品 vs 体验性产品
V1版文章的思路更多是着眼于效率工具场景的,但这其实只在效率性工具的供给稀缺时才能简单这么分析。当供给变多时,效率性工具也需要在体验和其他方面开始卷。例如现在大家用的水杯,挑选水杯的主要标准已经不是它能用来装水。
这方面的讨论参考 反思 效率性产品 与 体验性产品,这不是本文的主要讨论目标,所以这里从略。
3、V2版本 正文
3.1、回顾V1版本的判断
2024年初的判断目前来看,在宏观的层面很成功。1年过去了,也仍然只有workflow和堆LLM调用量(推理)这两条线。
但从具体执行来判断,我都低估了workflow和人工构建复杂agent方案的工作量,严格来讲是高估了大多数团队的耐心,我见到不少团队都在上半年放弃了他们宏伟的设想。当然也跟我对世界的预估模型还不够好有关,这方面参见 个人对大模型方向的认知回顾(1)的第1.4节,这里不再展开。
站在2025年初,很明显目前最可能、最“舒适”的路径就是依赖o1这样的推理模型来在给定任务context中进行探索。
一些其他细节的复盘:
现在调用LLM超过100次的应用其实已经不少见了。例如VideoLingo项目,它根据处理的视频长度可以调用几千次LLM,而且主要依赖Claude 3.5 Sonnet这种级别的模型。现在从使用角度上来说,我已经不推荐用VideoLingo了,它已经丧失了该赛道的最好效果位置,本身也不再迭代了。
LLM的推理成本和推理时间在2024年确实大幅降低了。o1-mini刚发布时的200token/s现在也能秒掉国内绝大部分同等模型。
GPU算力方面下降倒是不显著,AMD没有上位。随着推理模型的普及,NVidia又有了一个增长点。不过国内的算力需求倒是不像之前那么狂热了。
2024年文本模态这边仍然没有大众级别的Super App,Cursor已经算很不错了。不过文生视频类在我看来已经成为Super App。
3.2、展望效率性产品的发展
目前LLM模型的能力仍然在快速发展,本节的讨论基于“使用的模型能力至少是o1正式版同等水平”,这稍微领先于目前的现状。o1正式版API还不能大量可用,但应该快了。而且可能1个月后就有o3-mini作为它的廉价替换。国内的o1追赶者们还需要时间,我估计半年后部分厂家应该就能基本追上o1正式版了。
首先我觉得workflow并不是需要丢弃的手段,只要workflow的实施成本可接受,就仍然应该考虑。在不少条件下它仍然是最佳方案。
但确实构建可用的workflow的成本较高,有以下几方面问题:
专家知识的提取仍然较为困难,更强的模型让这方面成本降低了一些,但剩余的问题仍然较大。
团队对于构建workflow的耐心仍然有限。虽然2024年已经淘汰掉了一批耐心不足的团队,最近我看到不少新产品的实施有着更多的耐心,不少产品都在未来一个季度内新发。但人性如此,现在的平均耐心可能只是从2个月提升到了8个月。
一些场景并没有很好的workflow可供固化,确实需要在对应场景内重新分析/推理。
一些需求灵活的场景虽然有较为复杂的流程,但本质上已经很接近一个可以自行推理的Agent的结构。
另一方面,有了新的更scale的堆积智力成果的方式:依靠强推理能力的方案在给定的任务Context中进行大量推理。这个强推理能力可以来自于模型,也可以来自于Agent层的人工设计。
但我目前的预判是:最“舒适”路线是强推理模型+简单的通用Agent框架,例如AutoGPT、BabyAGI这样2年前的简单架构。当然并不建议完全照搬,只是很多新方案设计出来之后看着就会像是AutoGPT、BabyAGI的微创新版本。
目前人工构建复杂通用Agent框架的能力仍然缓慢,但推理模型的发展速度可谓风头正劲,2025年是推理模型快速发展的一年。依赖模型能力提升是一个更容易、也更长期的方式。但技术壁垒低了,商业上的时间节奏也需要重新规划。技术上变简单了,但商业上没有变简单,甚至可能变难了。
我在 理解 o3 及其技术分析 [2024.12] 中提过一个用来粗略区分一个方案是否符合“通用Agent性”的标准:如果开发者也不能在系统执行例如3步之后预测它的行动,那么它就更接近于Agent,否则就更类似于Workflow。这也符合Ilya最近提到的,越智能的系统越难预测。这个标准不止适用于Agent应用,其实也适合于LLM模型,只是这个“步”不太好定义。如果你去用用o1 pro,你会认识到你也很难预判o1 pro能探索到什么结果。
在模型和Agent方案已经主要靠推理模型发展了,剩下就是任务Context的获取。这方面的认知其实已经快成为显学,大家都注意到获取Context的重要性。Cursor的成功因素之一就是它能够拿到它需要拿到的Context。这是应用层的主场,不过可能持有数据的大公司核心部门更有优势,但由于创新者的窘境,他们的行动会是最缓慢的。(这方面其实百度倒是做的不错。)整体的生态发展很难准确判断。
Context和推理模型这条线我在 站在下一代LLM应用设计的门口 还有一些讨论,这里从略。
3.3、展望2026年
在长效文章的末尾,还是会忍不住聊聊长线预测。可能很多读者也对此很关心,但我得说我现在还看不清2026年,其实连2025年也看不清。但还是说点我能看到的。
首先一个问题是,推理模型的快速发展是否能持续到2026年,推理时计算到底是一个发展1年就会卡住的阶段性方案,还是一个中期有效的方案?我预判:
推理硬件可以得到算力硬件层的支持,而硬件层的演进速度较慢,这方面的改进到普及到收益甚微的时间肯定是超过1年的。
我个人看好推理时计算在中期(3-5年)的未来发展空间,即使1年内遇到什么问题卡住,在中期还会卷土重来。
只要推理模型在2026年还能快速发展,那么它大概率就是文本模态中最快的增长点。人工构建上层复杂的通用Agent架构的速度就肯定没有它快。(但长期没有它快不代表短期就不该做,这是个商业问题。)
我现在还有个感觉:推理模型快速发展所提供的新能力未来还无法被完全发挥,在科学上的应用和在能获取到Context的场景上的应用仍然有限。还应该有其他的场景可以大量应用这些推理能力,而这样的技术方案是之前从来没有的。但我还不知道这些场景在哪里,对此有兴趣的读者欢迎来找我交流。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,获取联系方式请点击 -> 联系方式。
本文于2025.1.3首发于微信公众号和知乎,知乎链接:
https://zhuanlan.zhihu.com/p/16157381136