孔某人的低维认知 01月03日
再论LLM应用中的效率场景
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文是《谈为什么效率场景LLM应用没有爆发》的V2版本,探讨了文本模态效率性工具的相关问题,包括效率场景LLM应用的现状、专家知识提取的困难、提升智力工作的方式、效率性产品与体验性产品的关系等,并对未来发展进行了展望。

效率场景LLM应用价值不高,需预置专家知识workflow或靠大量智力工作提升价值。

专家知识提取存在诸多困难,如传授成本高、建模学习难等。

通过堆砌足够智力工作提升交付结果价值,需保证符合期望率。

展望未来,workflow仍有价值但构建成本高,强推理模型发展迅速。

原创 孔某人 2025-01-03 12:47 北京

谈 文本模态的效率性工具 与 推理模型。

前言

本文是我一年前(2024年2月)的文章《谈为什么效率场景LLM应用没有爆发》的V2版本,结合目前的最新情况撰写了V2部分,以反映这方面的最新情况和最新认知。

前文的内容放到现在来看其实也并没有过时,只是现在技术的发展积累已经足够多,应该要再更新一篇了。

历史相关文章:


1、V1版本内容

我也考虑过是否就让大家先去看去年原始文章,不过考虑到这篇文章不长,以及大部分读者应该没读过这篇文章,所以我就把其中现在仍然有效的部分搬过来,方便大家。

本节原始内容写于2024.2.17,已经根据现在的信息有少量调整,目前来看有待商榷的观点打了删除线。

对V1版本观点已经很熟悉的读者可以跳过本节。

1.0、TL;DR

1.1、从与“陌生人”沟通说起

为了让读者更容易理解本文的视角,我们首先考虑与陌生人沟通的情况,这种情况与用户与通用Agent沟通是相似的。

当我们与陌生人沟通时,“获得了一个好的沟通体验,下次还愿意与他沟通”一般可以分类到下面几种情况:


情绪价值目前不被视做效率场景的核心目标,提供信息可以纳入到智能搜索范围。那么剩下的两点从技术实现上来说,可以描述为:

[1] 对方有适合自己面对的问题/任务 的 经验/workflow,能够大概率地解决自己的问题

对方未必很聪明或者思维很敏捷,他的workflow也并非聊天中现场想出来的,更多是之前的经验或者是经验的少量组合。此时的核心价值是他“之前就持有”的workflow,应用这个workflow可能未必需要很复杂或者很高的推理成本。

[2] 对方并没有超过自己的经验/workflow,获得信息与自己接近,但进行了大量的思考工作(LLM推理),让结果变得显著。

智能检索是最简单的例子,在一次请求中,相当于LLM和其他模型并行或事先处理了大量的信息,交付过滤结果。

在多步的推理决策等场景下,能够在基于当前情况在思考中探索多种方案,并能选择出较好的方案交给用户。


简单来说也就是:

1.2、专家知识

从直接解决问题的角度上来说,提取专家知识/workflow是最直接的方案,特别是很多专家知识的解决方案执行未必需要很高的大模型推理成本。独立求解一个问题难,但抄答案,抄答案的思路容易。

很多人能认识到提取专家知识的重要性,但现实很骨感。在2024年初“专家知识的提取过程”本身的成本很高已经是共识。

究其原因,大致有:


目前“把领域专家的知识从他的大脑中提取出来,并固化为可执行的workflow”还是一个无法自动化的事情,很难低成本水平扩展

不少人希望能够构建一个直接让领域专家可用的Agent平台来让他们自己调试和迭代,但这样的平台要能实现这种目标并不容易,具体讨论参见 谈小微应用开发平台(包括Agent构建平台)【2024.8】

1.3、堆砌足够的智力工作

第1.2节是老生常谈,而本节是在2024年初很少有人提到的视角,即:在没有领域知识的时候,通过在单次使用中堆砌足够的智力工作来提升交付结果的价值。一个能给人直观感受的描述是:单次用户请求中,需要100次符合期望率>96%的等效LLM调用

为什么说“符合期望率>96%”而不是说“GPT4级别”的LLM模型?


这里的100次是个概数,2024年初的很多应用连10次都没有达到。在包含的领域知识不足时,用户的体验就会是:提供的智力价值有限,很鸡肋,不愿意付钱。也就是说好像自己不花钱,稍微想一下也能做,没到要花钱的买服务的程度。这方面海外的付费意愿高一点,能接受的最低智力价值更低一点,但面对的问题是类似的。

1.4、总结(2024年初)

上述两种思路并非互斥的,可以联合使用。

2024年初的LLM应用大多两边都不好,最终提供的智力价值较低,对于用户来说价值不够高。不像是文生图那样,大部分用户不会画图,即使专业画师也无法短时间内快速出图,所以文生图方向大模型产品的价值用户更容易感知和付费。

2023年文本模态这边没有出现大家期望的那种事先成本不是特别高、但受众很大的Super App的原因之一应该就是这点:提供的智力价值不够,无论是通过事先预置还是执行中探索提供的。

1.5、技术展望(2024年初)

除了延时之外,堆砌大量LLM调用的另一个问题是LLM推理成本/API费用。在2024年初LLM速度还较慢,推理成本还较高,所以只能在少数高价值场景才能使用这种方式。

但目前来看,2024-2025年的LLM推理成本和延时都会显著降低。


所以虽然现在大部分workflow很难使用100次级别的LLM调用,但在我看来已经可以考虑为此方向进行设计和储备了

2、效率性产品 vs 体验性产品

V1版文章的思路更多是着眼于效率工具场景的,但这其实只在效率性工具的供给稀缺时才能简单这么分析。当供给变多时,效率性工具也需要在体验和其他方面开始卷。例如现在大家用的水杯,挑选水杯的主要标准已经不是它能用来装水。

这方面的讨论参考 反思 效率性产品 与 体验性产品,这不是本文的主要讨论目标,所以这里从略。

3、V2版本 正文

3.1、回顾V1版本的判断

2024年初的判断目前来看,在宏观的层面很成功。1年过去了,也仍然只有workflow和堆LLM调用量(推理)这两条线。

但从具体执行来判断,我都低估了workflow和人工构建复杂agent方案的工作量,严格来讲是高估了大多数团队的耐心,我见到不少团队都在上半年放弃了他们宏伟的设想。当然也跟我对世界的预估模型还不够好有关,这方面参见 个人对大模型方向的认知回顾(1)的第1.4节,这里不再展开。

站在2025年初,很明显目前最可能、最“舒适”的路径就是依赖o1这样的推理模型来在给定任务context中进行探索

一些其他细节的复盘:

3.2、展望效率性产品的发展

目前LLM模型的能力仍然在快速发展,本节的讨论基于“使用的模型能力至少是o1正式版同等水平”,这稍微领先于目前的现状。o1正式版API还不能大量可用,但应该快了。而且可能1个月后就有o3-mini作为它的廉价替换。国内的o1追赶者们还需要时间,我估计半年后部分厂家应该就能基本追上o1正式版了。

首先我觉得workflow并不是需要丢弃的手段,只要workflow的实施成本可接受,就仍然应该考虑。在不少条件下它仍然是最佳方案。

但确实构建可用的workflow的成本较高,有以下几方面问题:

另一方面,有了新的更scale的堆积智力成果的方式:依靠强推理能力的方案在给定的任务Context中进行大量推理。这个强推理能力可以来自于模型,也可以来自于Agent层的人工设计。

但我目前的预判是:最“舒适”路线是强推理模型+简单的通用Agent框架,例如AutoGPT、BabyAGI这样2年前的简单架构。当然并不建议完全照搬,只是很多新方案设计出来之后看着就会像是AutoGPT、BabyAGI的微创新版本。

目前人工构建复杂通用Agent框架的能力仍然缓慢,但推理模型的发展速度可谓风头正劲,2025年是推理模型快速发展的一年。依赖模型能力提升是一个更容易、也更长期的方式。但技术壁垒低了,商业上的时间节奏也需要重新规划。技术上变简单了,但商业上没有变简单,甚至可能变难了。

我在 理解 o3 及其技术分析  [2024.12] 中提过一个用来粗略区分一个方案是否符合“通用Agent性”的标准:如果开发者也不能在系统执行例如3步之后预测它的行动,那么它就更接近于Agent,否则就更类似于Workflow。这也符合Ilya最近提到的,越智能的系统越难预测。这个标准不止适用于Agent应用,其实也适合于LLM模型,只是这个“步”不太好定义。如果你去用用o1 pro,你会认识到你也很难预判o1 pro能探索到什么结果。

在模型和Agent方案已经主要靠推理模型发展了,剩下就是任务Context的获取。这方面的认知其实已经快成为显学,大家都注意到获取Context的重要性。Cursor的成功因素之一就是它能够拿到它需要拿到的Context。这是应用层的主场,不过可能持有数据的大公司核心部门更有优势,但由于创新者的窘境,他们的行动会是最缓慢的。(这方面其实百度倒是做的不错。)整体的生态发展很难准确判断。

Context和推理模型这条线我在 站在下一代LLM应用设计的门口 还有一些讨论,这里从略。

3.3、展望2026年

在长效文章的末尾,还是会忍不住聊聊长线预测。可能很多读者也对此很关心,但我得说我现在还看不清2026年,其实连2025年也看不清。但还是说点我能看到的。

首先一个问题是,推理模型的快速发展是否能持续到2026年,推理时计算到底是一个发展1年就会卡住的阶段性方案,还是一个中期有效的方案?我预判:


只要推理模型在2026年还能快速发展,那么它大概率就是文本模态中最快的增长点。人工构建上层复杂的通用Agent架构的速度就肯定没有它快。(但长期没有它快不代表短期就不该做,这是个商业问题。)

我现在还有个感觉:推理模型快速发展所提供的新能力未来还无法被完全发挥,在科学上的应用和在能获取到Context的场景上的应用仍然有限。还应该有其他的场景可以大量应用这些推理能力,而这样的技术方案是之前从来没有的。但我还不知道这些场景在哪里,对此有兴趣的读者欢迎来找我交流。

交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,获取联系方式请点击 -> 联系方式

本文于2025.1.3首发于微信公众号和知乎,知乎链接:

https://zhuanlan.zhihu.com/p/16157381136

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

文本模态 效率性工具 专家知识 推理模型
相关文章