原创 孔某人 2024-12-08 15:52 北京
个人年度反思 part 1
0、前言
过去两年是生成式大模型在应用方面快速发展的时期,这个过程中也吸引了大量资源进来探索。我个人在过去也写了不少文章来阐述每个时期的个人认知,到现在,这些认知仍在不断改变。这就引出了一个问题,过去我的哪些认知是成功的预判,哪些是错误的预判。这对于我如何预测未来的发展是一个重要的参考。
当然我个人的认知和关注点很大程度上受到整个生态中主流认知的影响,尤其是在2024年中之前的时间里。由于整个生态较为复杂,我无法触及生态中的各种观点群体,这篇文章也不可能作为整个生态的回顾。因此,这篇文章终究只能是我个人的回顾和思考,但它确实带有时代的烙印。
目前大模型生态中人们的交流似乎已经相对于2023年很少了,各个团队在做的方向和思考也都更加碎片化和多样。我看到的信息也非常有限,我不知道我的观点是否正确,不知道我看到的范围是否是主流。如果有不同的观点、视角等,欢迎找我讨论,我很乐于寻找不同的观点。
1、历史认知回顾概要
阅读本文的读者大多关注的大概不是细节,因此本文将讨论整体层面的回顾和分析。
由于个人历史时间节奏的问题,可讨论的内容大多集中在2023.8~2024.8月底的时间范围内。2024.8月之后的认知与目前认知比较接近,无需回顾。
1.1、过于关注在“讨论智能Agent是否可行”
Agent是在1年多之前就已经大热的概念,后来不断的有各种东西来蹭这个概念,导致其变得越来越宽泛,最近的一个是Voice Agent。而时至今日,我并没有能够看到满足期待的智能Agent。最多是在非常特殊的领域才有些接近,例如AlphaProof在定理证明领域。
下半年听闻在国企/体制内,智能体也成为一个热点。但仅从我听到的有限信息来看,把其中的智能体换成之前“5G带来的智能XX”似乎听起来也都没问题。无论体制内还是体制外大家确实需要一个更智能的方案,但我们从来没有实现过,无论是AI还是5G还是智能体,大概每几年换一个概念。
从2023年10月到2024年1月,我写了不少内容来解释为什么我不看好这个盲目的热潮,以及我觉得问题到底是什么,卡点在哪里。
1.1.1、关于AI IDE
但实际上,真正能够进入实用场景的类似Agent的方案,对于开发者和准开发者来说,大概是Cursor Composer,实际上Cursor本身通过chat和apply就已经能够很强的赋能产品和其他不太会写代码的人了。即使是Cursor Composer,目前它的能力和策略架构(如果抛开Claude 3.5 Sonnet)有很显著的超过最初的AutoGPT吗?大概也没有。它只是一个更务实的实现,(还依托于目前Claude 3.5 Sonnet较强的能力),它不依赖于Agent完成所有任务,而是在用户workspace中进行操作,可以较好地与用户进行交互,实现人机协同,1+1>>2。
在一年前,我曾和当时组队的伙伴面对一个如何选择下一个项目切入点的阶段。但我们都没有认真地讨论过AI IDE这个方向,至少在我的记忆中没有。一位成员极度乐观,倾向于靠Agent解决一切的方向,而我则反对这一点。但AI IDE以当时的视角来看,大概是介于中间的位置,它并不全能,问题很多,但确实能给生产力很大的提高,并且能够破圈赋能给非开发者。
从Cursor团队的访谈来看,他们确实是很乐观的,但他们没有选择Devin那样的全自动目标形态,而是选择了一个风险可控的渐进路径。再加上2024年下半年出现的Claude 3.5 Sonnet,才让AI IDE这个赛道能够明显超过Github Copilot成为一个PMF的近乎独立赛道。这也让他们在Claude 3.5 Sonnet发布之后能够凭借自身开发积累上的领先而获得商业优势。
Cursor的方案虽然并不那么容易,但还是在应用层团队可以自己实现的范围内,我当时的团队虽然未必能做完Cursor这些功能,但如果当初选择了这个方向的话,做一个相对早的国内类似物来融资还是可以的。这个问题其实可以拿去问所有的LLM应用层团队,为什么他们错过了这个方向?
能够选择去做这个方向是需要很多条件的:
1、不能盲目乐观,认为模型层能解决一切,这很容易等不到那个时候而崩盘。
2、不能太悲观,仅以当时模型的能力和已知技术方案来判定一切。实际上AI IDE这个方向在Claude 3.5 Sonnet发布之前确实很难做出与Github Copilot的价值差异。
Cursor团队是那么的刚刚好踩在浪尖,如果没有Claude 3.5 Sonnet,那么他们大概跟其他很多失败的创业团队一样默默无闻或者昙花一现。
某种意义上可以说,如果剔除Claude 3.5 Sonnet这一项,剩下Cursor需要的其他技术在2023年Q1的AutoGPT发布的时候就已经齐备了。
1.1.2、反思
我觉得我之前对于Agent的技术判断没错,事实上到现在在这方面也没有太大进展,o1是一个新助力,但还很早期。但单纯的由于这方面(Agent热)的社区内共识太过强大而把我的精力都吸引到了这方面,事后来看这似乎没有什么用。战术也许赢了,但战略上输了,或者说没有赢。
反过来说,我的文章中两个影响力比较大的系列:Agent相关的讨论、Agent平台相关的讨论,确实也是由此才会写出来。由此扩展了自己的社交范围和新的机会。
也并不是说无视别人观点,自己闷头做就是对的,想要能够刚刚好走在最优路线上是很难的。
1.2、新的方向从我们忽略的阴影中长出来
现在来看,成功的产品中,一类是明显依托于大模型能力的,但这其实更接近于模型层的竞争。而其他应用层的各种尝试大多是不怎么成功的。To B的订单有的是,而这其中传统To B面对的问题也都存在,大模型给To B引入了一些新的变量,但并没有显著的改变这方面的生态。
To C和To Pro的方面,文本生成这边还是没有太多能拿得出来的成功案例,所以OnlyFans才会显得这么显眼。
以现在的事后诸葛亮来看,有两个明显被整个生态不重视而错过时机的方向:
以Cursor为代表的新一代AI IDE,并可以由此拓展为面向非开发者的小微应用平台。
以NotebookLM为代表的跨模态搬运和转换。跨模态转换是一个非常宽泛的描述,实际上里面可能的路线很多,而NotebookLM只是其中一个看起来不错的方向。
虽然这两个已有的团队都有不少的积累,后发追赶者追上并不容易。但这些方向的进入门槛并没有那么高,很多团队至少其实可以做出一个不错的产品。在目前靠谱应用稀缺的情况下,如果能在这方面做出一些进展,由此获取进一步资源还是有一定优势的。但这两个方向大家都在过去的1年中错过了。
对于多模态方向,我在一年前就认知到多模态生成比文本生成更接近于满足用户的最低需求,但由于我在这方面认知不足,以及C端用户的理解不足,导致我直到2024.8月左右才逐渐想明白跨模态转换这条线大体的方向,而商业模式这边仍然还没想明白。虽然时间上比NotebookLM的Audio overview功能推出早一些,但不够早,几乎没有产生任何优势。
回顾过去的感觉是,我过去的思考没有错,但新方向是从我们的注意力之外的范围长出来的。而且它们当时的条件并不完整,是叠加了后续实际模型提升才有的。这些选择在当时仍然是风险较高的,在当时的状态下无法可靠的判断底层模型能力的发展。
Anthropic后来的访谈中提到,直到Claude 3.5 Sonnet训练出来之后,内部的开发人员才觉得LLM终于变得对编程有用了。外部的人员又能如何预见到这点?靠打听海外头部公司内部的小道消息能知道么?
1.3、对模型能力发展的预判和认知调整速度不足
我自觉对于闭源LLM模型的跟进已经算是圈内相对快的了,应该有不少人是靠看我的评价来作为参考的。
但我对于Claude 3.5 Sonnet能力的认知过程是明显不够快的:Claude 3.5 Sonnet第一版发布于6.20号,而我在一个月之后仍然在文章里把gpt-4o作为最强模型的代表。在8月上旬的时候,我已经认知到Claude 3.5 Sonnet是最强模型,并且编程是其已知优势方面。但那时候大概认知也只是这是一个类似于gpt-4o季度版本更新的那种优势。直到9月底的时候,我才在自己的实践和其他人选择的综合判断下,认识到Claude 3.5 Sonnet不只是比gpt-4o强,而是强很多。这个提升幅度对于很多产品是至关重要的,是生和死的差别。
在其他时候,我对于模型能力发展的判断都是没那么乐观的,或者说是没有去盲目相信没有实据或者较强基础的判断。现在来看,很多时候我的判断没错,但那是在之前方向的渐近线上。而后续实际的收益来自于不同的方向,我对这些方向的预见与出现时间是明显低估的。另外,到目前为止我也没有办法解释为什么Claude 3.5 Sonnet突然就这么强。
在o1之前我就已经在反反复复提RL和复杂的数据合成方案的必要性了,但提RL更多是从Agent需要什么的角度上。如果当时问我对于o1方案的预判,那么我会相信能够依托于Lean等在数学推理方面大幅提高,但对于这些能力是否能够泛化到非数学和编程之外时,我大概会表示很不乐观。
而事实上o1和QwQ模型在数学以外的能力也有明显的提高,我猜测他们没有做多少数学推理和编程之外的新增数据,但实际上它们在普通通用场景上的提升对我来说是很明显的,我现在就是会专门的用o1(以及之前的o1-preview),而不是STEM能力(科学Science、技术Technology、工程Engineering、数学Mathematics)比o1-preview更好的o1-mini,就是因为o1系列方案的能力确实能够泛化到STEM场景之外。在o1-preview发布之前,我对于o1路线能获取的效果改进是低估的,而且我觉得当时也没有多少相对可靠的分析能来判断它确实能获得这种收益。虽然在o1-preview发布之后,我就写了几篇文章来对它做外部分析。但当我确认到o1-preview在STEM以外方面能力的提升时,已经是10月14号了,是o1发布的一个月之后。而且,我是在闲来无事时,决定随手测试一下这个昂贵的o1-preview在我当时无法很好解决的场景下的表现。测试之前,我并没有抱太大的期待。而且即使在我已经确认了o1-preview的效果之后,我仍然用了一个下午的时间才扭转了其昂贵的定价对我认知的影响,从“o1-preview在这个场景有它的优势”到“o1-preview是这个场景的最佳方案”。
我觉得自己相对算是对新事物接受速度较快的了,只要我能够看到与自己认知严重不符的事实,大部分时候是可以快速调整并重新推导的。但回顾过去的一年,我对重要前沿模型的实际进展跟进和认知调整仍然不够快。
当然2024年下半年的这个过程整个扭转了我的技术认知方法论基础,我现在更多把精力投放在最新的前沿(帕累托最优)模型上。
1.4、人和组织都走在其最舒适的路径上
过去的一年半中,我做了不少预判,给了不少建议,做了不少倡议,以及跟大组织内的一些人也直接讲过我的观点。现在想来,我的很多建设性预判和建设性意见(指不是单纯的否定性意见)中真正能够与未来走向吻合的并不多。(我的否定性预判倒是被推翻的很少)。这也让我思考我对未来的预判能力该如何优化。
我的结论是,我轻视了一个因素:个人和组织最终大多走在他们最舒适的路径上。当决策的主体面对多种可能的路线时,大多数主体最终还是会选择短期最舒适的路线上。
解释一下这里的“最舒适”,这里的舒适有点类似于“容易”,但容易更多是从现实成本的角度上来说的,但舒适还同时包括决策主体的思维方式。例如说训练GPT-3明显不是一个容易的事情,但当时推动这件事的人们相信这是对和有价值的,并且比他们心中其他的路径都更值得去尝试。他们克服了很多困难,但他们在过程中依旧是感觉相对(其他选择)更舒适的。
推测个人心中的最舒适路径是比较难的,推测组织的舒适路径相对容易一些,但对于外部来说仍然难以判断。我与人交流这个观点时,就有人提出“这个框架似乎无法证伪,一切都可以事后归咎于某些人的内心”。
我不知道每个读者对于推断别人和别的组织的舒适路径有多少感觉,但我确实感觉可以判断某些事情并不是某些对象的舒适路径,并且由此否定掉一些可能性。这个判断标准其实并不新,它有别的名字:例如资源充足国家的“资源诅咒”(或称为荷兰病);大公司很难发展与自己主营业务冲突的新业务的“创新者的窘境”。只是我这里把它扩展为一个更泛化的表达方式。
有资源、有想法、敢冒风险的人才是更加难以预测的。值得庆幸的事,在当下的社会中,这样的人很少。所以就让我们更加可以去赌“他们会退回他们的舒适区”。当然需要提醒的是,这里的舒适是主观的,可以被一夜之间翻盘,例如NotebookLM的Audio Overview功能就快速改变了很多有资源的主体的最舒适路线。
这种舒适是一种相对比较,当组织走投无路时才经常会启用一些重大的变革,这些变革路线本身并不舒适,但其他的路线要更加的不舒适。
当然大中型组织并非一个整体意志,不同的位置有其自己的最舒适路径,而这些路径经常并不相同。
A、结语
本文在构思阶段是希望做一个更完整的回顾和对未来的展望。但由于时间问题拖进了年底的新产品频繁发布阶段,时间、精力和注意力更多地投入到新产品方面。
所以本文就只能分散成篇,思考过程是逐步的,我现在也不知道后续还会有哪些想法。
希望这个思考过程能给大家一些启发,引起一些新的思考。
欢迎与我交流讨论。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,获取联系方式请点击 -> 联系方式。
本文于2024.12.8首发于微信公众号和知乎。
知乎链接:https://zhuanlan.zhihu.com/p/11414982727