原创孔某人 2024-12-29 17:11 北京

我们还在刚刚打开的下一代方案的门口，对里面几乎一无所知。

本文写于2024.12.29。

0、总结 vs 展望

现在是个到处可以看到年度总结的时间，但当下我的感受则是截然不同的。一方面是我已经做了一次（不够完整的）总结个人对大模型方向的认知回顾（1），但更多原因是我被12月发布的一些新成果所触动。

我意识到之前的技术墙已经后退了不少，开辟了一片新的空间。但我面对着茫茫的战争迷雾[1]则是感觉完全看不清一个中期甚至短期的可能性路线。最近一个月中，在被一个知名投资机构的大佬随机冷拜访的聊天中，对方很理所当然的期待我给出一个我眼中的明确的未来计划图景。但我却一点也不觉得“我现在看清了中期的未来”，也不觉得“看不清楚未来”以及“承认我现在还看不清楚未来”有什么问题，（但似乎对方对我的反应感到惊讶）。

[1] “战争迷雾”指的是在军事或游戏对战中，玩家（或指挥者）无法看到敌方部队或地图全貌的机制。换句话说，你只知道自己能够直接看到或探测到的部分信息，而敌方的真实位置、人数、意图等都处于“迷雾”之中。

即使是o1这一项，到底为我们打开了一个什么样的空间我仍然还没有一个大略的认知，我目前也没有看到任何在这方面任何人有给出什么深刻的认知。过去，LLM应用层的探索在我看来经常是领先模型层的，模型每3个月发一版，应用层的人可能只用1个月就已经大概清楚了新的技术能力。但在2024年下半年，这个经验已经逐步不成立了，大家对于Sonnet能力的认知就已经开始大幅延迟，并出现分裂。而o1-preview发布后应用层的反应开始反映出应用层的人在整个GenAI的技术发展中成为瓶颈，而这个问题到了12月o1正式版发布之后，变得更加显著了。

当然本文默认讨论的都是如何应用模型，而非如何构建模型。模型层的人虽然构建了新一代模型，但这并意味着他们对如何应用o1的认知就好于应用层。目前OpenAI对o1的优势宣传角度就能看出这一点，宣传点仍然是“高级推理”、STEM（科学Science、技术Technology、工程Engineering、数学Mathematics）与编程。但如果我也认为是这样的话，就不会有这篇文章了。

在我现在的视野中，现在并不是2024年的结束，而是新技术环境的开始，而我和我见到的人在此方面还知之甚少。

1、关于o系列模型的主观感受

1.1、关于prompt

本文对模型的讨论默认都是以o1正式版为例来谈的，也会适用于o3。（目前国内的几家推理模型的追赶者放出的方案目前还无法与o1相比，我相信他们大概会在半年后追上，但他们目前还是没追上的。）如果读者没有用过o1正式版和o1 pro，那么可能无法理解本文到底在说什么。

在今年7月的时候，我仍然把“人自己不会说话，无法表达清楚自己的具体任务”作为LLM应用构建中遇到的最主要问题之一。2024年 Agent构建思路进展。但现在我已经没有这样的感觉了。当然这句话有条件，我相信我的prompt能力强于普通人，普通人可能仍然面对这个问题。但确实现在没有再遇到那种“哦，我这里没表达清楚任务，我再想想怎么表达”的感觉了。

当然这并不是说模型可以凭空猜出你心里的小九九、能够猜出你面对的环境，环境信息仍然是需要的，但这不是之前那种需要反复强调“要说清楚话”的方向了。现在有了一个更准确也更共识的叫法——（任务的）context。我最近已经在多个地方看到大家也有类似的观点和说法。

1.2、推理模型创造了什么？

传统的LLM更像是一种知识和信息压缩器，虽然它能泛化出一些能力，但如果你专注于在LLM的能力边界上构建应用，那么你会同意LLM只是过去信息和知识的使用工具。虽然我们可以靠指定CoT具体步骤来让模型做一些原有经验之外的事情，但大部分做这个开发的人不会把它描述为产生了什么新知识。

但当我们使用o1正式版、特别是o1 pro的时候，不再是这样的感受了。一种直观的想法是“推理模型是否创造了新的知识？”，而我目前会使用一种稍有不同的方式来描述它：

当一个人或者智能物体被投入到一个新环境（context）中时，它需要一个探索的过程来了解这个环境，得到一些关于这个context的事实，以及可能构建了一些针对于这个环境的认知捷径，或者说抽象的经验。o1模型的表现就像是它已经可以自动地做这个探索并得到一些经验和结论了，只是它仍然不能长期记忆。而在这之前的模型在这方面的表现很弱。

我猜本文的读者中，在没有用过o1的人中，大部分看了这段仍然不能很好的get我的意思。就像是“大部分互联网人知道[赋能]的大概的意思，但不明白到底[赋能]的程度应该有多强”一样。但我也只能描述到这里了，这个解释只能让已经体验过它的读者有一个更具象也更抽象的理解框架，来替换那种说不清楚的模糊的感觉。

1.3、未知的边界

大部分时候，我们对于LLM能力的认知都是“它是低于人类的”。虽然在广度上好于单个的人，但每个单个的人在使用LLM的时候都感觉它是弱于自己的。对于需要用LLM来构建应用的人来说，用“笨的要死”大概也不为过。

但是当模型进展到o1的层面时，模型给人的惊讶和触动的频率已经足够高，可以扭转用过它的人的直觉了。它可能是完成了一些你自己觉得也不是大概率能完成的任务，或者是给出了一些显著超出你期望的回答，而不仅仅是之前它擅长的知识检索。之前的LLM很偶尔的情况下也可以有类似的效果，但现在量变引起质变，模型交付“惊喜”结果的频率已经高到无法无视了。

在短期的思考和推理方面，LLM正在接近和超越人类水平中线。

之前我会觉得很多场景LLM自己独立做不了，要么靠人工固化workflow，要么需要做一些复杂的设计、投入大量的研发成本。但现在我已经不这样觉得了。

2、推理模型与Agent

2.1、推理模型自身

o1模型在推理阶段的运行方式其实已经很像是一个简单的Agent，只不过是模型厂为了这个推理特化训练过的模型。而推理模型本身还可以进一步发展和复杂化，借用更多通用Agent策略框架层面的设计，来增加更多的能力。

2.2、通用Agent的可行性

对于之前的模型，不少应用层的人都觉得它距离做出一个可落地的通用场景Agent有着非常大的鸿沟。我之前也是这个派别的支持者。

但是o1模型让我觉得似乎也可以尝试去做一些通用的Agent了，虽然受限于很多限制，应该还无法落地一些长期的自动探索任务。但它看起来有希望去做一些真的通用的Agent了，它可以自己scale，而不是靠开发者为每个领域构建workflow。

2.3、新Agent时代？

12月在与张无常线下聊天的过程中，他总结出一个视角“现在不少场景的开发过程中，虽然本身不是为了做一个Agent，但做着做着发现最后就是在做一个Agent”。当时我对这个表述是有一些不认同的，但好像没有能反驳的点。但是在我思考和探索LLM和o1模型能力边界的过程中，我发现确实可能在朝着这个方向演化了。

未来半年到一年，GenAI的一个主要发展点就是o1类模型的能力快速发展、（同能力下）成本快速降低，如果想要借上这个势能，就大概是会更倾向于做一些更通用的设计，可以跨领域通用。而这就已经该被归类为某种通用Agent了，虽然它仍然不是一个真通用，仍然有自己的限制，但相对于“过去”的LLM应用方案来说，它确实突破了一个维度，实现了某种意义上的更通用。以及当你尝试使用这样的通用模型时，能够采用的设计很多也是很类似于之前通用Agent方向的一些方案。

无论是为了更好地使用推理模型，还是为了做一个更通用的方案，似乎都在朝着通用Agent方向进发。

3、Context

3.1、Context获取能力的瓶颈

本文的Context并不是Long Context中的那个技术概念，而是指任务的场景信息。

在过去，LLM能够理解的指令有着明显的复杂度上限，大家倾向于简化问题，减少Context。但从Claude 3.5 Sonnet开始，这个限制已经基本消除了，当你放手向prompt中注入更多Context时，模型的表现比（已经习惯旧LLM的）你原本预期的要好。

而在Claude 3.5 Sonnet之后，LLM对于Context的利用能力仍在快速发展，所以才有了Apollo Research所发现的那种安全性问题。对Apollo Research AI安全报告的解读与评论

在以o1为baseline的现在，已经可以说，LLM应用对于用户场景Context的获取能力已经成了最显著的瓶颈，可能没有“之一”。

3.2、Context的获取途径

指望用户文字录入大量context是不可能的，有点To C产品设计的常识就能明白这点。不明白的团队在过去一年多中也已经深刻认知了这点。

现在获取Context的一个主要手段已经是与用户的场景应用结合，例如：

百度云盘、Google、Mircosoft等可以通过直接引用用户线上账号中的多模态文档来作为Context。

Cursor/Windsurf直接构建了一个新的IDE产品来获取用户开发过程中的context

ChatGPT App可以获取PC上一些应用内的信息作为Context

Claude和ChatGPT可以把用户PC上的界面截图和视频流作为Context

Cursor并不是只靠这点就成功的，但这点确实是它成功的核心原因之一。好产品需要几个长板，而不只是一个长板。

3.3、语音输入？

我们知道用户很不习惯录入较多文字来完成一个具体的任务。那么语音输入又如何？

如果你观察过不熟悉Chatbot产品的用户使用语音输入或者语音交互，你可能会意识到用户面对一个录音设备，也是很难得到一个包含足够信息的表达结果。用户并不是电视剧中的法医，开一个录音就可以滔滔不绝说清楚所有信息。

人类可能并不擅长[首次]表达一个问题或者需求，当一个人多次表达时，他可以不断的做得更好。但AI应用大概率面对的是用户的第一次表达。

问题不只是用户是在第一次尝试表达，很可能他也是第一次在认真思考他的问题，在表达的过程中发现自己思考的空白。主动思考探索也是个成本很高的事情，与人一起思考讨论要容易得多。

如何才能更好地探究用户的需求和场景？人与人之间的交互可以回答这个问题。

简单来说，需要一个人对用户进行采访，把“让用户主动总结完整”变成“让用户回答问题”。任务描述阶段的AI语音采访是一个不错的方式。即使不是语音交互，让LLM通过文字来采访用户搜集信息也是很有效的方式，Anthropic官方也提过这样的方式。Anthropic官方2024.9 深入探讨prompt工程 | 中文版 (01:10:22)

A、结语

本文就在此戛然而止了。可能很多读者会感觉意犹未尽，但这些就是目前我看到的。而我面对茫茫的战争迷雾仍然没有一个整体的认知。这也就是我标题想表达的：我们还在刚刚打开的下一代方案空间的门口，而对里面几乎一无所知。

如果你对此也有一些思考，欢迎来找我一起讨论和展望。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请私信联系，获取联系方式请点击 -> 联系方式。

本文于2024.12.29首发于微信公众号和知乎，知乎链接：

https://zhuanlan.zhihu.com/p/15316969032

跳转微信打开