2025-03-25 00:21 广东
DeepSeek-V3更新,官方说是小版本升级,但实际上外国网友发现,DeepSeek-V3-0324用来写前端页面代码,甚至比R1更好用。
DeepSeek-V3 这版更新,会让大家重新评估基座模型的性能和泛用性,比如参考 Claude-3.5-Sonnet 就在去年更新了几次小版本。
这就让大家更期待接下来的 V4/R2 了。
湾区北美大厂员工交流要点:
1. NV的朋友告诉我们,他们也在试图集成DeepSeek做的优化方法。比如DS自己实现了10x效率提升,但对于其他厂商来说最终实际能做到的优化效果可能是5-6x
2. 比如谷歌朋友就表示DS的优化并不适合他们(训练用TPU而非GPU),以及对于AWS和META来说似乎DS这种降本优化也不是他们第一要务。(这里真实反映了中美AI逻辑的不同,也是腾讯业绩会上提到的一点)
3. 老黄作为CEO的第一职责:发现需求创造需求。比如宣扬的agent、physical AI(很合理,这是NV也是基建叙事目前最重要的事)
4. 头部实验室:模型“商品化”的更多是API,但模型厂商本身对模型的定义不一样,也取决于“智能”本身作为产品,未来达到什么水准。
5. 对于pre train是否“game over”了有争议,比如xAI会认为他们已经尝试过了收效的确不高,OAI会认为pre train scaling law还未停止。(个人感觉是定义不一样,ROI角度不行了,但必要性角度还是要推进)
6. Meta的大哥也明确表示,Meta ASIC距离N卡还有很大差距,每一代的perf per watt都是50%以上差距。而Meta自己看不到GPU需求的饱和,因为和其他CSP不太一样,Meta的user cases场景实在太多了...(这一点可以借鉴于腾讯,我们上周聊的腾讯阿里capex逻辑的不同)
周末有几篇文章关注度较高,一篇是Ben Thompson对Sam Altman的专访,另一篇是Alexander Doria对Agent的解读,我将结合这两篇文章以及相关的读物分享一些要点:
1、Agent依然是模型问题。目前绝大部分agent是基于「预先编排好的提示词与工具路径」构成的,Manus也同理,这类方案短期效果不错,但长期可扩展性差导致天花板十分有限。下一代真正的llm agent是通过「强化学习与推理的结合」来实现的,代表产品是OpenAI的DeepResearch。展开来说,agent会自主掌控任务执行的全过程,包括动态规划搜索策略、主动调整工具使用等。训练这一类agent没有人为预定义的提示,没有提前规定好的路线,只有奖励,以及获得奖励的方法
2、在过去两年的chatbot阶段,我们一直将“模型即应用”挂在嘴边,即模型能力的供给决定了应用过的边界,或者说模型层对应用层的蚕食一直在发生。如今到了agent阶段,这一行业特性并没有发生改变,ODR对于Dify、Coze等agent也会是同样的蚕食。因此,不同于DS出圈后大量认为「蛋糕会从模型层流向应用层」的观点,我个人依然相信模型训练的价值,我们现在看到的应用都还是AI大基建时代中的过渡产品,无非是将产品诞生的驱动因子从预训练向后训练转移
3、RFT的价值仍然被低估。Sam Altman在访谈中提到,GPT-5未来有望免费体验,除了最前沿的模型,大多数模型会很快商品化。Doria也在文章中提到,闭源大模型提供商未来将停止提供API服务,转而直接提供模型作为产品(如ODR类产品)。我个人认为我们正处于RL贡献模型层价值量的阶段,体现在以GPT-4.5为代表的基模不再惊艳,但以此为起点进行RL的推理模型还大有可为;体现在RFT成为构建DeepResearch类产品的核心技术,而非人工的提示词/流程编排;还体现在RFT作为一种更具前景的PaaS服务,正在被业内逐步重视,本周Predibase已发布了首个端到端强化微调RFT平台,帮助用户低门槛地使用RFT完成垂域模型训练
我们仍处于从chatbot→agent的初期。不可否认,今年是agent的第一个元年(未来还会有很多个元年,就像虚拟现实一样),我们现在处于探索agent形态和架构的阶段,但与此同时,我们看到agent对token的消耗量相较chatbot可能成百上千倍的增长(manus类任务一次课消耗数十万tokens),推理模型的API价格仍然谈不上便宜(o1-Pro的定价高达600美金/百万tokens),我们仍然需要更高效的芯片(Blackwell→Rubin),需要更便捷的RL训练范式(GRPO)、更好long-context能力、视觉推理能力、亦或是更符合AI调用习惯的数据接口等等。相信在今年下半年我们就能看到诸多上述能力的突破,这也包括接下来4月DS的新模型发布(模型公司每季度更新模型版本是正常节奏),让我们继续对AI保持期待吧。