按以往惯例是应该发“hello 2025,bye 2024”的文章了,不过这个标题感觉不太切合今天的主题,所以索性把标题改了。
在2024年其实我主要核心还是在呼吁(忽悠)大家:“大模式时代已来” ...
2024年我借给客户那培训机会,不断更新最后做了一个130来页的PPT《大语言模型在网络安全中应用尝试》,在我们内部讲了差不多4个多小时,随后也尝试通过大模型在代码审计方向的一些尝试又给大家分享了《大模型与代码审计》,当然这些目前都是内部分享或者客户培训使用如果有兴趣可以单独偷偷约:) 当然我也说过“AI一天,人间一年”目前的大模式技术发展实在是太快了,可能我之前的一些分享的东西在分享出来的那一刻可能就已经过期了...
唯一不变的可能就是“大模型时代已经来临,是时候要行动起来了”,所有的东西都值得在使用大模型技术进行重塑!
当然我也在朋友圈、公众号及直播的时候推荐过很多大模型的一些理解还有项目,绝大部分的都已经成为“炙手可热”的东西,让我比较欣慰的是不关是我们公司内部还是互联网上的朋友,我都看到了我忽悠还是可以说非常不错的效果的!比如我们404实验室小伙就有在报告漏洞挖掘、数据情报分析、自动化调用等领域都有非常有意思的应用尝试
另外我在2024年还有一个方向的关注在于大模型多模态领域应用,如数字人等的实际应用等,也成功忽悠市场产品等都应用上了效果还是非常不错的,以至于前几天还有朋友向我来取经,当然这个我是一般不会告诉大家的~
有兴趣的可以自行访问我的公众号阅读下我的历史文章,有好几篇文章阅读量实在是“惨不忍睹”,但是在我看来写得非常牛逼的文章,看起来可能还是缘分不够!
DeepSeek时刻
2025年开始 DeepSeek连续发布了v3/R1 火炸全世界,DeepSeek时刻由此诞生,而且火得非常持久,到现在还非常火爆!本来之前计划是单独写一篇DeepSeek的,不过这种非常火的东西其实很多东西都看到了,好像也没有太多的要写的,后面也因为我在直播时候也有一些朋友问过我,包括之前的一些媒体的采访我其实也聊了非常多,让我感觉该聊的都聊过了,也就没想着单独去写一篇了,不过后面发现发出来可能只是“只言片语”,而且我直播时候其实人气还是比较低的(需要大家多来支持一波我这个老网红啊),所以借这个机会在聊聊:
1、为什么是DeepSeek
其实我最早期待的是Kimi,下图是我在2024年发的朋友圈:
可惜Kimi始终差了那么点意思,可惜的让人心疼,因为在DeepSeek R1差不多同一天Kimi 1.5发布,从关注度上讲Kimi的存在感实在是有点低,低得让人心疼...
DeepSeek大火后,最受伤的可能是Robin,是个媒体都会拿他之前的视频进行无情的鞭打,在随后的宣布文心一言开源,自家产品全面拥抱DeepSeeK而达到高潮。
我之所以之前期待Kimi搅局其实就是对大厂的担忧,因为他们在意的根本就不是AGI,其实我觉得Robin也看到了这些问题,所以他能得出一个不可能再出现新的OpenAI这种结论,包括不看好开源,因为他知道资本的力量,也清楚资本家的想法!可以Kimi发展的时候也不得不被资本裹挟,而出现了一些插曲 ... 大家迫切需要的是大模型技术的变现!即使是OpenAI也一样面临着这些问题,包括当年的分裂逼宫。
所以其实是理解Robin的,只是大家忽视了一个问题,前面看到的如果是初创企业比如是技术型驱动的然后去结合资本,比如Kimi这种类型的,这种有一个问题就是资本进来后很可能被主导,然后就是大厂,大厂的本质其实不是在大模型而是做应用,包括豆包、文心一言等,他们有钱,需要的是结合一些合适技术,这里一个核心的点就是技术与资本是分割的!
而DeepSeek其实属于一个另类,他本身就是资本与技术是一体的!所以我觉得可能这个为什么是DeepSeek的一个核心的点,其实我们再看看OpenAI其实也是一个另类,当时大家也纠结过为什么不是Google而是OpenAI,当时OpenAI得出发点是打破技术垄断的NPO(非赢利组织)而诞生的
2、DeepSeeK为什么会火
这个问题其实在当时DeepSeek火出圈的很多人问我,因为很多人可能觉得是大家只是“爱国情怀”一过性的起哄导致的,但是实际性几个月过去了还是那么火,当时我在朋友圈的回答如下:
因为问我的这些人基本上都是使用过ChatGPT、Claude等一线模型的用户,觉得测试效果下来很多DeepSeek还是有一些差距的,在我看来DeepSeek大火的一个最大的原因是“性价比”,这个也是我前面接受“时代周报”记者采访核心表达的一个观点。
实际上我们ZoomEye调用DeepSeek是在DeepSeek大火之前,那个时候应该还是v2,而我们选择DeepSeek的一个核心就是他们提供的API非常便宜“性价比”非常高,当然这个时候还只是API,还没有多少人关注DeepSeek,至于效果对于我们的场景(规则转化)当时的DeepSeek已经足够了。
当然我这里说的“性价比”不只是价格的问题,还有“门槛”的问题,不要小看了这个门槛,比如被动或者主动禁止中国地区使用等等。实际上前面在跟媒体没有聊的时候,我就提了一个问题,为什么在ChatGPT等大火之后快3年了都还没有出现企业级应用的爆发?
所以这个时候DeepSeek V3/R1的带来“性价比”不只是之前的API调用,而是企业级应用的应用成为爆发的可能,当然这个取决于DeepSeek全面开源策略,导致了企业级的应用的“性价比”得到了接受,本地化部署对数据保护是企业级应用的主要核心诉求,所以随着DeepSeek的大火顺带也带火了大模型一体机(说到一体机,我们提供大量的算力方案及一体机方案 有兴趣的可以联系我)
其实在这之前很多企业级的应用大部分用的是qwen,其实qwen的效果还是非常不错的,只是没有形成DeepSeek这种出圈爆发,所以很多企业可能都在观望而体会不到本地化模型的性价比。
当然随着后续的技术的发展成本都会越来越低,比如最新的qwen QWQ 32b模型的成本又降低了不少~,所以“性价比”是企业级应用的核心指标。
3、DeepSeek开辟了一条新的“性价比”道路
DeepSeek震惊世界的一个核心就是“性价比”,打破了之前国外巨头固有的大力出奇迹的套路,可能很多人会想到一个问题,为什么DeepSeek会想到这么一条路径,以我个人的理解其实还是比较好理解的,其实在ChatGPT o1出现之前,很多专业人士可能觉得一味的提升算力已经到头了(事实上在后面所谓地表最强非推理模型的Grok3的效果也说明一味堆算力提升还是有限的),于是ChatGPT o1推出了CoT 慢思考模式让大家眼前一亮,用“时间换空间”的套路让大家看到了新的方向,也就开始出现推理模型的复刻,不过非常可惜的是OpenAI留了一手,不公开完整的CoT过程,我个人觉得正是因为OpenAI的这一封闭举措,导致的DeepSeek的爆发。
于是DeepSeek为了继续推理模型,他们先“蒸馏”了ChatGPT,当然“蒸馏”这个词一度成为很多境外势力攻击的DeepSeek的工具,实际上这个套路好像是Meta在搞llama模型的时候就用过,我一直认为“蒸馏”手段是降低新价比的非常好的套路,尤其是企业级应用,因为对于一个企业级的应用场景很多时候要的不是一个综合全能大模型,而只是需要某个专业细分领域能力的大模型,这样可以把通用模型的能力“蒸馏”过来,而不用在意其他领域的表现最终降低成本。
我们回到DeepSeek,虽然我不知道o1的CoT过程,但是我可以先把结果得到,然后通过这个结果再去学习训练这个CoT过程,这个时候就需要提到DeepSeek Zero这个模型,我先得说明下我这些都是基于我自己理解及分析不一定对,也就是目前有了问题和答案,但是没有思考过程,这个时候DeepSeek在下围棋的AlphaGo Zero得到灵感,在DeepSeek v3的基础上让进行强化学习,自己去学习推理,于是就出现了所谓的“啊哈”时刻,这个套路也被很多同行引用到其他模型或者方式中去。
其实我在做大模型在安全领域中应用的尝试的时候,我有个感受就是:网络安全的是一个综合型的学科,实际上需要的能力基础跟其他行业是一样的可以复用的,比如代码能力,对结构化数据处理的能力,这些都是网络安全应用的基础。而唯一不同的点可能是“思维模式”的不同,而这个在推理大模型中表现的就是CoT,比如我们写代码 与 找漏洞的逻辑是不一样的,有时候更多的可能是需要逆向思考,而目前大模型的应用大部分比较成熟的都是在智能编码上,而对漏洞原型及漏洞原理根因的学习训练可能是不够的。
我举这个例子是说明o1这种模型可能覆盖的思维链是有限的,而且是闭源的,所以DeepSeek Zero这种方式可能实现更多的场景的思维链,甚至可能做到某些专业领域的思维链,那他的效果可能就比原始的模型要好很多,事实也证明了有think模式的蒸馏模型要比原始模型的要表现好。
当然后续社区也出现了一些“邪门”的玩法,我直接借用DeepSeek的“思考过程”提交给其他模型,从而复刻不支持think模式的模型应有是思考模式,比如这个项目:
https://github.com/ErlichLiu/DeepClaude
当然也有DeepGemini等玩法。
这条道路也大大提升很多本地量化版的表现,从而提升应用部署的“性价比”。
所以如果说ChatGPT的出现是引发AI大模型技术的“关键时刻”,那么我觉得DeepSeek-v3到R1是属于中国的ChatGPT时刻,是全球企业级应用全面爆发的“关键时刻”。
也就是说:ChatGPT时刻确实主要推动了大语言模型技术的突破,吸引了大量开发者和科技爱好者,并在全球范围内引发了对生成式AI的热议与探索。而企业级应用方面,虽然ChatGPT也逐步进入部分商业场景,但其主要应用还偏向于实验性和消费者端,企业应用的深度和广度尚未完全爆发。相较之下,DeepSeek则聚焦于通过低成本高性能的技术路线,降低企业接入门槛,并通过开源策略促进技术普及和产业链协同,这为国内企业级应用的爆发提供了更大的可能性。因此,从这一角度看,你的想法是合适的:ChatGPT时刻更多推动了技术研发和技术社区的激活,而DeepSeek时刻则有望引发企业应用的爆发,加速AI在商业和产业中的深度落地。
上面这一小段其实是我把我的观点提交给ChatGPT o3 high的模型后给我反馈,说明他也是认同的。:)
邪门的Manus
这两天有个大火的项目就是Manus,可以说非常邪门,头一天莫名其妙自媒体狂吹,一天后又莫名其妙的很多人开始bs并吐槽。事先声明到目前为止我还没有真正体验过Manus,但是直播文章测评我倒是看了不少,整体给我的感觉还是不错的!当然从很多自媒体及官方演示例子来看实际上在之前的一些项目比如Claude Computer User,及后续的开源项目 Browser Use
https://github.com/browser-use/browser-use
其实在一定程度上是可以搞定的,甚至其实很多场景在Cursor上就可以做到,在之前我也实际体验过这些项目,对于Claude Computer User还做了一个提示词注入攻击的演示,并且看到Claude Computer User是Agent 2.0的开始
当然我也觉得跟DeepSeek大火一样,可能很多人在接触Manus之前可能就没体验过Computer User这些项目,所以从演示效果上看Manus再很多的场景还是有非常好的完成度的体验的,所以大可不必因为他们成功的营销手段而无视Manus本身产品的能力及效果。从他们官方宣称的The General AI Agent 还是做了很多过程化工作,才能办到这个效果的。
虽然没有真正体验过Manus,但是借用这个机会提几点:
1、工程化落地能力是大模式时代应用的核心
在文章前面提到的Robin的很多伤心往事,很多言论我觉得还是有道理的,只是不应该他来说,毕竟那时候熊场还是背负着大家对中国大模型的希望。比如Robin说过:“没有应用,AI模型一文不值”,让大家多关注应用,其实我这个是非常认同的,因为对于没有能力折腾大模型本身技术的人来说,大模型应用更加值得关注,所以我前面提到了130页的ppt就是基于这个视角来的,我也是一直关注在大模型在网络安全领域中的应用,所以为什么我一直关注最先进的模型,这能代表着当前最新模型能达到的场景应用适配的“极限”。所以在我ppt里大部分是基于ChatGPT的尝试,更多的是验证某个场景是否可行,而真正让我看到大模型应用希望的是Cursor,在我心目中Cursor是一个非常有代表性的真正的“杀手级”应用,也是真正的第一个“大模型重塑产品”标杆。
实际上我一直在强调一个理解:“Cursor不只是一个IDE”,他是一个大模型技术真正落地颠覆式的应用,一个大模型工程化落定的真正的案例,在Cursor的中其实结合了大量的大模型的技术能力落地,比如提示词工程技术、RAG、Agent等的综合体, 当然Cursor的核心场景还是在智能编码,不过也可以做很多其他的扩展,如果你真正理解了这些技术点实现,再加上对MCP的支持整合,可以做的事情就非常非常多了
我记得我最早忽悠大家使用Cursor的时候,很多人把Cursor的成功及能力完全归功到Claude模型上,我是非常不认同的!在这个问题上Manus也同样遇到了,甚至有很多人说Manus就是一个“套壳”,还有很多人站出来说用了几小时就复刻的Manus的,由此来表达Manus没有说明技术门槛,其实我觉得这些人都是对工程化、产品化能力的一种蔑视!就好像当年很多人都在BS我这种脚本小子一样(当然现在是脚本老子了),当然当年华山派也是那么BS剑宗的...
我昨天直播的时候还在说那些复刻的团队在Manus之前都干啥去了,推出Manus为什么不是你们呢?你们为什么要复刻呢?当然复刻的效果到底怎么样我也没办法评价...
我想说的是从演示的效果来看Manus跟Cursor一样也是做了不少技术的工程化融合,才能达到一定的效果。
2、Manus会不会塌房
这个问题也有几个朋友问过我,主要是我都没真正体验过也不好直接回答,不过我个人觉得他们这个模式可能的成本还是非常高的,从前面提到的Computer User、 Browser Use等项目来看,实际应用成本还是非常高的,这个也就回归到DeepSeek的“性价比”问题上,所以人说Manus是新的DeepSeek时刻我是不认同的,在我看来目前Manus的成本还是比较高的,虽然官方号称一个任务大概在2美刀的成本上,从目前的这种云端部署的成本可能就非常高了,另外从测评的效果来看一个任务也很多时候要跑几十分钟甚至几个小时,最后的效果还不一定可靠,所以在这个角度上来看“性价比”可能还不是很乐观,毕竟OpenAI的operator也只对200刀用户限额开放.
当然也有不少人出主意就是让Manus开源,允许本地部署 不过这个可能的性价比也需要去纠结,比如这种模式其实Computer User就是允许本地docker部署,这个时候依赖的模型的api成本,这种方式目前从Computer User Browser Use的效果来看也是比较有限的...
3、Agent 1.0 VS Agent 2.0
这个问题其实我之前已经写过好几篇文章了:
大模型时代已经来临!AI Agent 进入2.0时代,然而我发现我错了...
为什么在Manus里再次提到这个概念呢,这个是因为Manus的演示里把整体任务进行了拆解了n个小todo list这个让我想起了前面DeepSeek覆盖CoT的方式有点类似,如果在Agent 1.0时代大家都是定义好了“剧本”(工作流),所以agent 1.0时代智能就局限在你定义支持这几个场景之下,这个也就是智谱AutoGLM的套路,我第一次看到Manus的拆解todo 让我想起了可以把场景支持能力进行拆分后再组合,让它达到更加支持更多的场景的效果,这个为什么官方主打“The General AI Agent”,当然Manus可能也融合了browser-use、Computer User这类Agent 2.0的东西,这也是我在之前文章里提交的可能未来需要Agent 1.0 /Agent 2.0的结合更加合适。
另外在下面这个测评的文章视频里提到一篇文章:The Model is the Product
https://vintagedata.org/blog/posts/model-is-the-product
这篇文章提到的两种Agent模式跟我提到的Agent 1.0 Agent 2.0概念有“异曲同工”之妙!?
最后
“性价比”是大模型应用爆发的一个核心指标,现在大模型的能力不管是开源的还是闭源的,不管是满血版还是量化版,不管是微调模型还是RAG,不管是智能体还是AI Agent,都已经被验证这些基础能力及方案能满足很多的场景,唯一缺少的是工程化落地能力!安全领域里的应用亦是如此!
工程化落地能力是大模式时代应用的核心!
?发表于:中国 湖南