↓↓↓设计师得懂得视觉语言,理解空间规划;文学编辑得理解语义空间,懂得搜索和引用信息;工程师得有严谨的决策和推理能力。
潘神给我解释。啥是“统计性理解”和“本质性理解”嘞?我给你举个例子。假设三体人派质子来到地球研究我们的生活。他们偷拍了 1 万张日常照片,发现了我们会在一起吃“生日蛋糕”↓↓↓因为现在的 AI 训练方法的基础是统计学,所以 AI 对世界的理解也是“统计性理解”,而非“本质性理解”。
然后用三体星球上现成的原料,照猫画虎把这个东西做出来:这种玩意儿大概率是矮圆柱形,滑滑腻腻的,插着一些可燃物。
他们于是又一顿忙活,从更多的数据里总结更多特征,改进了自己的蛋糕。这回从里到外都更像地球的蛋糕了。在里面是一坨软软的带有空洞的物质,外面才是滑滑腻腻的材料。
但是!这里隐藏了一个让人脊背发凉的大问题:就算三体人再拍 1 亿张生日蛋糕的照片,把蛋糕做得再惟妙惟肖,只要他们来不了地球,无法亲自品尝,他们就永远不敢肯定自己的蛋糕和地球蛋糕的味道是完全一样的!完全存在一种可能:我们放的是糖,他们放的是盐,我们放的是蛋糕胚,他们放的是发泡塑料。。。残酷的事实是:在特定的数据采样体系下,有些本质是不会展现出统计学特征的。也就是说,“统计性理解”原则上能不断逼近“本质性理解”。但推到终极,你却无法证明“统计性理解”达到了“本质性理解”↓↓↓1、学生不是想学啥就能学,而是只有本体的某种性质展现出了统计上的特征,才能被学生注意到,才能被学会。2、随着描述本体的数据不断增加,可能会有新的特征凸显出来,学生学到的特征越多,表现就越接近本体。
打个比方:快思考就像一把火,短暂而绚烂地燃烧;慢思考就像一条河,带着小船时急时缓地漂流,一段时间后才奔流入海。↓↓↓你在丛林里遇到一个长条形的东西,形势容不得你花时间分析它到底是啥。快思考会在第一时间输出“危险”这个信号,给你的指令就一个字——跑!等你跑开了一段安全距离,慢思考才跟上来。你可以详细观察这个东西的纹理、动作,然后综合判断它到底是蛇还是翔,以决定接下来的计划。
你可以这样想象:一根火柴梗,上面能搭配很多火柴头。这样一来,所有的专家共用了一套语言逻辑中枢,也就是那个大模型底座。每个专家脑区只负责特定的思考,脑容量就能大大缩小,大概只有 1 亿个参数。1、每类任务都交给一个特定的“专家脑区”,平时把这个脑区外挂在大模型底座上训练;2、每次训练的过程中,把底座大模型的参数锁死,只改动“外挂脑区”的参数;3、训练好 A 专家脑区,就把 A 从底座上拔下来,再插上 B 脑区,训练 B 任务。
为了不下岗,保安必须得有环环相扣的逻辑推理能力,这在大模型技术中被叫做——思维链。(四)慢思考像一条河 如果你用过 DeepSeek,就不会对“思维链”太陌生。DeepSeek 在正式回答你之前,会走一段内心 OS,这个 OS,就是它的思维链。那么,只要用这个思维链思考, 就是潘神所说的慢思考了吗?他的答案是:No。掌握了思维链,就像学会了功夫。首先说,练过拳脚的人和没练过拳脚的人肯定不在一个量级,一打一个服气。这不,DeepSeek 利用思维链给出的回答,相比之前直觉大模型(例如 GPT-4o)的不假思索直接出答案,更加有理有据,令人信服。但功夫这件事儿,是分段位的。白带打不过黑带,黑带打不过红带,山外有山,进无止境。咱们不妨具体看一下 DeepSeek 的功夫,它的绝招是“反思”:你问 DeepSeek 一个问题,它会把问题拆成步骤,一步一步地往下推导。这个思维链原本像一条河流。小船自然地随着水势自然流淌,永远不会意识到自己在随波逐流,更不会“主动”倒船选择更顺的路↓↓↓一来,可能误伤好人,次数多了人家会投诉你,保安就得下岗;二来,坏蛋痛定思痛,下次乔装打扮得更好,你可能又给放进去了,保安还是得下岗!
第一级:类似于 GPT-4o 这样用直觉输出答案,是“快思考”;第二级:类似于 DeepSeek 和 GPT-o1 这样有向内看能力的思维链,可以叫“深度思考”;第三级:在反思型思维链的基础上,还能主动吸收外部信息,一边向外看一边想,才是更完整的“慢思考”。
这几种信息的来源也不同:通识一般以知识图谱的形式存在,专有数据在数据库里,实时事态一般要联网查询,工具一般要靠智能体去调用。潘神他们索性把这几种东西打包起来,做成了一个“外脑”↓↓↓1、精确的通识。比如:网络安全行业处理黑客攻击的《最佳流程手册》。2、专有的数据。比如:L 黑客组织,360 公司历年捕获到的它曾用过的攻击手法。3、实时的事态。比如:W 系统最新爆出的漏洞详情代码。4、工具的输出结果。比如:利用扫描工具检查网域内的设备后,绘制的网络地图。
DeepSeek 发挥稳定,答案很详细,但美中不足是例证较少。CoAT 的不同点是,它列举了几个具体国家的 AI 策略,并且提供了美国 AI 研究的具体项目和中国的“新一代人工智能发展计划”。之所以会有这样的区别,大概正是因为 DeepSeek 只在最开始的时候搜索了外部信息,而 CoAT 是在思考的每一步都通过外脑查询相关的信息,从而可以更具体。我们应该如何看待人工智能在当代国际竞争中的作用?哪些国家在这一领域拥有领先的优势?
所以,如何筛选和精简外脑的“信息水流”,是至关重要的。他们于是在每一条汇入的支流入口处,都加了一道“水闸”。这个水闸其实就是一个评估算法,来计算内容和已有思维链生成内容的相关程度。只把最相关最核心的内容放进主河流,其他的信息主动放弃,主打一个宁缺毋滥!↓↓↓在思考中添加外脑的信息,并不一定总是会让思考结果更好。
原因很简单,如果汇入的支流里面有泥沙,就会让本来一条清澈的河流变得浑浊。
360 的老师傅合计了一下,觉得这些研究对很多行业都有用,于是把一部分研究成果写成了论文分享了出来。这个操作很快引来了一些“自来水”。有人录视频、写文章分享他们对这个技术进展的解读。在网络安全领域,对思维链的聚焦度要求比较高,就可以决定只在关键节点汇入支流,汇入的水流也少而精确;而在其他领域,比如辅助写作,完全可以更多地汇入信息,每次加入丰富的数据,让结果变得更加发散,更有趣味。
现实很残酷,各个企业中的网络安全部门虽然客观上肩头责任重大,但一般却是公司里存在感最低的部门。老板天然更注重业务,谁愿意天天关注保安队呢?一般是哪种安保措施性价比高,人家就选哪种方法。未来,即使是这么严苛的标准,“大模型驱动的保安”也可能被挑中!有些任务大模型能干,小模型也能干,但小模型的性价比更高;有些任务小模型确实干不了,但人干更便宜,性价比仍然比大模型高。