一支烟花AI 02月11日
从某些视角给AI gpt来一些底层质疑
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨大模型训练及AI相关问题,包括大模型预训练、调优训练、强化训练的特点,大模型按人类模式训练的要点,以及大语言模型的本质、缺陷和改进方向等

大模型预训练类似填鸭式知识填充,存在诸多弱点

调优训练针对指令跟随能力,强化训练学会解决新问题

大模型按人类模式训练需先有自我意识并主动学习

大语言模型本质是概率密度函数近似,存在多种缺陷

让AI具备强推理能力需融合系统化方法

原创 一支烟一朵花 2025-02-08 09:14 上海

之前会把大模型预训练阶段,类比为人类的小学生阶段,不断学习知识,但是还没有形成思维模式。此处的gpt=Generated pre-trained transformer,指的是“生成式预训练变换器”,不是openai大模型或chatbot。

首先说明: 

此处的gpt = Generated pre-trained transformer,指的是“生成式预训练变换器” 

不是指的openai的大模型或者chatbot。 

 

灵感起点

灵感依旧来自于群内的讨论。 

有群友在讨论大模型预训练、调优训练、强化训练三者之间的关系,并且把它们类比于人类的学习过程,这里复述一下。 

 

预训练:大致等于填鸭式的知识填充过程,等于是塞入了百科全书,考试题,数理化书籍等等很多东西。标志性的弱点在于,仍旧是“续写机器人”,它此时甚至还不会解题,不会对话,因为它并不知道自己要在什么时候开始解题,或者什么是问题,什么是回答。 

 

调优训练:主要是针对指令跟随能力的训练(也可能包含其他能力)。此时学会了问答,学会了解答题,证明题,写作文这件事情本身。 

 

强化训练:等于是毕业之后走向社会,遇到了自己之前不曾遇到过的问题。此时学会了如何面对和解决。 

 

将大模型类比人类

之前我会把大模型预训练阶段,类比为人类的小学生阶段,不断学习知识,但是还没有形成思维模式,以及解题这个动作。但实际上这是不恰当的。 

如果你仔细思考,你会发现,在预训练阶段结束时: 

- 大模型的知识储备非常大,远超一般人类(甚至超过几十个顶尖的成年人类)。 

- 大模型的指令跟随非常差,它无法对话,它只会接着你的话茬继续说;这甚至不如2岁的人类婴儿。 

- 大模型也没有边界意识,所以也不会有自我意识(自我保护,探索欲,求生欲),或是任何形态的价值观。 

这就类似于一个“有着巨型大脑的一团肉泥”(因为它不会回应,也没有自我意识)。 

 

如果我们观察调优和强化,我们会发现大模型的学习频度太低了。 

一般模型训练和发布的节奏是以月为单位的,有时候是年。但人类学习知识基本上是天,或者小时,就可以更新。 

当然,我们可以通过外部的知识库记忆体来解决这个问题。 

 

如果大模型按照人类的模式来训练

那么如果从仿生学的视角来看,大模型应该怎么按照人类的模式来训练呢?(是啊,如果讨论超级对齐,那是不是训练过程应该仿生人类的学习成长过程呢?奥特曼,伊利亚,我的两位朋友) 

 

首先,大模型必须先有自我意识,包括: 

- 认清自己和世界的边界,知道如何跟世界交互 

- 有自我保护欲望(比如知道自己部署在哪里,对于威胁自身的行为感到恐惧) 

- 有进食和探索的欲望;指的是维护自己的部署用虚拟机,给自己交电费;有自行探索外部信息的欲望 

 

其次,大模型应该通过逐步接触外部世界来完成学习,它应该主动发起这个过程,并且从世界拿到一定的反馈(可以是我们模拟给它的,也可以是它调用http api访问网络之类的)。 

在这个过程中,它能学习到的东西有: 

- 如何更好地跟世界进行交互(速度更快,使用的话术和名词更加确定) 

- 世界中的知识 

- 知识与知识之间的关系,也就是逻辑 

 

同时,比较重要的一点是,大模型应该能够在很短的时间周期内进行自我更新。 

这可能有几种方案: 

a 定期把接触到的知识,通过验证模型进行打分,然后进行周期性微调(可能是天级别的) 

b 外挂向量知识库,对知识库进行分级,存在升级和淘汰机制。这个方案的缺点是会比较慢。 

 

当然,后面这个大模型在训练毕业之后,要学会走向社会,要挣钱养活自己,那就是后话了。 

 

好的,所以本文总结一下就是: 

if LLM is not trained like a human's trained, how will it aligned to a human?  

 

(此处开始是宋老师)接着皮皮的文章我说点我最近的其他感悟:

大语言模型的本质:概率密度函数的近似

当前主流的大语言模型(如 GPT 系列)基于 Transformer 架构,核心是训练一个高度复杂的神经网络来近似语言的条件概率分布。 

具体而言,模型通过大规模语料的自回归训练(autoregressive training)来学习在给定上下文的条件下,下一个词元(token)出现的概率。 

其强大之处在于对语言模式和常见语义结构的广泛捕捉,但本质上并不包含可验证的逻辑程序,也无法显式维护多步推理中所需的独立状态或符号结构。 

 

 

为什么“决策树”难以被 LLM 内化

决策树的离散分支:决策树依靠对条件的离散判断(如 if-then-else),在每个节点都会产生完全不同的分支路径;LLM 则基于连续函数近似并在高维向量空间中演算,没有固有的“分支点”概念。 

状态持久化与记忆更新:决策树的每一个节点对应特定条件下的逻辑状态,必须在遍历过程中予以明确保存和更新。LLM 虽然拥有注意力机制(attention),但它更多是基于上下文的浮动加权来对输入信息进行重新表示,并不能像符号系统那样“记住”明确的离散状态索引。缺乏此种离散化状态使 LLM 很难进行精确的路径分歧和条件追踪。 

无可解释的内部推理:在传统的决策树中,每一步决策具有可解释、可审计的判定条件。LLM 生成序列时,内部权重和注意力分布并非可简明对应到条件分支上,因而出现所谓“黑箱”难题:其生成过程难以直接翻译成显式的、离散的逻辑演绎。 

 


LLM 在规划(Planning)上的缺陷:缺失目标驱动和因果推断

缺少全局目标驱动:在典型的 AI 规划中,如 STRIPS 或其他符号化方法,系统需要在目标(Goal)与初始状态之间找到一系列操作序列,这些操作序列会不断改变状态并朝着目标收敛。LLM 本质上只是一次次地在局部上下文中进行最可能词元的选择,缺少对全局目标的显式表示。 

 

缺失精确的因果模型:规划依赖对“操作—状态”转移的因果认知,需要知道执行某一步操作会如何改变世界状态。LLM 虽可在语义层面生成貌似有因果关系的文本,但这并不代表它拥有明确的因果计算图(causal graph)。对它而言,这些“因果关系”只是一系列在训练语料里高度共现的模式。 

多步推理的脆弱性:基于统计权重的生成模型在进行多步思考(如递归推理或长链推理)时易出现“幻觉”(hallucination)或前后矛盾,原因在于模型缺乏可维护的中间表示,用于准确追踪先前的逻辑假设或已做出的决策。 

 

谈“思考”与语言生成:仿真 ≠ 真正推理

语言生成不等于内在思维:人类观察到的流畅对话与连贯叙述常被误解为“思考”的证据,但LLM 的生成本质是对海量文本模式的精细化拟合。所谓的“思考过程”只是一种在语料中学到的表现形式(形式化的自然语言解释),并未内化成具备符号推理或可执行逻辑的过程模型。 

CoT、ICL 及 RLHF 的局限:链式思维提示(Chain-of-Thought)、上下文学习(ICL)与强化学习反馈(RLHF)等技术确实在一定程度上提高了模型生成“看似逻辑”的文本质量,但并未改变模型的基本工作原理:它仍然是基于条件概率的自回归生成器,而不具备真正的过程化推理与状态建模。 

“幻象推理”与归纳偏差:LLM 有可能产出高度连贯甚至带有“自洽解释”的回答,但这更多是训练过程中被动学到的一种归纳偏差(inductive bias),表现为在合适的上下文或提示下自动组合与迁移现有的语言模式,并非真正的创造性思维或演绎推理。 

 

 

“强推理”仍需系统化方法的融合

符号-子符号混合架构(Neuro-Symbolic AI) 

如果想让AI具备更稳健的推理能力或规划能力,就需要在神经网络的表征学习能力之外,引入具备明确逻辑与规则推理的符号模块。通过在外部使用知识库、决策引擎或可解释的因果模型,来补足 LLM 无法内在表示的离散结构。 

可执行的外部状态管理 

在解决多步推理和复杂规划任务时,可以将 LLM 仅作为解释器或语言界面,把真正的状态管理与推理交给可执行的逻辑程序或专门的推理引擎。LLM 通过接口与外部模块配合,使得系统整体能够更好地应对条件分支、执行日志和长期目标追踪。 

 

面向更通用智能的研究方向 

要迈向真正的“思考”与“推理”,学术界和工业界已展开多路径探索,包括模仿人类心智的“系统2”型推理、建立具备长期记忆组件的构架(如可微分神经计算机,DNC),以及在环境交互中累积经验的强化学习策略等。然而,这些路线都远未成熟,需要大量实验和创新来超越纯统计式语言模型的局限。 

 

大语言模型通过统计模式学习在语言表达上取得了突破性进展,但是它的内在机理并不能有效模拟人类所理解的“决策树遍历”、“规划”或“思考”。 

其生成的推理表象往往是对海量语料中相关模式的组合和插值,缺乏对离散条件分支、目标驱动的多步规划以及因果链条的真实掌控。 

当前的各种增强技术(CoT、ICL、RLHF 等)虽能一定程度上“修饰”输出,但并无法赋予模型真正的符号化推理或稳健的决策能力。 

 

要想让 AI 在更高级的认知层面上“思考”,仍需在架构和方法论上引入更深度的符号推理机制,以及与之兼容的可解释和可执行的逻辑框架。 

若仅依赖语言模型在概率空间中的插值与扩散,就如同期待镜子能诞生自主的想法——终究不过是镜中幻影。说白了人类对其产生意识投射也是自身的投射罢了,当然也不排除集合放大脑功能的其他作用。 

 

说下我的看法,一个是对于经典理论尤其是起到开山立派的理论值得在AI发展的每个阶段拿出来反复讨论和思考,就像皮皮和宋老师这样,对于越是觉得重要基础的内容随着实践,新理论,新模式和产业化的共同作用,会逐渐长出一条条新的分支,追根溯源加上科学的怀疑论证会对当下和下一步的发展有很多启发作用。 

那一篇篇经典的paper里更是要着重体现引用和出处,常看常新,常读常思,必有所获。在一个共识的基座上,1000个人中对Transformer,MoE等大模型局部细节会有1000种不同的视角和看法,这或许也是我们取得创新的原因之一。 

 

一支烟花会持续输出高质量AI干货,我们下篇文章见。 

 

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型训练 AI思考 语言模型 自我意识 推理能力
相关文章