孔某人的低维认知 04月09日
从高等动物的学习过程展望 RL post-training之后的可能路径
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文讨论RL是否是到达AGI的终极手段,LLM发展中RL的作用,高等动物学习与RL的差异,LLM领域的借鉴,动物选择性学习过程等内容。

RL系方案中回答由模型产生,通过reward筛选,具有高质量特性,是一种高质量SFT数据生产方式。

高等动物的学习并非单纯RL,如人类、灵长类、犬类等能表现出选择性模仿学习能力,涉及因果推理与意图理解。

LLM的post-training和微调阶段可借鉴选择性学习,让LLM自己进行反思并改写回答,交给reward评价。

动物的选择性学习过程包括定义、生物学基础、相关科学研究和实验案例、与因果推理和意图理解的关系等。

原创 孔某人 2025-02-17 12:21 北京

RL并非终点

本文试图讨论几个话题:

1、LLM post-training阶段中RL的作用

在正文开始之前稍微展开一下本文的视角如何看待RL阶段的作用。

上表来自DeepSeekMath论文,只看Data Source一列其实已经展示的比较明确了。传统SFT需要问题prompt(对应于表中的q)和结果回答(对应于表中的o),而RL系的方案“基本”只需要问题prompt和reward function,原本SFT中的结果回答是从模型本身生成的。

SFT需要“高质量”的数据已经人尽皆知,但什么算高质量呢?我现在使用的标准是“能提升模型能力或效果的数据”。但这个标准是后验的,有什么特征可以事先判断呢?我认为有一个必要条件是“数据的token模式比较贴近模型的习惯(数据分布)”,这与教一个人最好的方式是以它习惯的思维框架来进行教授是一样的。我们需要最小化非目标性的修改,只修改模型/认知中我们需要的那部分,而尽量不要去强迫修改其他非必要部分。如果我们微调一个模型是为了解决某个问题而不是让其回答完全符合某种八股文,那么就应该只关注语义的部分,而不是措辞细节。

在这个角度上,RL系的方案中,回答是由模型自己产生的,只是通过reward筛选出了我们希望的回答。这些回答本身就比较符合模型自身的习惯,它相对于其他来源的数据来说更符合该模型的习惯,也就是具有某些“高质量”的特性。

以及本身RL探索并经过reward验证的结果就是相对高质量的数据,现阶段的post-training RL就可以看成是一种高质量SFT数据的生产方式。

2、高等动物的学习并非单纯RL

人类、灵长类、犬类等都能表现出选择性模仿学习的能力,即指选择示范个体所展示的部分动作进行模仿,甚至可能换用其他方式实现类似的过程。这体现了两个能力:因果推理与意图理解。这两者在机器学习领域中的对应是:Causal Inference、Inverse RL。

以GRPO为代表的RL过程仍然是在力求精确地重复高reward回答,即使其中包括一些无用的探索。而选择性模仿明显与此不同。所以说“目前post-training RL方案达到了生物的终极学习方法论”是不对的,仍然有明显的距离。

这是一个挺有意思的现象,可能不少读者对动物的选择性学习能力并不熟悉。我在本文末尾的附录中放了一个更完整的介绍。

3、LLM领域如何借鉴

LLM的post-training和微调阶段是否能够从中借鉴呢?看起来并没有不可逾越的障碍。

意图理解靠LLM模型自己是可以进行一些分析的,而且靠reward function还可以进行验证。因果推理在LLM推理模型语境下是判断一个中间过程对结果是否有用,这靠LLM自己也可以进行某种程度的判断。

从另一个角度,这似乎很像是在生成了一个回答之后,让LLM自己就某些目的进行反思,例如:是否可以优化过程以改善结果,是否可以剔除不必要的部分。然后再将其改写生成一些新的回答,这些新回答仍然可以交给reward进行另外的评价。

从贴合模型固有分布的角度来看,改写应该尽量使用原模型。但原模型的能力和准确性未必是最好的,也应该考虑在改写前的评价阶段使用其他最强模型。

这似乎有一点SuperAlignment的意思了。

A、附录  动物的选择性学习过程

(本节是由我和OpenAI Deep Research共同完成的。)

选择性学习的定义及生物学基础

选择性学习指动物在社会学习(通过观察或与其他个体互动进行学习)的过程中,并非不加区分地模仿所有观察到的行为,而是有选择地学习特定的信息或行为模式。这种选择性是生物进化的结果:理论模型表明,社会学习如果毫无选择就盲目模仿,往往并不利于适应,个体应当进化出某种策略来决定何时以及向谁学习[1]。事实上,在自然环境中,由他人提供的信息可能过时、不准确甚至有害,因此动物需要判断哪些信息值得采纳[2]。例如,许多物种表现出“社会学习策略”,如“在不确定时才模仿”或“模仿多数派”等,从而避免因为采纳错误信息而付出代价[3]。

在神经生物学层面,科学家发现了一些支持选择性学习的机制。其中一个重要发现是灵长类大脑中的镜像神经元系统。这类神经元最初在猕猴的大脑中被发现:研究人员记录到,当猴子执行某个动作(例如伸手去拿食物)时,脑中的特定神经元会触发;而当猴子观察另一个个体(猴子或人)做出同样动作时,这些神经元也会被激活[4]。镜像神经元的存在表明动物大脑可以将观察到的行为与自身动作相对应,在神经层面为模仿学习提供了支持。有学者提出,镜像神经元网络可能让观察者对他人的行为进行内部模拟,从而帮助理解该行为的目的和意图[4]。这意味着选择性学习在一定程度上有神经基础:动物的大脑能够对观察到的社会信息进行筛选和理解,提取与自身行为调整相关的重要线索。

[1https://pubmed.ncbi.nlm.nih.gov/15161136/[2https://pmc.ncbi.nlm.nih.gov/articles/PMC4840934/[3https://lalandlab.wp.st-andrews.ac.uk/files/2015/08/Publication137.pdf[4https://en.wikipedia.org/wiki/Mirror_neuron

相关科学研究和实验案例

大量实验证据表明,选择性学习在动物界非常普遍,不同物种都会依据环境和社群线索来决定学习什么、向谁学习。灵长类动物的研究尤为丰富。例如,对黑猩猩的实验发现,它们在社群中存在多种社会学习偏好:黑猩猩往往倾向于模仿群体中地位较高或更有经验的个体,当自身对任务感到不确定时更可能去模仿他人。换言之,黑猩猩会“模仿有权威的榜样”以及“在不确定时求助于他人的经验”,这些偏好符合进化论对社会学习的预测,即自然选择会塑造认知偏向,使动物倾向于向成功或可信的对象学习[5]。

又如,在鱼类中也观察到了选择性使用信息的策略。九刺针鱼的实验显示,当鱼对自己获得的觅食信息不可靠时,才会依赖从其他鱼那里观察得来的信息;如果自身已掌握可靠知识,它们则无视旁观获得的次要信息。这种“有不确定才模仿”的行为被认为是动物常见的社会学习策略之一。类似地,实验室研究还发现大鼠在自身尝试新食物导致不良后果时,更倾向于模仿其它同伴的觅食选择,进一步印证了“不确定时才依赖社交信息”的模式[3]。

除了选择何时模仿,动物也会选择模仿谁。例如,黑猩猩群体中观察到的“模仿优势个体”偏向,使得年轻或地位低的个体更关注高阶层成员的行为。这一偏向可能导致某些创新行为(通常由低阶层个体引入)不易在群体中传播开来,因为大家更愿意跟随权威个体的示范。这被用于解释野生黑猩猩不同族群间文化传统的差异:各群体倾向模仿自身族群的高地位成员,而较少学习外来个体的创新,从而在邻近环境相似的群体间仍保持不同的工具使用传统[5]。

犬科动物中也有引人注目的选择性学习案例。研究发现,家犬在观察同伴或人类的行为时,会根据情境调整模仿程度。例如,一项经典实验训练一只母犬用爪子拉动杆子打开装有食物的容器(狗通常本能上更喜欢用嘴)。当其他狗观看这个示范后,它们是否模仿使用爪子取决于示范者当时的情境:如果示范犬嘴里叼着一个球(也就是无法用嘴,因此不得不用爪子),观测的狗往往直接用嘴去拉杆取食,而不照搬示范动作;但如果示范犬在示范时嘴是空的(也就是它有意选择用爪而非嘴),观测者就会完整模仿用爪子的动作。这一现象表明,狗并非盲目复制同伴的行为,而是会考虑动作背后的原因,选择性地决定是否需要精确模仿。研究者将这种行为称为“选择性模仿”,这是动物中首次发现与人类幼儿相似的模仿模式。这一发现意义重大,表明犬类经过驯化演化出了与人类类似的社会认知能力,在模仿时能够考量他人的意图或限制[6]。

[5https://pmc.ncbi.nlm.nih.gov/articles/PMC4820294[6] https://www.sciencedaily.com/releases/2007/04/070426145103.htm

选择性模仿学习与因果推理、意图理解

选择性模仿学习与动物的因果推理意图理解密切相关。由于选择性模仿要求区分出哪些行为细节与最终结果相关,哪些只是无关的多余动作,这实际上需要一定程度的因果理解。举例来说,在前述黑猩猩的实验中,当提供给黑猩猩一个包含多余步骤的“谜盒”任务演示时,黑猩猩能够在看清机制后忽略那些与取食结果无关的动作,直接采取最有效的手段完成任务;相比之下,人类儿童即使明知某些步骤多余,仍倾向于把成人示范的所有步骤都一一模仿出来。儿童的这种过度模仿(over-imitation)现象被认为与人类特有的文化学习机制有关,而黑猩猩更倾向于仿效结果(emulation)而非逐步模仿,这表明黑猩猩具备一定的因果推理能力,能够辨别哪个动作对实现目标是必要的[7]。有研究总结指出,无论是人类还是类人猿,其实都拥有模仿和仿效等多种学习“策略组合”,会根据情境灵活切换。当观察他人行为时,它们可以在严格复制动作和只关注最终效果之间选择,这种灵活性体现了对因果关系的分析和判断[8]。

选择性模仿还意味着观察者在学习时会尝试理解示范者的意图目标。上述家犬的研究正是一个很好地说明意图理解的例子:狗能够根据示范者是否有能力使用嘴这一线索,推断出示范动作背后的意图或约束,从而决定自己的模仿策略。当示范犬有明显的肢体限制(嘴被占用)时,观察者犬认识到示范者并非有意选择爪子,而是出于无奈,因此直接选择更方便的嘴来操作;反之,当示范者没有外在限制却仍选择了非常规的方法,观察者犬便推测其中可能有原因,因而忠实地再现同样的方法[6]。这种行为表明狗在模仿时进行了意图推理:它们区别对待“示范者被迫如此”与“示范者有意如此”,只有在后者情况下才严格模仿。这与人类婴儿的“理性模仿”十分类似。除了犬类,黑猩猩等灵长类也展现了一定的意图理解能力。实验显示,黑猩猩能够区分人是否“故意不给食物”还是“想给但因故无法给”:当遇到“不愿给”的试验者时,黑猩猩会更加急躁并更早离开测试区域;而面对“想给但不能给”的情形时,它们表现得更有耐心。黑猩猩对这两种情境做出显著不同的反应,说明它们理解他人行为背后的目的性差异[9]。这类发现表明,一些高级动物具备初步的“心理理论”(theory of mind),能够在观察学习中考虑他人的意图和知识状态。

在神经科学方面,选择性模仿与因果/意图理解也得到了一定映射。如前文提到的镜像神经元系统被认为在理解他人动作目的上发挥作用——大脑中这些神经元对他人行为的响应,可能让观察者“身临其境”般理解该行为要实现的目标[4]。有研究在猕猴顶叶发现一些镜像神经元会根据观察到的动作后续可能实现的结果而调整活动,即神经元对相同的抓取动作但不同目的(比如抓取是为了吃东西还是为了放到容器里)表现出不同反应。这种差异被解读为神经元层面的意图编码[10]。因此,从认知和神经两个层面来看,选择性模仿学习都涉及对他人行为因果关系的分析和对意图的理解,这使得模仿行为更有针对性和效率。

[7] https://andamaninspirations.com/2019/12/09/chimps-children-the-copycat-conundrum/[8] https://pmc.ncbi.nlm.nih.gov/articles/PMC2865074/[9] https://pubmed.ncbi.nlm.nih.gov/15484596/[10] https://journals.physiology.org/doi/full/10.1152/physiol.00004.2008

逆向强化学习

逆向强化学习(Inverse Reinforcement Learning, IRL)原本是机器学习领域的概念,指通过观察智能体的行为来反推其背后的奖励函数或目标偏好。简单来说,就是从结果推测“这个行为是为了达到什么目的”。有趣的是,动物在社交情境中的一些学习过程与IRL十分类似。当一只动物观察同伴解决问题或获取奖励时,它并非仅仅记住对方做了哪些动作,更可能是在推测“对方这样做是为了什么”以及“这样做值得吗”。这实际上就是在根据观察到的行为去推断行为背后的目标或动机。例如,黑猩猩看到同伴采用某种方法获取食物时,可能会推断“TA这么做是为了拿到食物”这个因果关系,并据此决定自己是否也采用同样方法;再比如,前述犬类的实验中,观察者狗通过看到示范犬的行为和处境,推断出了示范行为背后的隐含原因(奖励目标仍然是获得食物,但方法选择受限于是否叼球),从而选取相应的行动方案[6]。在这些过程中,动物实际上完成了类似于逆向强化学习的心智操作:它们从别的个体的行为出发,逆推了该行为想要实现的目标约束条件,并应用这一推断来指导自身行为。

重要科学发现及当前研究趋势

对动物选择性学习的研究在近几十年取得了诸多重要发现,也呈现出新的发展趋势。在发现方面,镜像神经元的发现奠定了理解模仿学习神经机制的基础[4];灵长类和其他动物的模仿实验则不断刷新我们对动物认知能力的认识。例如,过去认为真正意义的意图模仿几乎是人类所独有,但犬类选择性模仿实验的成功证明了非灵长类动物也能根据对方行为的目的性来调整自己的模仿。这是科学上的一个突破,说明在长期驯化过程中狗演化出了类似人类幼儿的社会学习技能[6]。再如,黑猩猩与人类幼儿对比实验中发现的儿童“过度模仿”现象,揭示了人类在文化传承上的独特策略:儿童往往会不加筛选地复制成人示范的所有细节,即便其中一些步骤与任务无关。相比之下,黑猩猩等动物更多地进行选择性模仿,只复制必要的步骤[7]。这种差异被认为与人类复杂文化的累积有关——过度模仿虽然在效率上不如黑猩猩的选择性模仿,但有助于保证知识和技能的忠实传承,从而推动文化的积累和演化[8]。这些发现共同深化了我们对动物社会学习能力谱系的认识:动物和人类在学习机制上并非截然不同,而是在选择性和忠实性之间有所权衡和平衡。

当前,该领域的研究正朝着多个方向拓展和深入。其一,研究对象更加多样化。过去研究多集中于灵长类和啮齿类等少数物种,如今鸟类、鱼类甚至昆虫的社会学习能力都受到关注,科学家在越来越多的物种中发现了选择性学习的证据。例如,乌鸦等鸟类被发现会根据同伴是否可靠来决定是否跟随其取食选择;鱼类和两栖动物也展现出只在特定情境下才采纳他人信息的行为[11]。这些成果表明,选择性学习可能是动物界普遍存在的现象,只是表现形式各有差异。其二,研究手段日益综合跨学科。神经科学的进步使得我们能够记录动物大脑在观察学习时的活动模式,从中寻找选择性学习的神经编码;例如,在啮齿动物的观察学习实验中,研究者发现大脑奖励通路和海马体会协同工作,将观察到的他人经验转化为自己的学习[11]。与此同时,计算建模与人工智能方法也被引入该领域,逆向强化学习只是其中一例。科学家运用计算模型来模拟动物在不同偏好和策略假设下的行为,与真实数据比对,从而量化哪些学习策略最符合观察结果[12]。这种方法论上的创新让研究者可以更客观地识别动物行为策略,并预测在不同环境下动物可能的适应性学习反应。

其三,研究者正努力将微观的学习机制与宏观的演化模式联系起来。换言之,探讨选择性学习如何影响动物群体的文化演化。例如,上文提到的黑猩猩会偏向模仿高地位个体,这一偏向可能限制新行为在群体中的传播,从而使黑猩猩文化的累积创新受到抑制[5]。相反,人类儿童的过度模仿和从众倾向也许正是人类文化得以高度复杂化的动力之一[8]。当前的研究趋势之一是通过野外观察结合实验干预,深入了解动物哪些社会学习偏好有助于或阻碍了行为传统的形成和维持。这对于理解人类文化的独特性及其进化根源具有启发意义。

总而言之,动物的选择性学习过程是一个融合了行为生态学、认知科学和神经生物学的研究领域。权威研究已经证明,许多动物能够巧妙地决定何时以及如何向他者学习,在模仿时体现出对因果关系和他人意图的考量[6,9]。这些能力曾被认为是人类智慧的独有标志,但现在我们知道它们在不同物种间以不同程度存在。这一领域的持续研究,不仅加深了我们对动物认知和学习的理解,也为人工智能、机器人学习算法提供了灵感,并有助于阐明人类文化与认知演化的独特轨迹。[11,12]

[11] https://pmc.ncbi.nlm.nih.gov/articles/PMC6361711/[12] https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006122


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请加微信,联系方式请点击 -> 联系方式

本文于2025.2.17首发于微信公众号和知乎,知乎链接:

https://zhuanlan.zhihu.com/p/24207609753

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

RL 选择性学习 LLM 因果推理 意图理解
相关文章