
直播回顾

任 一 鑫
复旦大学计算机科学技术学院直博四年级学生,师从周水庚教授。
分享大纲
首先,我们将探讨“AI是否会失忆”这一主题,揭示AI记忆的奥秘与挑战。重点关键词涉及记忆领域,着重讨论AI的记忆与人类记忆的差异。
第一部分简要介绍AI的持续学习特性,分析其是否能够像人类持续学习新知识,并将已学内容应用于新的学习情境,不断积累知识以促进成长。第二部分关注AI的记忆机制,探索其与人类记忆是否存在显著差异。当前AI的记忆机制在某些情况下可能出现灾难性遗忘问题。第三部分将回顾过去AI记忆模块的设计,重点关注当前研究热点。为提升未来记忆模块的性能,探讨如何进行更新迭代。第四部分介绍AI技术的应用领域。


先回顾人工智能的发展阶段。附图清晰展示了近八十年来人工智能网络的发展历史。从早期简单的逻辑研究,到感知机的单位神经元,再到处理复杂问题的能力。在这一过程中,Geoffrey Hinton 的贡献尤为突出。他通过引入反向传播(Backpropagation)算法,显著推动了神经网络在大规模数据集上的学习能力。这一突破性进展在图像分类等任务中取得了广泛成功,并掀起了新一轮深度学习热潮。
尽管早期的神经网络在泛化能力和计算效率上存在诸多限制,随后发展出的核方法(Kernel Methods)为传统机器学习注入了强大动力。该方法的奠基人Vladimir Vapnik提出的支持向量机(SVM)及其背后的统计学习理论,在小样本和高维数据环境下表现出色,尽管计算开销较大,但其理论影响深远。深度神经网络的出现带来了AI领域的蓬勃发展,过去十年的深度学习取得了显著进步。

回忆当年观看Alpha Go与李世石对战新闻时的激动,这标志着AI在围棋智能领域的突破,使我们自豪的围棋智慧被机器掌握并超越世界顶尖选手。
当代的Deepseek模型和ChatGPT等大模型在日常工作中广泛应用。阿里的通义千问大模型及其下游应用,如自动驾驶和图像生成,为技术未来提供了充实支持。新兴公司开发的更优模型,通过图像分析甚至能推理出人类运动规律,令人震惊。

尽管取得多方面进展,当前AI是否足够智能仍值得探讨,许多人亦会认为尚不够智能。例如图灵在1950年提出的行为主义,用人机对话质量衡量智能水平。无法与人类区分对话的机器被认为具备智能。今年有文章评估,表明一些大模型可通过图灵测试,模拟人机对话,尽管结果令人印象深刻,但实际应用可能仍显不足,透露出更多问题。缺失了一个重要点,即定义过于宽泛。
1956年的达特茅斯项目中,几位著名科学家发表了他们的重要见解。约翰·麦卡锡认为该项目旨在探讨高层次智能的应用,强调处理符号和进行因果推理的重要性。科学家强调,高层次智能不应仅仅停留在简单分类,而应包括因果性和逻辑推演,例如数学题的内在逻辑,可以解决复杂问题。
然而,早期探索未能有效实现这些方面,后来的科学家对此做了深入分析。例如,Simon认为智能体在广泛环境中进行AI调整行为以达到目标。两位著名科学家Shane Legg和 Marcus Hutter也提出,评估智能体在广泛环境中实现目标的重要性。

AI是否能够在多样环境中学习是科学家们的疑问。事实上,现今的AI无法实现这一点。 几个实例可以说明这一现象。在监督学习领域,一个分类任务中显示两张图片及其标记,期望通过AI给予图片标签。然而在实验设置中,当任务只涉及两个图片分类时,AI表现较佳,而随着任务增加,效果显著下降,此时参数调整结果反而恶化。这在监督学习下的设定和强化学习领域中持续学习显得尤为关键。

在实践中,例如机器人应用于连续变化的环境时,挑战显著。一个四足机器人控制关节以适应走路环境变化,模拟不同板面摩擦系数的差异。尽管初期在特定地板上的学习不错,面对新环境,机器人易于滑倒,而人类可能会快速适应。实验结果显示,机器人错误率随地板变化而显著上升,传统Deep Learning效果逐步恶化。此现象归因于深度网络优化仅为一次性学习所设计,根据实验表明,无法实现类似人类的持续学习能力。

人类从小积累知识,快速迁移至实际应用,如驾驶车辆。这种持续学习不仅节约时间,还提升效率。人类具有不断学习新知识的功能及可塑性,同时能保持旧知识稳定结构以适用于新任务,不易遗忘。旧知识能够促进新知识的掌握,而新知识则改善旧认知,这种递进关系推动科学进步。
神经网络缺乏记忆模块,而人类记忆功能能不断推进知识发现。后续将具体探讨如何让AI如人类般持续学习。若无法实现,我们需改善学习范式。


我们需要关注传统人工智能在持续学习方面的评测方法。例如,在图像分类任务中,模型首先完成鸟类和狗的分类,并对该任务进行测试。随后的第二个任务涉及老虎和鱼的分类,完成后,我们期望这个模型在最终测试中能识别鸟类、狗、老虎和鱼。这种设定确保模型能够在新学习的类别中保持良好的分类效果,这是传统持续学习设定的一部分。大家可能对传统持续学习的更新模式已非常熟悉,该模式通过反向传播进行参数优化。
我这里简要说明一下:通过图像输入计算输出,评估输出的准确率,然后通过可微损失函数计算反向传播,以优化参数。传统的灾难性遗忘直观表现为:在训练任务一时,损失(loss)可能会降低,这通常表示反向传播的作用,即模型已经学习并能够进行有效分类。然而,当切换到任务二并不断优化时,任务一上的损失会显著上升,这是遗忘的标志。任务一的性能在完成后非常优秀,但任务二完成后,你会发现原来的效果显著下降,表明模型发生了遗忘。

我们分析遗忘现象的原因,其核心在于信息丢失。在AI模型中,可能遗忘的信息包括旧数据和预训练模型的内容。若未妥善利用这些信息,新数据中的模型可能忽略之前的部分。 例如,将旧模型的参数用作初始化时,如果没有有效利用这些信息,可能会导致新学习的数据偏离原来的分类表现,特别是对鸟类和狗的分类效果。关键在于如何将旧模型和数据信息有效应用到新任务中。后续将进一步探讨这一点。
在深度学习中,存在一些与其他问题类似的方法,我们可以进行简要概述。首先,考虑旧数据与新数据来自不同领域的情况。例如,某些图片可能是卡通或真实实体。这种媒体差异可以帮助构建持续学习任务,其中任务的上半部分涉及卡通图片分类,而后半部分则进行实体分类。这引发自适应问题,尽管图片在某些方面具有共性,但并非完全相同。
其次,迁移学习与微调是另一个重要方面。当使用旧模型的参数作为新模型的初始化时,这就是微调的范式。利用新数据对模型进行微调,希望保留旧模型参数的信息。然而,过度微调可能导致灾难性遗忘。第三点涉及多任务学习,即在不同场景中学习多个任务。例如,一个任务是学习如何驾驶汽车,而另一个任务是学习如何驾驶卡车。理想情况下,模型在学习过程中逐渐提高。
另外,在线学习也在这一领域有所研究。随着时间的推移,某些数据可能无法获取,因此我们希望保留一些关键内容,而不能将所有原始样本存储下来,否则开销过大。还有小样本和零样本适应问题,即如何快速学习新知识,只通过一两张图片就将旧知识迁移过来。这些任务的关键在于如何将旧知识应用于实际,并辅助新知识的学习,其本质是一致的。
而关键的区别之处在于,与传统机器学习不同,持续学习不再假设所有训练数据始终可用。除在线学习外,其他方法均如此。我们此前讨论过人类的几个特点,其中包括稳定性和可塑性。稳定性是希望记住的内容能够持续帮助学习,而不会轻易遗忘。可塑性是指学习新知识的能力。
在学习当前任务时,我们需要为更为困难的任务做好准备。在已获得知识的基础上,我们希望对新任务的学习不仅不会导致遗忘,还有助于泛化至task a和c,这些任务间存在重叠部分。
使用数学语言可以更清晰地描述遗忘问题。在旧任务中,我们拥有旧数据、旧模型及分类结果。从函数视角来看,神经网络是一个函数拟合器,可以将其视作一个函数f。当新模型更新后,我们的目标是努力保持旧模型的分类准确性,并在可能的情况下通过新知识提升旧知识的效果。理想情况下,新模型和旧模型的输出应保持一致,关键在于如何保留之前的信息。这包括旧数据和旧模型,因为旧输出可以根据这两个因素计算。
因此,关键的信息存在于旧数据和旧模型处,在后续回放中可能需要重现一些分类结果。具体技术介绍中会深入探讨如何有效保存旧数据和旧模型的信息。另外,在深度学习中,成功的关键在于表征学习。在粗粒度分析时,我们可能仅关注这些信息;而在细粒度分析中,例如图像识别任务中,我们试图压缩图像,提取关键特征,捕捉到有意义的信息,如鸟类的眼睛和形状,这些特征用于预测标签。这种特征相对于背景信息具有高效压缩性,删除无关信息,保留任务关键细节。
是否可以使用这些特征进行持续学习是一个重要的问题,目前也有一些研究探索如何尽量保留表征空间的信息。衡量出表征的信息量已指导我们的信息保留,这需要理解神经网络的运作机制,也是一个具有挑战性的问题。目前研究尚未完全解释深度学习的动机与机制,但某些视角可为我们提供简化的解释。在借鉴关于信息瓶颈这一概念时,一篇著名的论文提供了深度学习网络分析的重要视角。

这是2017年的研究,集中探讨图像分类任务中的学习过程。假设输入为一只狗,目标输出则是对应的标签。 假设神经网络有五层,其不同层次可能执行不同的功能。
这篇研究分析了每层信息量如何在输入和输出之间进行学习及变化,并通过可视化展示其轨迹。横轴代表输入数据的信息量,而纵轴则表示标签信息。论文中不同阶段用abcde标记,不同颜色代表不同层次。例如,在最初的浅层a阶段,初始状态包含输入数据的全部信息,因为数据刚刚输入并未进行抽取。从初始a层到第五层逐渐进行学习。 随着学习过程不断演变,神经网络分为几个阶段。
其中一关键点是拟合阶段,高层神经元持续输入数据信息并学习输入信息与标签的关系。 从c点到d点的转变是一个显著阶段,他逐渐遗忘了一些信息。各层的轨迹类似于这种现象。神经网络的角色之一是在逐步简化过程中提取相关特征。例如,分类任务可能只需识别与狗相关的重要特征,如耳朵,便足以区分狗与猫。 尽管这个表征非常简单,仍然可以记住整个图像的全貌。假设将整幅图像存储下来,学习过程会发生怎样的变化?
起初,为了记录网络特征,需要记录整幅图像,包括整只狗。然而,在学习过程中发现,图像背景与狗的属性无关。通过数据挖掘,首先去掉噪声部分,实现简单的压缩,仅保留与狗相关的局部特征。这样做的目的何在?任务的目标是提高准确率,因此需要进一步筛选出最易于识别的特征。
例如,在猫狗分类中,只需识别耳朵即可进行有效分类,其他部分皆可忽略。这是一种相对优良的表征,因其分类准确率高且表征明显,使用方便。然而,对于持续学习任务,这种过程存在一定的遗忘。理想的模型应能够在类似c点的位置保留与狗本身相关的特征,同时去除噪声。但由于任务目标的推动,模型可能会选择最小化压缩,这种选择并非持续学习所需,因为它不利于新任务的学习,例如当新的狗出现时,希望能够与旧识别进行区分。如果模型只关注耳朵等特征,可能难以处理多样化任务。
网络学习过程本质上难以精确控制其学习到的表征。单任务学习中,模型可专注于某一特定任务,可能取得显著成果。然而,这样的过程中持续学习能力不足,仅依靠表征回放的方法可能存在问题。
从持续学习的角度来看,灾难性遗忘是关键问题。框架图显示学习过程可能出现无法像人类那样防止灾难性遗忘的问题。后续将详细介绍现有方法的优缺点,以及它们在解决这些问题中的有效性。这一分析将结合过去的研究历程,从2016年至2022年不断推进,涵盖了监督分类任务及其演变提出的多种解决方法。

接下来,我将对这些方法的核心思想进行简要介绍。

最直接的想法是如何构建记忆模块,通过像素信息进行保存。最简单的方式是创建一个记忆缓冲区(memory buffer),便于存储这些图片。在执行新任务时,这些已保存的图片可以作为参考。例如,将之前任务的所有图片保存,用于后续任务的处理。这属于全量训练,而非持续学习问题。其特色在于如何选择性地保存样本,识别哪些信息关键,从而使得开销较小。
另一种方法是在表征上进行存储,如保存斑马条纹等关键特征,便于后续分类中的表征提取。我们此前讨论过在表征空间进行回放,这种方法确实存在一些问题。近年来,生成式范式备受关注,早期生成模型在图像生成方面效果突出。其目的在于构建一个类似大脑的生成模型,每次学习图像后,模型能够生成所需图像。例如,当需要斑马图像时,提供标签即可生成相应图像,将其与现有图像共同进行训练。从直观上来看,各方法的优劣主要体现在经验回放:简单易于保存,并且效果显著。
第二种方法的优势在于使用的简便性,我们为图片存储专门设计的架构优良。然而其劣势在于,如果将每个任务中遇到的所有信息如同人类经历一样存储下来,显然是不切实际的。这种方法与人类生物学上的实际情况不符。人类不可能记住所有样本,而是保留关键点和逻辑结构。深层次回放更符合生物学模型,人们往往会通过想象进行思考。例如,在进行兔子与斑马分类时,生成模型的目的在于理解斑马的大致形态,然后结合现有图片进行分类。
虽然生成模型经过训练,但问题在于生成模型本身也需要持续学习。此方法本质上未能解决此需求,因为仍然需要模型从一个网络到转移另一个网络进行持续学习。此外,生成模型要求高质量输出时,可能导致高昂的计算开销与复杂的训练过程。

第二类方法为正则化。之前提到的回放方法主要集中在数据层面的信息保留,即旧数据和旧模型方面,希望尽可能实现对模型参数的信息保留。
正则化又分为两种方式:一种是对模型参数进行正则化处理,例如限制激活某些神经元。人类的某些神经元可能已经失去功能,因此需要对某些参数进行限制,确保无法直接丢弃。第二种方法是控制函数,即模型的输入输出关系,这类似于蒸馏过程。
正则化方法具有生物学背景,与神经通路的复杂机制有关。在控制神经元激活时,我们限制某些连接,维持权重之间的距离以防止差距过大,从而实现模型信息的保留。

另一类方法基于优化,核心在于控制学习过程中的梯度信息。例如,在学习任务b时,避免梯度影响任务a。 直观而言,如果两个任务完全无关,通过采取正交方向即可进行控制。这类方法虽然不对模型结构施加要求,只关注在优化过程中施加梯度限制,但存在显著问题。
梯度正交完全取决于任务间的关系假设。假如它们差异很大,正交处理方式或许有所帮助,但若希望b促使a表现更好,则需从其他角度进行调整。 尽管有些研究在此领域取得进展,我认为信息量的保留是模型内部的组成部分。优化过程的控制本质上也是为了保留参数信息,这类方法实现复杂,并缺乏理论保障。由于正交是人设定的,任务间相似性的量化评估不明确。

目前一些研究通过结构化方法进行持续学习,即不断新增参数来进行新任务的学习或者控制子网络结构组织实现。这种方法在新任务学习时表现优异,并可通过组合网络输出并压缩至原模型大小,得到较优模型。此外,模块化功能如moe架构,通过路由实现每个子模块控制特定任务,通过专门设计子模块,可实现持续学习。这种方法的优劣直观可见,虽然可能增加参数量,带来存储负担,设计新任务所需的参数量以实现有效学习仍是一个挑战性问题。
另外,该方法的泛化能力有限,学习新知识时与旧知识的隔离程度较高,难以有效利用旧知识或整合新知识。这使得持续学习问题被转化为非持续学习问题,类似于模型压缩现象。如果最终需要提取一个模型,可能会导致推理开销或管理上的困难。例如,对于moe模型等架构而言,训练难度较大,若缺乏理论上的支持,实施过程将面临挑战。以上介绍了一些传统范式下的方法。

目前进入了大模型时代,大模型和持续学习的主要区别在于任务的复杂性,由于模型通常涉及多模态输入,并且参数复杂,这导致现有的持续学习范式有所改变。因为初始模型庞大,持续学习的操作方式也随之变化。
现有的持续学习研究重点在于如何调动庞大的知识量,并在调整过程中解决不同任务,使任务之间的冲突尽可能减少。例如,大模型中的微调可能通过轻量化的提示微调或指令微调进行。为任务编写一个提示(Prompt),在模型输入前进行调整有助于提取和整合重要信息。这是一种较为有效的方法。另一种方法是在大模型微调中引入适应层,并采用轻量化技术如LoRA进行调整。
在持续学习任务中,有类似的工作,例如今年的ICLR会议上有关于LoRA持续学习的研究。重点在于新增任务时可以开辟一路微调,使参数与之前隔离,从而调整特定任务的效果。从本质上看,尽管这种方法给人一种模块化的感觉,但通过隔离微调解决遗忘问题,使得任务之间的参数不受影响,实现对大模型的持续微调。
尽管如此,该范式与传统方法并无显著区别。可塑性方面仍存在挑战,即如何使新知识助力大模型原有知识的更新与整合。尽管范式没有显著变化,未来需要考虑的方面仍然存在,我将分享一些个人观点。

首先我们可以关注一些不同于传统端到端范式的研究。马毅老师的研究主要关注监督学习中的端到端任务。该系统包含一个编码器与一个解码器,形成了闭环结构,其作用是有效组织低维表征,并在此基础上重新生成图像。闭环反馈机制引发了关于如何重构和组织表征的研究。
表征有望具备一定的进化能力。与前述寻求任务最小压缩的方法相比,该方法更具前景,因为它包含了表征组织的过程。第二类研究涉及因果性分析,认为图像表征可视为因果结构。人类理解图像时,可能会识别高层次的概念(concept),例如狗在户外活动。低层次的概念可能包括狗的眼睛或耳朵等特征。这是一个具有层级的过程,因此需要压缩和组织表征。对于监督任务来说,若能够通过局部概念进行分类,这是理想的表示。
然而持续学习需要在表征上不断表现和进化。类似于因果逻辑上的回放,其本质上属于因果结构,人类掌握的是解决问题的方法,而非具体细节,因此存在更高的泛化性。然而,目前监督学习的端到端范式尚未具备这些条件。情境记忆是人类的一种记忆形式,涉及某个时间、地点和事件互动的人物,具有连贯性和逻辑链条。未来在智能体系中,情境记忆可能成为研究的热点。尽管采用拟人化的表达,但应认识到机器设计不应简单模仿人类思维。历史表明,神经元虽然提供了一定启发,但最终设计的工作原理,例如反向传播,并未遵循人类模式。
相似地,强化学习中的奖励回报估计等过程有别于人类。但结果表明,AlphaGo等系统最终能力超越人类,强调机器与人类设计思维存在差异。个人观点方面,深度学习过程本身包含不适合持续学习的机制。此外,优化方法的单元,如SGD,可能过于集中于优化当前任务目标,忽略了未来考虑。因此,在遇到新任务时,应提前规划相关准备。
在学习表征能力的过程中,优化问题的改进是我们需要关注的一个方面。第三点,我认为现有深度学习框架的能力尚未得到充分发挥。这可能是因为传统深度学习的时间跨度较长,未能对持续任务进行深入的特定研究。或许需要一些微小的改变,例如反向传播的方法。
然而,深度学习中存在某些关键问题,例如某些小组件本身不适合持续学习,譬如批归一化等。如果能改进这些方面,框架的效果可能会有所提升。另外目前的范式本质上属于统计学领域,数据是关注重点。
未来的期望可能需要通过更好的信息量来衡量,这也是当前的关键问题。了解未来不确定性的量值,并将其与不确定性和分布结合,是实现更好结合的途径。最后一个观点涉及将某些开环内容转换为闭环带反馈的方法。例如,人类主动寻找学习内容,而非那些难以掌握的知识。这种方法或许涉及递进的层次,例如先学习简单知识,然后再学习更复杂的知识。


我们的关注重点在于AI持续学习的进展,找出问题所在,并探索解决办法。接下来将简要介绍一些应用场景,其中一个关键领域是大模型。例如,安全部门高度关注利用大模型进行人类对齐,期望大模型学习并遵循人类法律规定,避免违规行为。目前有强化学习策略可供选择,通过人类反馈微调大模型。
此过程遇到的挑战与持续学习密切相关。在某些情景中,尽管法律变更速度较慢,人类行为和风险点变化迅速。防范今日漏洞,明日可能出现新漏洞。无法每次新漏洞出现就重新训练整个模型。如果数据被收集混合进行训练,资源消耗巨大。持续学习与此结合前景广阔。
我们必须确保系统能够快速适应新风险点,同时移除对旧风险的关注。这个过程中通常采用类似强化学习的算法,如PPO,这种方法面临许多挑战。结合我们开头介绍的萨德(sutton)教授的一些论断,他强调当前标准强化学习方法,例如PPO在持续学习任务中的局限性。持续学习需要对PPO进行改进,以提升任务效果,这是未来有意义的研究方向。
另外一个关注点是世界模型,希望能实现AGI,实现与世界的交互。目前距离AGI的实现仍较远,因为基础的持续学习尚未完成,因此对世界模型的关注显得尤为重要。
在系统设计中有一个关键模块,即短期记忆(short memory)。该模块负责记忆的存储和调取,在调取之后根据反馈在世界模型中进行动作及决策,这进而能够反映类似于AGI的愿景。然而,当前实现这一愿景仍较为遥远,尚不清楚未来几年内能否达成。

此外,边缘计算,我认为在未来与持续学习结合时将呈现多种紧密应用。边缘设备如手机通常是私人设备,这类设备的参数和数据量有限,但对个性化服务至关重要。由于依赖流数据的生成,手机无法存储过去所有的视频,因此存储方面面对挑战。
流数据意味着只能一次存储每个样本,并不进行持续存储。在此背景下,持续学习技术可以研究如何保留先前学到的知识,促进在边缘设备上快速执行分类任务或高速处理操作。在对图像进行处理时,可能仅有角度或细微变化,或出现新的物品,而周围背景保持不变。这一应用场景需要识别需要更新的元素和保持不变的状态。
未来边缘计算将展现更多应用潜力。对于未来的推荐系统,个性化是至关重要的,需要结合持续学习和边缘计算。目前的推荐系统多是基于概率学习,分析群体偏好。对于个性化需求往往存在矛盾之处,尤其是存在小众偏好和隐私因素时,数据可能难以有效学习。在边缘设备上,由于数据属于个人且趋向小众偏好,某些用户可能不愿意暴露隐私。
因此,在边缘计算过程中,结合个性化推荐是一项重要课题,其中的关键点也在于流数据下能够持续对于用户兴趣进行建模。这一结合能够在边缘计算的框架下更好地实现个性化服务,同时保护用户隐私。
关于具身智能这一概念,近日甚为火爆,这项应用致力于探索诸如机器人等群体如何在环境中进行连续适应。例如,智能机器人在移动时,若突然进入不熟悉的环境,需要重新学习或发展适应能力。在自动驾驶领域,面临类似问题,如处理从未遇见过的情景。首先需要将不熟悉的情境识别并纳入学习框架,通过持续迭代更新样本以便将来能够顺利适应这些场景。
在此背景下,尽管四足机器人的应用相对简单,当前强化学习方法在机器人中有广泛应用。然而,非稳态环境应用中面临的挑战显著,即便在简单场景中效果欠佳,真实环境下复杂性更高。因此,持续学习可能成为关键环节。机器人是闭环系统,其特质可以用于感知环境以获取样本,让其自主思考如何计算不确定性。
例如,遇到完全未知的样本时,机器人在时间估计上表现出极大的不确定性,从而在决策方面进行谨慎的调整。主动学习研究与持续目标本质一致,关注哪些信息可以迁移,哪些无需遗忘。在实践中,机器人适应环境的复杂程度超越传统监督学习。因此,我认为具身智能在非稳态环境研究中,持续学习将发挥重要作用。
🔥【AI安全全球挑战赛】火热进行中

赛道一(大模型安全攻防对抗双向赛)首周战火燃爆!1000+人报名参赛,大模型受到6000+次暴击!76%有效攻击成功率!无论你是首周错过的"后知后觉派,还是摩拳擦掌的"技术狠人"本周王座虚位以待——等你重写榜!
赛事具体(点击下方【阅读原文】报名)看本次推送第二篇文章!








内容中包含的图片若涉及版权问题,请及时与我们联系删除