在人工智能领域快速发展的今天,大模型技术引发了前所未有的热潮。然而,在这股浪潮之下,我们是否真正理解了人工智能的本质?是否存在被忽视的根本性问题?

作为上海交通大学副教授、国内人工智能领域的资深研究者,张拳石对这些问题有着独到的见解。

他认为,深度学习的成功虽带来了前所未有的性能提升,但长期以来以深度学习为代表的AI所奉行的自底向上范式,也逐渐走入了自底向上的“端到端”效率陷阱。

深度学习范式放弃了人们直接把握和控制模型内在精细表征逻辑的技术可能性,使得目前神经网络(尤其是大模型)对数据、算力资源的需求过度依赖,已经逐渐成为制约AI进一步发展的新的问题。

在专访中,张拳石坦言,深度学习需要从“经验性技术”迈向“科学理论”。不同于传统寄希望于在图模型范式下实现自顶向下智能的构建,他提出需要从“可解释性基础理论”的角度,在数学上实现对神经网络内在表征逻辑的内观与符号化总结,从而在表征逻辑层面数学证明并解释神经网络泛化性变化的内在根因,辅助传统神经网络训练。这是目前深度学习方法论上所缺失的部分。

近期,我们对张拳石进行了深度访谈。关于如何在Scaling law逐渐式微的大环境中,如何为深度学习在可解释性理论上构建一套自顶向下辅助系统,从而提升神经网络训练和评测效率,如何在理论上保证对神经网络内在决策逻辑表征的严谨性,他分享了自己相关议题的思考。在这条路上,他看到了什么?以下是他的深度分享。

智源专访栏目意在展现行业顶尖技术研究者和创业者的研究经历和故事,记录技术世界的嬗变,激发当代AI从业者的创新思维,启迪认知、关注突破性进展,为行业注入灵感光芒。本次专访为总第24期。

简介

张拳石上海交通大学电院计算机科学与工程系,长聘教轨副教授,博士生导师,入选国家级海外高层次人才引进计划,获ACM China新星奖。于2014年获得日本东京大学博士学位,于2014-2018年在加州大学洛杉矶分校(UCLA)从事博士后研究。在神经网络可解释性方向取得了多项具有国际影响力的创新性成果,承担了TMLR的Action Editor,CCF-A类会议IJCAI 2020和IJCAI 2021的可解释性方向的Tutorial,并先后担任了AAAI 2019, CVPR 2019, ICML 2021大会可解释性方向的分论坛主席。

01

谈AI领域现状

学术维度缩减,训练效率触顶,自顶向下范式的错位

李梦佳:如何评价过去十年人工智能领域的发展?

张拳石:首先,我们必须承认深度学习自2012年以来取得了显著进展,在许多应用领域实现了重大突破。然而,这些突破主要集中在工程技术层面。从更长远的研究视角来看,我们也需要正视一个客观现象:该领域的学术研究维度正在缩减。

这里所谓的“维度缩减”是指:在深度学习兴起之前,虽然传统方法(如图模型、概率模型等)在性能上不尽如人意,可能无法完全反映真实数据分布,但研究视角更为开放和多元。例如,我们可以显式建模数据间的相关性,构建具有明确数学表达的模型,探索多种理论方向。

但是,随着深度学习的兴起,"端到端"学习模式逐渐占据主导地位。这种转变虽然推动了技术的快速发展,但也限制了研究维度的扩展。人们可以自主设计的维度,主要被限制在了“神经网络结构”和“神经网络损失函数”两个方向,而失去了对神经网络内在表征的直接掌控。神经网络只负责拟合最终输出结果,而无法直接约束中间逻辑和中间特征的正确性。更进一步,随着2023年大模型的广泛应用,神经网络训练的成本急剧上升,无论是调整网络结构还是优化算法,都变得愈发复杂和昂贵。这一趋势导致了研究维度的显著缩减,我们逐渐被限制在三个核心任务上:数据收集、数据清洗和提升词工程。尽管我们尝试用多种方法优化这些过程,但整体上,研究的方向和创新的空间变得越来越狭窄。

虽然从图模型时代到端到端训练,提升了模型的性能,但是“自顶向下”系统的缺失却降低了研究的维度,使得学习效率也在显著下降。比如,在“自顶向下”图模型中,我们可以逐一检查图模型中的每个节点和机制,确保每个部分都按预期工作。然而,在深度学习尤其是大模型时代,模型的评测是个典型长尾问题,我们需要通过海量样本才能检测到极少数的错误,而这些错误背后的原因往往难以追溯。

问题的根源在于,当前“自底向上”的深度学习方法主要集中于数据拟合,而无法直接“自顶向下”地对神经网络内在决策逻辑进行严谨的内观与总结,无法直接保证模型内在表征的可靠性。这里大家有个误区,认为“自顶向下”的方法就是图模型,这是有偏差错位的。我认为一个真正高效的“自顶向下”的范式一定是搭建在“自底向上”的神经网络之上,是对神经网络内在表征的数学解释和总结,而不是脱离于神经网络存在的独立的图模型。就像生物进化一下,“自顶向下”的高层逻辑从来都不是首先出现的,而是在进化后期在人类大脑中逐渐涌现出来的,而“自底向上”的神经网络则有漫长的生物进化史。

这里有个关键性问题就是“如何保证对神经网络内在决策逻辑的严谨解释”,这里需要绝对的理论严谨性,而不是似是而非的近似解释——这恰恰是神经网络可解释性领域中最大的挑战。当然,在这方面,我们提出了对神经网络的等效交互解释理论体系,在定义“对神经网络精细决策解释的严谨性”方向做出了突破,将神经网络内在精细决策逻辑解释为一个与或图模型,在一定程度保证了解释的严谨性。

这样,我们可以将对神经网络内在精细决策逻辑的解释视为对神经网络表征的“自顶向下”的总结,从而在传统“端到端”数据拟合的维度之外,探索新的可能性,比如在知识表征层面直接判断神经网络内在表征的潜在缺陷,在神经网络训练过程中,在精细表征层面实时监控神经网络表征质量的变化,从而高效地评测、高效训练神经网络。在这方面,我们发表了大量论文,背后有大量的理论推导和实验验证,可以专门找机会讲讲。

如果没有“自顶向下”对神经网络的解释,传统端到端深度学习的效率随着模型规模上升而持续下降。这实际上反映了深度学习在模型训练机制层面的固有机制缺陷:当前的方法完全是一个自底向上的、只关注结果正确性的算法。即通过损失函数来约束模型输出,确保结果的正确性,而不是从自顶向下的角度去激励模型的归纳和演绎能力。
换句话说,深度学习缺少一个明确的机制,能够从更高层次对数据进行归纳和推理。它只有自底向上的数据拟合路径,而缺乏自顶向下的归纳演绎路径。这种“半边路径”的缺失,严重限制了人工智能在智能建模和推理能力上的发展。但是如果结合对神经网络内在机理的解释,可以直接观测到神经网络在不同训练时间点上潜在的表征质量,以及神经网络在哪些样本上的内在表征泛化性比较高,在哪些样本上的内在表征的泛化性比较低,从而辅助提升端到端训练效率。

02
谈AI方法论

破解黑盒,不是哲学困惑而是数学问题

李梦佳:将深度学习从经验性技术提升为科学理论的进展,目前到哪了?

图注:张拳石关于博弈交互解释性的体系框架的知乎文章:https://zhuanlan.zhihu.com/p/434357969
张拳石:这个问题太大了,这里我简单讲讲我们的工作,从理论上证明“神经网络的精细决策逻辑”可以在数学上被严谨的写为不同的“符号化的交互概念”。即给定一个神经网络和一个输入样本,那么我们可以有针对性地构造一个“与或交互逻辑图模型”,这个逻辑图模型可以拟合出神经网络在这个样本的海量遮挡状态下的全部输出值。
令这个输入样本包含n个输入单元,比如一个包含n个token的句子,或者一个包含n个图像区域的图片,这样这个输入样本就有2^n种不同的遮挡状态。那么,当我们把这2^n个不同的遮挡样本输入的逻辑图模型,我们证明出这个逻辑图模型的输出可以拟合出神经网络在所有这些遮挡样本上的全部2^n个不同的分类输出值(这里指目标类别的分类置信度)。

这个性质叫做“与或交互逻辑图模型”的“无限拟合性”,这是一个非常重要的理论,从根本上定义了对神经网络精细决策逻辑解释的严谨性。即,我们用一个逻辑图模型去拟合神经网络的输出,我们不仅仅需要拟合出这个神经网络在原始输入样本上的分类置信度,而且需要拟合出其在全部2^n个遮挡状态下所有的分类置信度,这是一个很强的结论,保障了逻辑图模型对神经网络精细决策逻辑解释的全面性。

此外,还有一个性质也非常重要,即“与或交互的稀疏性”。这里,稀疏性是指这个与或交互图模型仅仅包含很少的与或交互逻辑,通常是100-200个交互逻辑。这里一个与交互表示输入样本中不同输入单元间的“与关系”。
比如,输入句子中有个词组叫green hand,这里green指绿色,hand是手,两个词连一起green hand表示新人,而不是绿颜色的手,这就是一个“与关系”,多个单词凑在一起才能触发的一个数值效用。类似地,也有“或关系”,即输入句子中不同单词所包含的重复性的意义,当任意一个单词出现在输入句子中,就会对模型输出产生一个特别的数值效用。这个与或交互逻辑模型的输出恰好就是不同与或交互数值效用的和。

稀疏性表明我们可以用少量的与或交互逻辑去充分拟合神经网络在指数级不同遮挡状态下的输出,从而保障了解释的严谨性和简洁性。

此外,我们还发现对神经网络的交互解释,也有“模型间的迁移性”。比如,当给两个结构完全不同的大模型同一个输入句子时,我们用两个模型生成同一个目标token的分类置信度去求解对两个大模型的交互解释。我们发现,两个大模型所使用的交互中,居然大约70%都是一样的,这被称为不同大模型在交互表征层面的“殊途同归”。这也是一个非常有趣的性质,虽然这个性质目前只是实验发现,还未得到数学证明。

从而,上述的无限拟合性”、“稀疏性”、“模型间的迁移性”,这些性质在数学上保证了神经网络符号化解释的严谨性。

李梦佳:在深度学习的发展中,哪些研究方向和问题能够满足上述要求?

张拳石:深度学习目前主要依赖自底向上的数据拟合,缺乏自顶向下的理论总结和规律提炼。为了克服这个问题,我们需要建立一个新的理论框架,将自顶向下的对神经网络的解释与自底向上的神经网络训练结合起来,在可解释的符号化模型与深度学习的数据驱动方法之间搭建桥梁。

神经网络的发展更像是一个自然演化而非预设的过程。它在初始阶段,是自底向上发展的,网络系统比较混乱无序,随着训练深入和性能提升,逐渐自然涌现出有意义的特征。当这些特征变得稳定成熟后,研究人员才能通过解释性理论,自顶向下地从中提取出规律。

人们普遍对人工智能这种黑盒模型感到恐惧,这种恐惧部分来自于影视作品的渲染。很多人认为这是个纯哲学或社会学问题,但实际上这是个数学问题——两个智能体之间能否在中层逻辑层面进行交流与对齐。或者简单一些,能否在数学上证明神经网络内在精细决策逻辑可以被解释为清晰的、简洁的符号化概念,从而使人们可以从认知层面直接理解神经网络。神经网络确实存在其内在逻辑,只是因为它的表现形式比较混乱,无法像人类思维那样被清晰总结。如果我们能解决这个可解释性问题,就能为人工智能的发展开辟一个全新的方向。

未来人工智能可以探索更高效的学习方式——交流式学习。这种学习方式不依赖海量数据训练,而是模仿人类之间的自然交流。就像小孩通过语言和交流理解世界一样,这种学习方式可能成为重要的突破点。

然而,长期以来,许多人认为这种学习方式难以实,主要基于两点理由:第一,神经网络复杂的连接结构与人类清晰符号化的认知理论看似存在天然矛盾;第二,人类大脑的神经元结构比人工神经网络更加混乱,却能够产生清晰的认知,这一现象本身就是一个奇迹。

我们的研究实际上证明了一个重要观点:尽管神经网络结构可能非常复杂,但在处理某些问题时,它很可能会自然形成清晰的、符号化的表征。即给定一个包含n个输入单元的样本时,我们可以对这个输入样本进行2^n 种不同的遮挡操作,可以证明用100-200个符号化交互表征可以严谨地拟合神经网络在全部2^n个遮挡状态下神经网络的不同的分类置信度数值。这个结论的成立需要一些数学条件,但是我们发现大部分神经网络都是满足这个条件的,即他们内在精细决策逻辑是可以被清晰地理解和解释的。

如果我们能实现这一点,就能实现突破性的交互、交流式学习。就像教导孩子一样,我们可以从神经网络中获取中层表征,通过直接交流来发现表征层面的问题,而不是依赖大量测试样本来发现错误。

以目前的大语言模型为例,虽然它们表现出很高的正确率和性能,但在表征方面仍存在明显问题。比如法律大模型中,超过70%的交互表征实际上与判案内容无关,甚至会出现案情信息混淆的情况。举例来说,可能会把张三的行为判断错误地应用到王某身上,反之亦然。这种不可靠的内部表征竟然能占到七八成之多。由此可见,目前的方法论导致模型的内部表征仍然相当混乱。

我们的最终目标是建立一个完整的理论体系。这个理论体系不仅要能够客观、严谨地阐明神经网络内在的表征逻辑,还需要有充分的理论依据来支撑相关研究发现。同时,这个理论体系应当能够深入解释神经网络的表达能力、表征瓶颈等多个层面的问题,并能将各种经验性结论进行理论统一和相互验证。

李梦佳:为什么说传统理论认为哲学问题或者社会学问题实际上是数学问题?
张拳石:这源于人们常把神经网络视作黑盒模型,无法准确预测它数学上的正确率,也无法保证它完全可靠。事实上,没有任何黑盒模型能做到百分之百可靠。

为什么我们对黑盒模型心存顾虑?尽管在自动驾驶等领域,人工智能的表现已超越人类,但我们仍然更信任人类的决策。比如,很多人宁可乘坐人类驾驶的出租车,也不愿坐无人驾驶的汽车。

究其原因,是因为人类能够解释并理解自己的错误,而对未知风险我们难以容忍。人与机器最大的区别并不在于DNA或基因,而在于人类可以沟通交流。比如,出租车司机如果违规,我们可以询问原因,并得到解释或道歉。这种交流让我们感到安全。但对黑盒模型,我们并不知道它在想什么,也无法得到解释。

这正是为何我们需要一个可靠的算法来解析黑盒模型。即使解析出的逻辑并不完全符合人类的思维方式,我们也能接受,就像围棋AI的下法常常超出人类理解,但只要能解释其思路,人们就不会过分恐惧。因此,评估大模型可靠性时,不仅要看正确率,还要看是否能展示决策过程。

03
谈可解释技术

验模型看立场,证优点够用,寻短板不够

张拳石:关于技术问题,我想讨论当前主流的模型可解释性研究,目前有几个主要技术方向。

第一个是可解释性领域本身。它是一个研究目标,而非具体的技术方法。换句话说,神经网络的可解释性研究包含了多个不同的技术方向,它们都致力于同一个目标:解释神经网络的内在机理。其中重要性归因是一个关键方向,它用于分析输入样本(如文本、图片或视频)中各部分对任务的贡献。例如在文本处理中,我们需要找出不同词语对生成任务的重要性,即在生成每个新词时,分析已有词语对其的影响程度。这种影响程度的数值就反映了各个词语的重要性。

第二个方向是可视化研究。研究者普遍认为神经网络的中间层可能建模了一些有意义的表征。为了理解这些表征的含义,我们可以直接对神经网络中间层建立的特征进行可视化展示。

图注:吴恩达团队 2007 年的工作对将稀疏性引入自编码器有重要贡献。https://papers.nips.cc/paper_files/paper/2007/file/4daa3db355ef2b0e64b472968cb70f0d-Paper.pdf
第三个研究方向是稀疏自编码器(sparse autoencoder),这是一个非常热门且经典的研究领域。该方向主要关注如何让神经网络中间层神经元的激活呈现稀疏性。这个思路源于人类认知的稀疏性特征,即我们的大脑在处理信息时往往只激活少量神经元。研究者们认为,赋予人工神经网络稀疏激活特性,可帮助其自动学习清晰且具备语义的特征表示。然而,要严格论证神经网络的神经元激活模式是否真正体现有意义的特征表示,仍需深入研究。

上述方法都面临着一些共同的挑战:目前主流的神经网络解释技术多是基于工程经验,难以保证解释结果的严谨性和客观性。

此外,评估解释技术的好坏,很大程度上取决于立场和目的:如果目的是为了展示神经网络的优点,证明其表征具有一定的合理性和可解释性,那么现有的解释方法基本够用。但如果我们的目标是通过解释性技术来发现神经网络表征中的潜在问题(就像通过考试发现学生的知识漏洞一样),现有的解释技术就显得远远不够。

以可视化技术为例,它存在一个普遍性问题:如果我们尝试完整地可视化单个神经元或卷积层所建模的所有信息和特征,呈现出来的表征往往是混乱且难以理解的。这些表征并非清晰、严谨的单一语义符号,而是复杂混杂的信息集合。只有当我们选择性地展示其中最强的一部分信号时,在统计或概率意义上,这些表征才会呈现出某种程度的清晰性。

这就带来了一个根本性的矛盾:是要追求视觉上的清晰度来迎合人类的感知习惯,还是要保持完整的客观性?如果展示全部信号,表征必然显得混乱;但这种混乱性是神经网络本身的固有特性,不是靠改进可视化技术就能解决的问题。

这个问题不仅存在于可视化技术中,在重要性归因方面也同样存在,我们很难严格证明所归纳出的特征重要性是否真正客观。在稀疏自编码器领域中也不可避免,因为我们无法保证中层神经元的稀疏激活一定对应着严格的语义含义。另外,虽然这个领域已经发展出许多评测指标,但这些指标背后都存在着理论漏洞。

认识这些局限性对发展新的解释方法至关重要。这也是为何自 2021 年以来,我们的研究重点一直是解决这些基础问题。

图注:张拳石2021年发表ICLR论文“Discovering and Explaining the Representation Bottleneck of DNNs”证明了一个反直觉的现象:所有深度神经网络都存在着同一种表征瓶颈。

图注:张拳石在Neurips 2021发表论文“A Unified Game-Theoretic Interpretation of Adversarial Robustness”提供了一个统一视角,从深度神经网络输入变量间的多阶交互出发,解释了各种对抗攻击和防御方法。
图注:张拳石2017年发表论文“Interpretable Convolutional Neural Networks”,将传统的卷积神经网络(CNN)改造成可解释的CNN,以便理解CNN高层卷积层中的知识表示。

李梦佳:随着模型规模和数据量的增长,可解释性研究面临什么新挑战?

张拳石:虽然神经网络规模不断扩大,但不同研究方向面临的挑战各不相同。在我们的研究方向上,我们发现了一个有趣现象。

大模型的参数量与其简洁性之间存在特殊关系:参数量越多,优化越充分,其内部表征反而越简洁。具体表现为,我们可以用更稀疏的特征交互来解释神经网络的输出结果。相反,当模型参数量较小或出现过拟合时,需要大量复杂的特征交互才能解释其行为。

因此,在某种意义上,我们不能说我们的解释与模型的参数完全无关。相反,随着模型参数量的增大,我们更关注的是整个黑盒模型等效的一种解释方式,而不是具体去研究神经网络内部有多少层,或者参数是如何具体运作的,也不关注它的具体结构。优秀的大模型往往表现在:它能够有效过滤掉噪声和不可靠的交互信息,同时学习到更多有意义的交互关系。

李梦佳:在未来 3 到 5 年内,哪些重大成果和变革可能会出现?

张拳石:交互式学习将会成为一个重要突破。这个判断基于两个方面:

首先是技术基础。我们在可解释性方面已经有了理论保障,可以客观地解释模型决策。具体来说,基于“无限拟合性”和“稀疏性”这两个性质,我们可以通过交互、测量等方式,对神经网络的输入部分进行等效建模,进而可靠地解释其内部决策逻辑。

基于这个基础,我们有望实现交互式学习。这种学习方式不同于传统的端到端训练,而是更类似于人与人之间的交流。当然,如何通过现有技术来有效提升神经网络可解释性,这不仅是一个工程问题,更是一个理论问题。我们需要从理论层面推导出可靠的训练方法。

其次,在工程应用或产业发展方面,大模型的训练成本已经高到难以让大众所承受的程度。因此,我们迫切需要寻找新的突破口,而“交互式学习”恰好可能满足这方面的需求,在工程和产业领域拥有重要意义。
本文版权归智源社区所有

内容中包含的图片若涉及版权问题,请及时与我们联系删除