Renormalization Group for Machine Learning 机器学习和重整化群的结合是一个非常前沿但也早就被人关注的领域,从PCA[1]开始就有相关的讨论。并且,深度学习的深度结构和重整化在形式上又有非常多的相似之处:重整化群通过不断粗粒化的方式提取系统的关键特征,而深度学习的每一层也是提取特征的过程,并且不同层的特征也有尺度的含义,越是浅层的神经网络编码的是小尺度的特征,越是深层则编码的就是大尺度的特征。 文章[2]首次明确指出了这种联系,并且尝试构造一个基于受限玻尔兹曼机(Restricted Boltzmann Machine,下文简称 RBM) 的神经网络架构,建立了 Ising 模型 Kadanoff 的块粗粒化和神经网络在解析上的精确映射,证明了深度学习算法可能确实是在用类似于重整化流的模式从数据中提取特征。这对于理解深度学习的运作机制有很大的启发。
[1] Bradde, Serena, and William Bialek. "Pca meets rg." Journal of statistical physics 167 (2017): 462-475.[2] Mehta, Pankaj, and David J. Schwab. An exact mapping between the variational renormalization group and deep learning. arXiv preprint arXiv:1410.3831 (2014).
[3] Koch, Ellen De Mello, Robert De Mello Koch, and Ling Cheng. Is deep learning a renormalization group flow?. IEEE Access 8 (2020): 106487-106505.
与此类探索对应的还有一类文献[4,5],则直接研究训练好的RBM有什么样的特征,发现了所谓的RBM的重整化群流(RG flow),并且得出结论说RBM的稳定不动点就是一个 non-trivel 的临界点。这个图像和Ising model描述的图像恰好相反(Ising的临界点是不稳定的不动点),背后的原理非常值得进一步探究。[4] Iso S, Shiba S, Yokoo S. Scale-invariant feature extraction of neural network and renormalization group flow. Phys Rev E. 2018;97(5):1-16. doi:10.1103/PhysRevE.97.053304,[5] Funai SS, Giataganas D. Thermodynamics and feature extraction by machine learning. Phys Rev Res. 2020;2(3):1-11. doi:10.1103/PhysRevResearch.2.033415诸如此类的研究都非常有趣,关注的问题核心其实是如何用统计物理的视角更好地理解神经网络的表征。不过这类探索往往局限于某一特定的神经网络框架,通常这个架构就是RBM,因为这个框架几乎就是为了和统计物理对应而设计的。这无论对于解决具体问题,还是对统计物理本身理论的进展而言,在科学层面其实都并没有特别本质的推进。就好像是物理学家们把RBM当做一个玩具一样反复把玩,虽然也有对于临界指数计算的尝试,但受限于RBM的结构,始终没有在更复杂的系统中进一步应用,所以和现实还是有一段距离。 其实除了RBM这一传统的结构之外,CNN,张量网络,甚至各类生成模型都有和RG结合的潜力。我们更需要回答的应该是,这种结合可以有什么样的实际应用,或者对于增强神经网络的能力有什么样的帮助。这就有了下文介绍的另一类的文章,尝试使用RG理论作为神经网络设计的先验知识,真正用于解决实际问题,或者真正能够对物理理论起到实质性的帮助。Machine Learning for Renormalization Group 这类文章最经典的就是18年发在 Nature Physics 上基于信息论做重整化的工作[6]。文章的动机是希望使用数据驱动的方式自动构造粗粒化策略,从而对系统实现重整化。而实现这一目标的手段就是约束系统在粗粒化后,宏观变量与原来系统的“环境变量”的互信息最大,而没有其他任何的先验知识。这里的“环境变量”可以理解不参与当前局部的实空间块重整化的其他变量。最终,神经网络学习出的宏观变量就是有关的变量(relevant variable)。这和RG的图像一致,并且用这种方式也能得到临界指数。
[6]Koch-Janusz M, Ringel Z. Mutual information, neural networks and the renormalization group. Nat Phys. 2018;14(6):578-582. doi:10.1038/s41567-018-0081-4
[7]. Lenggenhager PM, Gökmen DE, Ringel Z, Huber SD, Koch-Janusz M. Optimal renormalization group transformation from information theory. Phys Rev X. 2020;10(1):1-27. doi:10.1103/PhysRevX.10.011037
[8] Hu HY, Li SH, Wang L, You YZ. Machine learning holographic mapping by neural network renormalization group. Phys Rev Res. 2020;2(2):23369. doi:10.1103/PhysRevResearch.2.023369[9]Sheshmani A, You Y zhuang, Fu W, Azizi A. Categorical representation learning and RG flow operators for algorithmic classifiers. Mach Learn Sci Technol. 2023;4:20.
[10]Hou W, You YZ. Machine Learning Renormalization Group for Statistical Physics. arXiv Prepr. Published online 2023:1-13. http://arxiv.org/abs/2306.11054
3. 非平衡态系统的多尺度建模
不过,由于重整化群理论本身主要还是在平衡系统中有很多出彩的分析,到这里为止我们讨论的也主要都是关于平衡态模型的重整化。这一方面是因为,对于非平衡态系统,问题的复杂程度上升了不止一个水平,其实到目前为止依然没有什么好的分析手法能够得出和平衡态类似的统一理论。而复杂系统更多的研究对象其实是动力学系统,这类系统往往都是处于非平衡态。另外,非平衡态的分析除了缺乏完善的基础理论之外,也没有像 Ising model 这样研究的非常透彻的经典系统作为toy model供科学家们把玩,所以重整化相关的工作并不像平衡态系统那样丰富,更别提数据驱动相关的重整化建模工作了。 然而,多尺度的动力学建模在另一些领域中却百花齐放。因为人们早就意识到了无论是对于动力系统的预测还是调控,不同尺度的信息确实是会发挥不同的作用:小尺度的高频信息对于短期预测有帮助,而大尺度的低频信息则在长期建模中起到关键作用。从Reduced-Order Model (ROM),到 Equation-free Model (EFM),再到现在前沿的因果涌现理论(Causal Emergence Theory),这些方法都是在用各自的原则尝试对一个动力系统进行降维或者简化。 而利用数据驱动的方法对动力系统进行降维的工作,近年来在学术界也有百花齐放之感。陈晓松老师团队开发的本征微观态方法从数据出发,使用奇异值分解方法对物理系统的数据进行模式分解,并在这些模式中发现了明确的物理含义[11],这套方法不仅可以求解经典平衡系统的临界相变问题,还在许多复杂系统(包括集群系统,湍流,气候,金融,量子等等)中都取得了突破性的进展。
[11] Hu GK, Liu T, Liu MX, Chen W, Chen XS. Condensation of eigen microstate in statistical ensemble and phase transition. Sci China Physics, Mech Astron. 2019;62(9). doi:10.1007/s11433-018-9353-x
[12] Khazaei H. A data–driven approximation of the koopman operator: extending dynamic mode decomposition. AIMS. 2016;X(0):1-33.
[13] Lusch B, Kutz JN, Brunton SL. Deep learning for universal linear embeddings of nonlinear dynamics. Nat Commun. 2018;9(1). doi:10.1038/s41467-018-07210-0
[14] Vlachas PR, Arampatzis G, Uhler C, Koumoutsakos P. Multiscale simulations of complex systems by learning their effective dynamics. Nat Mach Intell. 2022;4(4):359-366. doi:10.1038/s42256-022-00464-w
另外,强化学习领域中基于模型学习的 world models 相关的概念,像是从自己的世界观中开辟出了一个新的但是非常类似的想法[15]:尝试将和主体互动的环境用一个低维的模型来表示,从而提高预测和控制任务的效率,也已经成为这个领域非常前沿的话题。 图4. 我们用于预测的信息不是系统的全部,而只需要一个简化的表征