《自动搜索人工生命》到底在搜索什么

原创张礼贤、韩司阳 2025-02-11 19:48 上海

新算法确实带来了一些启示，为未来探索生命的奥秘奠定了一定的基础。

背景

2024年末，Sakana AI联合来自MIT、OpenAI、瑞士AI实验室IDSIA等机构的研究人员，公开了一种名为「自动搜索人工生命」（Automating the Search for Artificial Life with Foundation Models）的新算法。论文一经发表，众多公众号便对其进行了深入解读，并纷纷采用“震惊体”作为标题，发布了一系列文章。这些文章似乎在暗示AI已经揭开了生命起源的秘密，引发了社会的广泛关注。

然而，经过深度阅读原论文后可以发现，新算法并未直接涉及生命起源的奥秘。但它确实带来了一些启示，为未来探索生命的奥秘奠定了一定的基础。

集智俱乐部《一种新科学》读书会组织了针对这个论文的夜谈交流，这篇文章正是基于夜谈的分享总结而来，欢迎查看视频：

https://pattern.swarma.org/study_group_issue/852

研究领域：元胞自动机，人工生命（ALife），神经网络，混沌边缘，参数空间搜索，跨模态表征，自监督视觉编码

张礼贤、韩司阳 | 作者

论文题目：用基础模型自动搜索人工生命（后简称：ASAL）
作者：Akarsh Kumar, Chris Lu, Louis Kirsch, Yujin Tang, Kenneth O. Stanley, Phillip Isola, David Ha
论文地址：https://arxiv.org/abs/2412.17799

基本概念

“基质”——人工生命

“搜索”——整体思路

“眼睛”——基础模型

代码结构

实验方法

“符合描述”——目标导向

“变化莫测”——开放探索

“五花八门”——启发发现

实验框架总结

实验结果

三种方法的发现

量化人工生命

与基础模型无关

扩展

基因与表型

混沌边缘的超级参数

向前迈进

总结

1. 基本概念

“基质”——人工生命

该论文所说的人工生命（ALife），其实就是2维欧氏空间中依照一定规则相互作用的若干粒子，或状态依照一定规则变化的2维格子。更多介绍可以参考ALife是什么，为什么值得研究？（今日的头条文章）。

论文中将运行这类人工生命的程序称之为“基质”（Substrates ），相关实验涉及5种类型的人工生命基质，并设置了核心初始化参数：

鸟群（Boids）: 128只鸟，依16个最近邻居的位置和速度调节自身运动

粒子生命（Particle Life）: 6种粒子，共5000个，相互吸引或排斥

类生命元胞自动机（Life-like Cellular Automata）: 64*64的方格，每个格子的生灭状态取决于其周围8个最近邻格子。

Lenia: 一种连续时空版本的类生命元胞自动机

神经元胞自动机（Neural Cellular Automata）: 一种用神经网络做状态转移函数的连续元胞自动机

“搜索”——整体思路

在人工生命中，一个特定的初始状态 (s₀) 和相互作用的规则（或状态转移的规则）（Step_θ）决定了一个“生命”的历程，这被称为一个模拟。而一个模拟由一些参数（θ）所决定，并且不同的参数设定将产生不同的模拟结果。其中，某些参数的设定将模拟出“生命”的现象，而某些参数则不能。因此，预期说要搜索人工生命，实际上则是搜索那些能模拟出“生命”特征的参数（θ）。

但在以往的人工生命研究领域中，系统性探索所有潜在模拟空间的方法始终存在缺失。这种方法的缺失导致研究者在构建虚拟世界规则时不得不依赖人类直觉作为主要指导。虽然简单元素的大规模互动可能催生复杂的涌现现象，但这些现象本质上具有不可预知性，往往超出研究者的前瞻能力。因此在实际操作中，研究者通常会针对简单且预期的结果来设计模拟，这无疑限制了意外发现的可能性，同时也减少了新现象的科学发现。

假设我们能够预先定义目标涌现特征，并实现该特征的自动化搜索，将会产生怎样的突破？尽管已有研究尝试通过生存能力、复杂度指数、趣味性等复合指标来量化人工生命特征，但这些参数化标准始终难以完全捕捉人类认知中关于生命本质的微妙内涵。

随着这几年图像识别等人工智能技术的发展，海量自然数据训练的基础模型展现出类人的表征能力，甚至可能基于我们的真实世界统计数据得到一个理想化的表征。这种特性使得基础模型非常适合用于量化人类对人工生命复杂度的概念。

基础模型充当人类“眼睛”来搜索具有“生命”特征的人工生命

“眼睛”——基础模型

我们需要类似人类“眼睛”的基础模型来帮我们找到“生命”特征。在论文中引入了CLIP、DINOv2和Pixels，这里着重介绍前两个基础模型。（ASAL并不对基础模型进行设计或者训练，只是调用这些基础模型）

CLIP (Contrastive Language-Image Pretraining) （对比语言-图像预训练）是一种多模态基础模型（Foundation Model），通过对比学习方法在大规模互联网数据集上进行预训练，将图像和文本的潜在表示空间对齐，从而学习通用的跨模态表示。CLIP 提供了两个显式的编码器：图像编码器VLM_img( )和文本编码器 VLM_txt( )，分别用于生成图像和文本的嵌入向量。

DINOv2 (Distillation with No Labels) （无标签蒸馏）是一种单模态视觉基础模型，通过自监督的教师-学生框架在大规模图像数据集上进行训练，学习高质量的视觉特征表示。DINOv2 仅提供图像编码器VLM_img( )，因此无法支持 ASAL 的给定目标搜索任务，因为它缺乏跨模态的文本表示能力。

这里的重点是：基础模型经过训练，能够学习到图片和文本的意义，并把这种意义用一个高维的向量（在CLIP中是512维）表示出来，称为嵌入向量，而这些向量构成的空间叫做表示空间。如果两个图片、两个文本或一个图片与一个文本的“意义”相近，则它们被映射为相近的向量；反之，意义不同的图片和文本则被映射为差别较大的向量。比方说：一只狗的照片被映射为(0,0,1)，“一只狗”这个文本被映射为(0,0.1,1.1)，而一幅风景画被映射为(1,-2,0)。

当给到“一只狗”的文本时，模型将认为狗的照片更接近。

代码结构

论文实验的代码地址：

https://github.com/SakanaAI/asal

整个工程比较简单，目录下一共有2个核心文件夹以及核心python文件，如下图：

foundation_models文件夹下是3种“眼睛”，用于搜索生命，如下图：

substrates文件夹下就是不同人工生命的基质了。可以看到这里涵盖了之前介绍的所有基质，并且还可以基于接口继续扩展这里的类型和种类，如下图：

2. 实验方法

每一类人工生命就是一类初始状态和步进函数，其中有特定格式的参数，其生命历程依照初始状态和步进函数来确定，也就由参数来确定。

不同种类的人工生命基质（比如粒子生命与类生命元胞自动机），其参数的格式不同（粒子生命的初始状态的参数是粒子的初位置和初速度，步进函数的参数是粒子间相互吸引或排斥的强度；而类生命元胞自动机的初始状态的参数是格子的生死状态，步进函数的参数是一个格子周围有多少活格子时会生或灭）。

基质类型	初始状态参数	步进函数参数	参数作用示例
粒子生命	粒子的初始坐标 (x, y)	吸引力/排斥力强度系数 (α, β)	α=0.5时粒子相互吸引，β=1.2时相互排斥
	初始速度矢量 (vx, vy)	作用半径阈值 (r)	当粒子间距<r时开始产生相互作用
类生命元胞自动机	网格初始激活状态 (0/1矩阵)	存活规则 (例: "23/3")	邻居2-3个存活则保持，正好3个则新生
	网格尺寸 (n×n)	邻居判定方式 (四邻域/八邻域)	八邻域计算时包含对角线相邻单元

虽然如此，下面的公式1中统一用θ来抽象地指代各种格式的参数。

在一类人工生命中（比如粒子生命中），确定了这些参数（粒子的初始位置、速度，相互作用强度），就是确定了一个人工生命，即一个模拟。

这里面的 Render 是渲染函数，它是规定了如何将人工生命可视化（这个公式可能引起困惑，因为公式中的Render带有角标θ，但是其实原文的工作中渲染函数并不包含任何可变的参数）。人工生命的状态是一组数值，要形成图片才能被视觉基础模型来“观察”。渲染函数就是把人工生命每一时刻的状态（一组数值）映射为一个图片。

实验适用了三种方法来搜索人工生命：

“符合描述”，即给到文字，来找到符合文字描述的一张图或者一组图，并最终找到其设定的参数（θ）。

“变化莫测”，即寻找那些每一时刻的状态要尽量不同的人工生命，并最终找到其设定的参数（θ）。

“五花八门”，即尽可能的寻找互相有差异的一组人工生命，并最终找到这些人工生命其设定的参数（θ）。

“符合描述”——目标导向

原文称之为目标导向（Supervised Target），即搜寻符合文字描述的人工生命。

寻找一个人工生命，使得目标文本的嵌入向量与人工生命的图像的嵌入向量尽可能接近。

这里面RS^T(θ)代表了经过T时间步人工生命的图片，而VLM_img是基础模型提供的接口，它将图片映射为一个向量（图嵌入向量），VLM_txt是基础模型提供的另一个接口，它将文本映射为一个向量（文本嵌入向量）。尖括号代表两个向量的相似度（其实就是两个向量夹角的余弦值，即两个向量单位化之后再作内积）。最后，代表对所有时刻取平均值。（实际上，在论文提到的实际操作里，已预先设定了有限的时间步数）

可以使用颜色标记可以用文字解释上述公式：

搜索一个模拟，该模拟生成的图像与基础模型表示中的目标自然语言提示相匹配。

“变化莫测”——开放探索

原文称之为开放探索（Open-Endedness），即搜寻变化最多的人工生命。

寻找一个人工生命，使得人工生命的图像不同的时间步的嵌入向量之间的相似度尽可能低。

借助这种新颖的功能，ASAL 搜索一种模拟，该模拟可以生成在基础模型表示中历史上新颖的图像。一些初步实验表明，历史上的最近邻新颖性比基于方差的新颖性产生更好的结果。

“五花八门”——启发发现

原文称之为启发发现（Illumination），即搜寻尽可能多样的若干人工生命。

寻找一些人工生命，它们生成的图片的嵌入向量的相似度尽可能低。

设定好了目标函数，接下来就采取某种办法寻求最优的参数，这样就能得到尽可能符合目标文本的人工生命。为了实现这一目标，ASAL 搜索了一组模拟，这些模拟产生的图像与基础模型表示中的最近邻居相去甚远。实验发现，最近邻分集比基于方差的分集产生更好的启发（更加的五花八门）。

实验框架总结

上图描述了ASAL的整体框架。图中ASAL使用视觉语言基础模型，通过将过程表述为三个搜索问题来发现人模拟中的人工生命。

目标导向模式（Supervised Target）：基于监督式搜索机制，ASAL通过参数空间遍历定位符合特定条件的模拟实例，其演化轨迹在预训练基础模型的表征空间中精确映射预设提示序列的语义特征。

开放探索模式（Open-Endedness）：采用动态创新评估框架，ASAL系统持续筛选具有范式突破潜力的模拟进程，其核心判据在于时间序列演化中持续产生突破历史经验边界的创新性轨迹模式。

启发发现模式（Illumination）：通过多目标优化算法，ASAL构建突破局部最优约束的模拟集群，该集合内各样本在状态空间中的拓扑分布离散度达到最大化，用来揭示非平凡的系统性规律。

3. 实验结果

三种方法的发现

每个人工生命都是动态的，读者可以到网站https://pub.sakana.ai/asal/查看视频。

“符合描述”——目标导向

给定单一目标文本（不随时间变化），在多种类型的人工生命中，找到了符合目标文本的模拟：

给定多个目标文本（分别赋予不同的时间步），找到了符合目标文本的人工生命：

“变化莫测”——开放探索

如下图所示，规则为B013456/S123（第三行）的人工生命是最Open-Ended的类生命元胞自动机。（根据原文公布的代码，实际上此任务中是固定了一个特定的初始状态，并没有搜索初始状态）

当然，这里所说的变化最多（最Open-Ended）是根据不同时间步的图片嵌入向量之间的相似度来衡量的。

如果不用嵌入向量，直接用像素之间的差别作比较，那么变化最多的是规则为B0136/S034678（第二行）的类生命元胞自动机。但是，这个人工生命的图片整体上看起来却没有那么多变化，尽管它在像素的层级上前后变化很大，但是给人留下的整体印象就是一团乱，毫无变化。

“五花八门”——启发发现

如下图，可找到8192个尽可能不一样的Lenia型人工生命

如下图，可找到8192个尽可能不一样的Boids型人工生命

量化人工生命

将人工生命生成的图片映射为嵌入向量，然后计算相似度，就在一定程度上量化了人工生命的表现形式。由此可以定量地判断人工生命的与其参数之间的关系是否具有线性的关系，评估人工生命的参数中哪些对于形成特定的形状更加重要，还可以观察人工生命的“生长速度”。

1. 鸟群的参数空间是非线性的

一个鸟群（背后有一组特定的参数）具有有意义的结构“a biological cell”，另一个鸟群（背后有另一组特定的参数）具有有意义的结构“a fibonacci spiral in nature”。但是，如果把它们的参数作一个加权平均，权重逐渐从一端移动到另一端，就会发现鸟群不再形成任何有意义的结构。这表明鸟群的“意义”与它的参数之间不是线性的关系。而这种非线性的程度，可以通过中间的鸟群与两端的鸟群的图片的嵌入向量的相似度来定量的表现出来。

2.粒子生命中的“多者异也”

当粒子的数目超过1000时，才能找到符合目标文本“A Caterpillar”的粒子生命。这种“符合”的程度由文本的嵌入向量和粒子生命的图片的嵌入向量之间的相似度衡量，这个相似度在粒子数达到1000时才有显著的提高。

3.找到对形状形成起关键作用的参数

通过比较扰动不同的参数对粒子生命的形状的影响，可以观察哪一个参数对形成特定形状最关键。通过对每一个参数作多次扰动，计算与目标文本的嵌入向量的相似度的标准差，来定量衡量参数的重要性，标准差最大的参数最关键。

与基础模型无关

论文中自动搜索人工生命的方法，要利用基础模型的视觉能力。这种方法的结果当然会受到基础模型的影响，但是实验表明在不同的基础模型上，该方法都表现良好，而且都明显好于单纯使用像素表征。（所谓像素表征，其实就是不作任何抽象表征，图片就用它的原始的每一个像素的颜色RGB值来代表，它也可以当作是一个向量。基础模型的表征是抽象的表征，它与像素点RGB值并没有简单直接的对应关系。仅仅使用像素表征，就好比一个人虽然能够指出每一个微观的点的颜色，却无法辨识宏观物体。）

4. 拓展

集智俱乐部曾对该论文发起一次夜读分享，以下内容为夜谈中的部分扩展。

基因与表型

人类基因组计划的完成曾引发一场科学认知的革命性期待——正如密码学家破译密文般，研究者们试图通过基因测序揭示生命本质的终极密码。这种"基因决定论"范式将DNA序列视作生命现象的解码手册，预设了从碱基对到生物性状的线性对应关系。

但随着表型组学研究的深入，科学界逐渐认识到生命系统的深层悖论：尽管基因型构成了生物发育的原始图谱，但表型表达实质上是时空动态的涌现过程。语言能力、认知特征等复杂表型无法在胚胎基因中直接读取，正如芯片的硅基结构不能预判软件系统的智能层级。

这种认知转折揭示出生命科学的根本困境：基因编码如同未标注参数的算法框架，其具体实现需要经历细胞分化、表观遗传调控、环境交互等多层级动力学过程。

如果我们把人工生命的初始条件和规则看作基因，如果构建了以下的一套模型，是否也预示着我们找到了某个生命密码？

如果图下方的实验成功，那么必将为生命科学带来新的启示

混沌边缘的超级参数

我们可以发现，ASAL的框架与上述框架还具有一定的差异性。但如果我们将ASAL中间过程当作黑盒，那还是可以与上述框架同构的。

但在ASAL的黑盒里，存在一个计算模拟的过程。也就是说，这里涉及到了一个核心概念，即整个生命生长过程是否可以计算可约的（Wolfram在《The new kind of science》中的概念）。也就是说，我们能否通过参数就判断生命的形式和表现，而不用对其进行模拟计算？

答案似乎是可行的。

计算机科学家克里斯托弗·朗顿 Christopher Langton曾在元胞自动机中发现的过渡现象，数学家Doyne Farmer将这种现象命名为混沌边缘。混沌边缘最初是指变量λ的区间，在该区间内观察元胞自动机的行为发生变化。随着λ变化，元胞自动机的行为发生了相变。

这里有个超级参数λ

当λ=0 0.1，所有的细胞被吸引到一种固定的状态，这相当于我们上一节叙述的第一类细胞自动机；

λ=0.2附近，系统在一些固定的状态之间周期的循环，这相当于第二类细胞自动机，λ=0.3的细胞自动机比λ=0.2的在开始的时候具有更复杂的结构；

λ介于大约0.3到0.6之间的时候，会出现相当复杂的结构。这些结构既不属于固定的周期或者固定值，也不属于完全的随机，因此这些细胞自动机属于第四类即“复杂型”。并且，随着λ的增长，复杂结构的维持时间也会变得越来越大；

λ>=0.6的时候，复杂的结构消失，系统将被吸引于一种完全随机的混沌状态。

详见可参看

https://wiki.swarma.org/index.php/%E6%B7%B7%E6%B2%8C%E8%BE%B9%E7%BC%98

也就是说，在简单的元胞自动机程序中，存在一个参数λ，不用运行模拟程序就知道大致的形式与表现。也许在不久的未来就能找到实验中人工生命的超级参数。

向前迈进

是可以基于寻找超级参数的框架来重新构建“搜寻人工生命”的底层框架，使用ASAL找到的人工生命为新的框架进行打标。这种方式从一定意义上也是一种蒸馏，相信不久的将来能发现人工生命中更底层的机理。

5. 总结

通过迈出使用基础模型自动搜索有趣模拟的第一步，在人工生命（ALife）中启动了一种新的范式。实验方法在广泛的基质上有效地找到目标、开放式和多样化的模拟。此外，基础模型使得能够量化人工生命中许多定性现象，为用与人类对齐的深度表示取代复杂性指标提供了一条路径。智俱乐部也欢迎各位加入探讨人工生命以及其底层数学机理，我们将围绕复杂适应系统的计算本质展开深度解构。

《一种新科学》读书会

《一种新科学》作为Stephen Wolfram的开创性著作，在人工智能蓬勃发展的今天重新焕发生机。该书探讨的简单程序生成复杂性、计算普遍性和涌现行为等核心概念，与现代AI和大语言模型的基本原理高度吻合。最近社区成员韩司阳等老师积极推动《A New Kind of Science》在国内的翻译出版工作，所以集智俱乐部联合社区成员韩司阳、章彦博、徐恩峤、张江一起联合发起关于这本书的读书会，从9月1日起，每周日上午10:00-12:00开始系列的讨论，欢迎大家加入读书会，做读书会分享或者认领翻译任务。

本次读书会主要是为了聚集更多对这本书和这套理论感兴趣的探索者一起深度交流碰撞，并组织有能力的研究者一同将这本20年的经典巨作翻译成中文版；同时也是想借此机会，能够深入重读经典《A New Kind of Science》，挖掘与当前人工智能和大模型研究有着深刻联系，学习Wolfram的跨学科方法和对自然界模式的研究，为AI算法优化和系统设计提供了新视角。帮助更多的学术研究者和技术应用者从更广阔的科学哲学角度审视AI技术，深化对AI本质的理解，并可能激发解决当前AI挑战的创新思路，为探索AI的未来发展方向提供启示。