原创 小鹿 2025-05-15 14:55 北京
今天凌晨,Google DeepMind 重磅推出了耗时一年半研究的智能体—— 「AlphaEvolve」,一个由 Gemini 驱动的通用科学智能体。
不止能解决 300 年数学难题,还用于发现新算法、改进芯片设计。
数学家陶哲轩也参与了这项工作:
发布后,网友给出超高评价:这是“AlphaEvolve 是数学界的 AlphaGo‘第 37 步’时刻”!
何为 AlphaGo 的‘第 37 步’时刻”?
2016 年,谷歌 DeepMind 开发的 AlphaGo 和世界围棋冠军李世石进行对决。在第二盘比赛中,AlphaGo 在第 37 手下出了人类围棋高手前所未见的一步(即“Move 37”)。这一手完全跳出了传统围棋棋手的思维,被许多围棋专家当场认为是“失误”或“怪手”。但随着比赛进程,这步棋展现出了极高的深度和远见,成为了 AlphaGo 最终获胜的关键转折点。
所以,“第 37 步时刻”象征着 AlphaEvolve 在数学上已经开始展现出类似 AlphaGo 当年那种突破性的创造力,能够做出人类未曾想到的、甚至是重大意义的发现。
DeepMind 科学负责人 Pushmeet Kohli 也在 x 上猛猛宣传了下 AlphaEvolve:
除了用来解决数学难题,公司已经将 AlphaEvolve 应用到了实际工作中。比如,优化了新一代 AI 芯片(TPU)的设计方案,以及提高了 Google 全球计算资源的利用效率,节省了约 0.7% 的总资源消耗。它产生了显著的实际效果
AlphaEvolve 目前的战绩如何呢,据 DeepMind 研究团队自述:
目前 AlphaEvolve 被用于攻克数学分析、组合学、几何学等领域的开放性难题。
75% 的情况下,AlphaEvolve 能够重现已知的最优解;
在 20% 的情况下,甚至能够发现超越现有记录的全新最优方案,
在其余 5% 的案例中,其生成的解法则略逊于已知最优水平。
除了推进数学和算法发现的前沿,AlphaEvolve 在真实场景中也开始发光发热了,谷歌目前已将 AlphaEvolve 应用于其计算生态系统(数据中心、硬件、软件),来提升整体效率:
数据中心调度: 发现一种启发式算法,将全球计算资源利用效率平均提高 0.7%。
硬件设计: 提出 Verilog 重写方案优化 AI 加速器(TPU)电路,已集成到即将发布的 TPU 产品中,加速定制芯片设计。
AI 训练与推理:
优化矩阵运算,将 Gemini 架构关键内核加速 23%,缩短 Gemini 训练时间 1%,节省计算成本并减少工程时间。
优化低级 GPU 指令,将 FlashAttention 内核加速高达 32.5%
矩阵乘法,56 年来首次进步
AlphaEvolve 非常贴近“科学家智能体”的概念,因为其能主动提出解决复杂数学难题的新思路。
首次,将 4x4 矩阵乘法从 49 次运算减少到 48 次,是 56 年来首次实现,超越了 Strassen 于 1969 年提出的、长期以来被认为是标杆的经典算法,
在计算机科学中,矩阵乘法是最基础且计算密集的运算之一,为了证明推动前沿的能力,研究团队让 AlphaEvolve 试图优化矩阵计算。
传统的矩阵计算对于两个 n×n 的矩阵 A 和 B,需要 O(n^3)次标量乘法(例如,2×22×2 矩阵需 8 次乘法)。当矩阵规模较大时,这种计算复杂度在时间效率上存在瓶颈。
1969 年科学家 Volker Strassen 发现,通过分治策略和减少乘法次数,可以降低矩阵乘法的时间复杂度。于是,他提出了一种递归算法:
将两个 2×22×2 矩阵的乘法从传统的 8 次乘法减少到 7 次,同时通过增加加法和减法的计算来弥补这一差异。
这一思想被扩展后,最终矩阵计算的时间复杂度降低至 O(nlog27)≈O(n2.81)O(nlog27)≈O(n2.81),成为首个突破立方时间复杂度的矩阵乘法算法。
而在此任务中,AlphaEvolve 经过系统性探索后成功发现了一种用于计算 4x4 复数矩阵乘法的高效算法—仅需 48 次标量乘法。
如下表所示:
表中总结了计算 𝑚×𝑛 矩阵与 𝑛×𝑝 矩阵乘积所需的标量乘法次数上限,即对应三维张量的秩。AlphaEvolve 针对多种矩阵维度组合⟨𝑚, 𝑛, 𝑝⟩进行了迭代分析测试,对于所有测试的参数组合且 𝑚, 𝑛, 𝑝 ≤ 5 的情况,AlphaEvolve 发现的算法要么匹配、要么超越了当前已知的最优解决方案。
对于诸如⟨3,4,7⟩、⟨4,4,4⟩以及⟨4,4,8⟩等特定维度组合,AlphaEvolve 发现的算法创新性地运用了复数乘法原理,这些算法不仅适用于复数矩阵,也可高效应用于实数矩阵的精确乘法。
这一成果显著超越了 Strassen 于 1969 年提出的、长期以来被认为是标杆的经典算法,刷新了该领域的已知最佳结果。
300 年的接吻数问题
接吻数问题(Kissing Number Problem)是离散几何领域的一个经典难题,难点在于确定在 N 维欧几里得空间中,最多有多少个互不重叠的单位球可以同时与一个位于中心的单位球相切。
这个问题自 17 世纪提出以来,已困扰数学界长达三百余年。
在 d 维空间中,这个最大数量被称为 d 维接吻数(d-dimensional kissing number)。对于 d = 11,此前已知的最佳下界是 592 。
为了证明 11 维接吻数的下界比 592 更多,AlphaEvolve 找到了一组由 593 个 11 维向量构成的集合,这些向量经过适当的缩放后,满足成为有效接吻构型中心点的几何条件:
所有点到原点的距离(范数)相等,记为 C:||p_i|| = C,对所有 i 成立。
任意两点之间的距离严格大于这些点的范数:mini≠j ||p_i - p_j|| > C。
基于这一发现,通过将所有点以 2/C 的比例进行缩放,得到新的点集 {q_i = (2/C) * p_i}。
此时,新的点满足 ||q_i|| = (2/C) * ||p_i|| = (2/C) * C = 2,且 mini≠j ||q_i - q_j|| = (2/C) * mini≠j ||p_i - p_j|| > (2/C) * C = 2。这样就获得了 593 个 11 维点 q_i,它们距原点距离为 2,且相互之间的距离均大于 2。
以这些点为中心放置单位球,它们将恰好与位于原点的单位球相切(距离为 2),同时彼此之间互不重叠(距离大于 2)。这个构型直接证明了在 11 维空间中可以存在至少 593 个单位球同时与一个中心单位球相切而不重叠,从而确立了 11 维接吻数的下界为 593(大于原本的 592 个)。
AlphaEvolve 如何实现
AlphaEvolve 通过自动化计算流程与大语言模型的协同作用,采用进化算法框架迭代优化,逐步提升候选程序在预定义评估指标上的表现。主要由三个部分组成:
大语言模型:负责理解问题背景和需求,综合已有知识及先前的探索结果,并生成新的候选算法或对现有代码进行变异
自动评估器:接收和执行候选算法,根据预定义的评估指标对其进行量化评分,为进化过程提供反馈信号。
进化框架:迭代改进所发现的最佳算法,并重新组合不同解决方案的想法,以找到更好的算法
AlphaEvolve 的进化循环由用户提供的初始程序模板、评估函数及可选配置启动。用户需预先定义一个评估函数 h ,该函数以固定输入/输出接口运行,将生成的解决方案映射为一组标量指标。
例如,在数学问题中,h 可能仅需验证图的属性并返回其大小作为分数;而在机器学习任务中,h 可能需要执行完整的模型训练与测试流程以量化性能。
通过执行以下步骤实现算法进化:
提示采样:从程序数据库中抽取历史解决方案,结合用户提供的上下文,构建结构化的 Prompt 以引导 LLM 生成修改建议。
代码变异:LLM 根据提示生成差异指令(Diffs),对初始程序的指定组件(如优化器、损失函数或超参数)进行修改,形成新程序;
性能评估:评估器执行新程序并调用评估函数 h 计算得分,筛选更好的方案;
数据库更新:保留优质程序至程序数据库,驱动后续迭代。
Deepmind 将智能体设计成多模型的协同策略,可以更换为市面上不同的 SOTA LLMs。根据性能对比,AlphaEvolve 的性能与其所使用的 LLM 的能力高度相关—采用性能越强的 LLM,智能体在算法发现和优化任务上的表现越出色。
目前 Deepmind 的 AlphaEvolve 上的探索结合了自家双子座 Gemini 2.0 系列的两个变体,既能最大化评估的想法数量,同时也能保留由重大改进的潜力和整体发现过程:
Gemini 2.0 Flash:凭借低延迟,速度快的特性,在单位时间内生成大量候选修改方案,提升进化搜索的探索广度;
Gemini 2.0 Pro:通过更强的生成能力,提供偶尔的高质量建议,推进进化搜索并可能带来突破。
结语
Google DeepMind 团队强调,AlphaEvolve 的核心方法论具备高度通用性,其理论适用范围覆盖所有能够将问题解决方案形式化表达为算法。
而这样的能力使其成为一个有潜力的专家能力增强工具—能够显著减少他们在特定优化任务上的投入,从而解放精力聚焦于更具战略价值的创新工作。
但是,外部研究人员对此成果也提出了审慎的看法。
美国俄亥俄州立大学的 AI 研究人员 Huan Sun 表示:
在更广泛的社区进行测试之前,我会保持谨慎的态度,谨慎对待当前的报告结果。
牛津大学数学与 AI 研究人员 Simon Frieder 肯定了 AlphaEvolve 在特定数学问题上能够极大地提升解题速度,但同时也指出:
该系统目前主要适用于那些能够通过代码或明确算法结构表达的问题,这可能限制了其应用范围的广度。个人更倾向于等待类似能力的开源工具出现,而非依赖 DeepMind 可能随时修改或撤回的专有系统。
Simon 的发言其实牵连到了一个很引人深思的问题:AI 工具在整个科学发现链条中位置。
目前很多重要的、待解决的难题,其挑战往往在于如何将一个模糊或高度复杂的实际问题转化为一个可计算、可形式化的算法问题。
即使,目前科学发展的进度是可以在某种形态上将算法问题形式化,但是如果依赖工具解决看似已经被清晰定义为算法的问题,那么这些其实还是原始、未被形式化的问题的答案就会受到限制。
在实际研究中,底层的优化发现(就像 AlphaEvolve 在矩阵乘法上的突破)本身就可能激发新的概念和研究方向。依赖外部黑箱工具可能切断这种从底层发现到高层概念的研究回路。
家人们怎么看呢 ~ 欢迎评论区和我们一起讨论 ~
参考文献https://x.com/GoogleDeepMind/status/1922669321559347498https://arstechnica.com/ai/2025/05/google-deepmind-creates-super-advanced-ai-that-can-invent-new-algorithms/https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdfhttps://mp.weixin.qq.com/s/Ut-g63SKJ6LR11_8RydaYg