Google DeepMind 推出的 AlphaEvolve 系统,标志着 AI 正进入自我改进的新范式。该系统结合了 LLM 的创造性与自动化的 evaluator,能够自主发现和优化算法,并在数学、计算效率等多个领域取得突破性进展。AlphaEvolve 的核心在于其进化算法和 evaluator 组件,前者通过模拟自然进化持续迭代优化,后者则扮演“裁判”角色,评估 AI 生成方案的优劣。这一技术不仅能解决复杂计算难题,还将重塑科学研究范式,人类价值将更多体现在目标设定和规则制定上。尽管面临计算资源和 evaluator 构建的挑战,AlphaEvolve 的通用性和潜力预示着 AI 将成为科学发现的强大协作伙伴。
🔬 **AlphaEvolve 的核心机制与突破**:AlphaEvolve 是一个基于 LLM 进化算法和 evaluator 的通用算法发现与优化平台。其真正突破在于能够持续进行高强度、长时间的探索与优化,从而在高难度问题中挖掘出极具价值的发现。例如,它与人类数学家合作,在一周内两次刷新了 18 年未破的数学纪录,并优化了 Google 内部训练基础设施的关键计算模块,提升了 23% 的运行速度,标志着 AI 进入自我改进范式。其运作方式模拟了“算法自然进化”的过程,通过迭代生成、评估和调整策略来不断优化算法。
⚖️ **Evaluator 的关键作用**:Evaluator 是 AlphaEvolve 的核心组件,扮演着“裁判”的角色,负责对 AI 生成的算法或代码进行质量评估与反馈,帮助 AI 判断“什么是好的”,从而实现自我优化和改进。无论是模拟器、预测模型还是 LLM 自身的评估能力,evaluator 的质量直接决定了 AI 自我改进的深度和广度。在 AlphaEvolve 中,evaluator 不仅用于量化评估效能,还能确保方案在整个目标问题上的有效性,淘汰无效或低效方案,保留有创意的方案,并整合其核心思路进行迭代优化。
🚀 **AI 的自我改进范式与未来展望**:AlphaEvolve 的成功标志着 AI 正进入递归式自我改进范式,能够通过优化训练流程等方式提升自身效率,并可能在认知能力上实现突破。虽然目前反馈周期相对较长,但理论上通过设计高效可靠的 evaluator,AI 的自我改进是完全可能的。AI 的自我改进可能呈现一次性突破、收益递减或持续累积突破等多种模式。未来,人类的价值将更多体现在目标设定和规则制定上,例如通过 evaluator 来定义解决方案的优劣标准,并利用专业直觉为 AI 提供关键线索,从而重塑科学发现的边界。
🤝 **AlphaEvolve 作为人类协作伙伴**:AlphaEvolve 不仅是一个强大的工具,更是人类在科学研究中的协作伙伴。其生成代码的可解释性使得人类能够理解和审查 AI 的工作原理,从而做出明智的决策。通过与数学家等专家的合作,AlphaEvolve 能够揭示出人类未曾察觉的规律和对称性,带来新的数学见解。这种人机协同的知识探索过程,深化了人类对问题本质的理解,并让人类在清晰理解的基础上掌握最终判断权,而非依赖“黑箱”模型。
Ivy,Haozhen2025-07-18 20:04 北京
Evaluator 是核心组件
编译:Ivy,Haozhen编辑:Siqi
DeepMind 在今年 5 月发布了 AlphaEvolve 白皮书,人类数学家通过与 AlphaEvolve 合作,在一周内两次刷新了 18 年未破的数学纪录,甚至菲尔兹奖得主陶哲轩也直接参与了 AlphaEvolve 的数学应用探索工作。此外,AlphaEvolve 还在 Google 内部解决了许多实际问题,比如它将 training infra 中的关键计算模块的运行速度提升了 23%,这一突破性进展也标志着 AI 正在进入自我改进范式。
进化算法(evolutionary algorithm)是一类受生物进化过程启发的优化和搜索算法,通过模拟“适者生存”的原理,在一群候选解(称为“种群”)中,迭代地寻找问题的最优解或近似最优解。Evaluator 是一种自动化系统,用于对 AI 的输出信息或行为进行质量评估与反馈,帮助 AI 判断“什么是好的”,从而实现自我优化和自我改进。
目前 AlphaEvolve 不仅成功提升了 Google 数据中心的运行效率,还优化了芯片设计流程,加速了 AI 模型训练,AlphaEvolve 自身的模型训练进程也因此加快。此外,AlphaEvolve 还在如何设计更快的矩阵乘法算法和为开放性数学难题寻找全新解法等问题上取得了突破,显示出了在多个领域的应用潜力。AlphaEvolve 整体架构一直以来,如何让 AI 学会自主发现新算法都是一个关键课题,因为算法早已融入了我们生活的方方面面。这一探索的源头可追溯至 AlphaGo。当时 AlphaGo 击败了围棋世界冠军,依靠的是它能很快地推演棋盘上所有可能的变化,并找出最好的落子方法。这一突破让许多围棋专家和科学家都感到很意外,因为他们曾认为 AI 在围棋上超越人类还需要很长时间。但 AlphaGo 有力地证明了,大规模神经网络系统能够在巨大的搜索空间中进行高效地推理和探索,并能为特定领域带来意想不到的全新见解。比如在围棋领域,AI 就下出了著名的第 37 手,这是由 AI 发现的极具创造性的新招法。
2022 年 AlphaTensor 发布,这是一个基于 RL 的 AI 系统,专门用于解决矩阵乘法等具体的基础计算问题。它首次证明了,AI agent 可以自主发现比人类现有成果更优、结构完全不同的新算法。因此,AlphaTensor 成为了首个有力支持“AI 有能力在算法发现上超越人类”这一观点的系统。AlphaTensor 发现新算法不过,AlphaTensor 是一套专门为矩阵乘法优化的系统,只能在一个特定、有限的操作空间中进行搜索,因此,如何让 AI agent 能在更广泛的领域中继续发挥“超人类”的能力,就成了急需解决的问题。这也正是 FunSearch 诞生的契机。FunSearch 最初发布于 2023 年 12 月,是一个将 LLM 和 evaluator 结合起来的 agent,evaluator 允许 LLM 提出新的猜想或产生解决问题的新想法,在这种特殊情况下,LLM 的幻觉甚至都是有帮助的,因为一些幻觉可能是之前人类没有想到的新见解。虽然当时模型能力有限、方法也比较初级,但 FunSearch 却意外地找到了长期以来数学家都没有发现的全新算法,也就是说 FunSearch 首次证明了 AI 能够提出全新的解决方案,不过它仍需要人类先设定一个算法模板,模型才能在这个框架内搜索。FunSearch 运行流程而 AlphaEvolve 本质上正是 FunSearch 进一步的演化。因为 AlphaEvolve 去除了对算法模板的依赖,具备更强的自主性。它不仅能探索大规模、复杂的算法结构,还能在更少的函数调用下,通过更高效的搜索策略,更快地发现高质量的新算法,能力远超最初的 FunSearch。为什么人类没有发现 AI 提出的更优解法?AI 展现出的能力正在帮助工程师打破常规思维,发现全新解决方案。与此同时,AI 背后的机制也值得我们思考,尤其是当 AI 能在一些具有重大意义的问题上(如提升矩阵乘法效率)提出更优解法的时候:为什么这些更好的方法,过去一直没被人类发现?这个问题可以从问题本身的复杂性和 AI 整体发展历程这两个角度来解读。在问题的复杂性上,以前文提到的 Volker Strassen 在 50 多年前提出的矩阵乘法算法为例,这个算法结构非常精巧,但仅适用于 2×2 矩阵。当问题规模扩大时,搜索空间将变得异常庞大,算法构造方式也越发不直观,问题的解法几乎不可能被偶然发现,也不是人类自然思维的产物。在 AI 整体发展历程上,AlphaEvolve 所攻克的问题,不论是数学理论中的矩阵乘法,还是实际工程中的关键系统优化,一直以来都吸引着大量顶尖人类研究者的深入研究与持续改进。比如矩阵乘法是计算科学领域公认的难题,人类已经研究了几十年;而在 Google 内部,那些关键 infra 也早已在工程团队的多轮打磨下达到高度优化的状态。因此,AlphaEvolve 能在这些已被人类深度优化过的领域取得新突破,这本身就说明了两个关键点:1. 这确实是真正意义上的全新突破,不然的话,这些优化早就被人类实现了;2. 这个突破的实现难度极高,即使有众多优秀人类研究者的长期努力,也未能攻克。AlphaEvolve 如何帮助 Google 构建更高效的数字生态系统AlphaEvolve 运行机制类似自然界的进化过程然而,AlphaEvolve 在算法优化上的突破,并不意味着人类在矩阵乘法或数据中心优化等关键问题上的研究就失去了意义,相反,这一成果恰恰直观展示了 AI 是如何推动算法领域的进步的。以优化数据中心调度(data center scheduling)为例,我们可以看到 AlphaEvolve 是如何从初始代码开始逐步优化、最终演进为一个可以节省数百万美元电费的解决方案的。整个实现过程的核心在于用户对问题的精准定义。使用 AlphaEvolve 的关键前提是用户必须提供一个被称为 evaluator 的核心组件。这个组件扮演着重要的“裁判”角色:对于系统生成的每个候选解决方案,它都能进行客观、量化的效能评估。简单来说,用户通过 evaluator 定义了什么是优秀的解决方案。左图:AlphaEvolve 针对 Google 的任务负载和资源容量定制的函数;右图:评估函数的可视化结果,黄色区域表示评分较高,紫色区域表示评分较低在数据中心调度优化的场景中,evaluator 通常是一个已经存在的调度模拟器。这个模拟器能够接收不同的调度算法,模拟它们在实际环境中的运行效果,并输出关键性能指标。正是这种评估能力构成了创新的基础,因为任何实质性的改进都需要依赖可靠的手段来验证真实效果。一旦用户通过 evaluator 明确了问题边界,AlphaEvolve 便能智能地推动解决方案的生成。它既可以根据用户的指令,从零开始进行完全自主且富有创造性的探索,提出全新的解法;也可以在用户提供的、经过长期优化的初始解决方案的基础上,进一步迭代优化。数据中心调度案例采用的正是后一种策略,将现有、成熟的调度算法作为优化的起点。核心工作机制在于高层次的协同融合:LLM 负责发挥创造力,提出创新性的改进方案,用户提供的 evaluator 则作为严格的筛选标准,精确评估每个解决方案的效果,剔除无效方案。整个过程被嵌入到一个进化算法的框架中,实现持续优化与迭代。AlphaEvolve 的目标就是能够全面探索解法空间,避免陷入特定类型的局部最优,同时保留潜在方案的多样性。更关键的是,它能够在持续优化过程中整合不同方案中的关键思想,实现解法的渐进演化,最终生成足以支撑关键 infra 部署的高性能算法。AlphaEvolve 运作流程总的来说,AlphaEvolve 的运行机制类似自然界的进化过程。生物进化过程的本质就是在继承和变异中持续趋近于一个更优状态。对于 AlphaEvolve 来说,它在每一轮迭代中,都会基于前一代的最优个体,即当前最佳解决方案,进行优化。具体来说,AlphaEvolve 会通过重组当前最佳方案里的要素,或是引入全新的、具有突破性的构想,来生成性能更强大的下一代解决方案。因此,每一轮迭代都会推动解决方案整体性能的代际跃迁,使结果更加接近全局最优的那个目标。但 AlphaEvolve 这种运作规模与迭代特性需要解决两个核心问题:1. AI 如何适应不同规模与难度的问题;2. AI 迭代次数应该如何预测。而这两个问题也正是 AlphaEvolve 的优势所在。首先,AlphaEvolve 有强大的规模适应性。AlphaEvolve 能够根据问题的内在难度,智能地调整自身探索的深度与广度。当问题本身相对简单,甚至难度可能被高估了的时候,AlphaEvolve 往往能以极快的速度收敛,几乎瞬间就能给出可行的解决方案。但当挑战那些公认的难题,比如困扰科学界数十年的开放性问题,或涉及在 Google 核心业务上实际应用的算法优化时,AlphaEvolve 会投入更长的计算时间,进行更深入的空间探索与更复杂的思路融合。虽然“运行时间越长,结果越好”是一个常识,但在实际应用中,打造一个能够在长时间运行过程中保持稳定、高效,并能持续取得进展的自动化 agent,其实是一项极具挑战性的技术任务。AlphaEvolve 真正的突破也就在于它能够持续进行这种高强度、长时间的探索与优化,从而真正产生在高难度问题中极具价值的发现。此外,预测达成目标所需的具体迭代次数也是一个极大的挑战。有时,一个看似简单的问题可能实际上非常复杂,需要耗费大量计算资源;而另一些看似困难的问题,却可能存在意想不到的捷径。AlphaEvolve 的价值在于,它不需要用户对迭代次数有精确预判,用户只需持续运行系统,AlphaEvolve 就会驱动解决方案不断优化。例如,在优化 Google 的 computational infra 的过程中,AlphaEvolve 就是系统性地识别并挖掘了潜在的改进空间。这表明,AlphaEvolve 不仅能提升单一模块的性能,更具备在整个技术栈中实现高价值突破的潜力。为此,开发团队着重拓展了 AlphaEvolve 在多个技术层级的应用,并在发布的白皮书中展示了 AlphaEvolve 在提升数据中心效率、优化硬件设计、增强关键软件性能等方面的实际成果。这也进一步体现了开发团队的核心理念:AlphaEvolve 是一个真正通用的工具,具备跨越整个技术栈的广泛适用性。AlphaEvolve 白皮书目前,AlphaEvolve 已经在 Google 内部被用于解决多种实际问题,但还有大量复杂的计算难题有待攻克。开发团队认为未来会有越来越多依靠 AlphaEvolve 实现的成果涌现出来。02.AlphaEvolve 的关键组件是 evaluator引入强大的 evaluator 作为质检官当前,越来越多的普通开发者开始使用 coding agent,但有一个待解决的问题是,这些 agent 在面对相对琐碎的问题时,常常会“迷失方向”,难以自主找到可靠方案。而 AlphaEvolve 的出现,为解决这一难题提供了一个重要思路。通常,人们通过自然语言向 agent 下达指令,例如要求 agent 尝试用 X 完成 Y,但这往往只是部分信息,而非完整描述,因此 agent 据此生成的代码结果可能碰巧正确,也可能存在错误,关键在于用户如何判断结果是否正确。AlphaEvolve 能发挥出很大作用的关键就在于引入了一个强大的 evaluator 来充当严格的质量检测官。首先,AlphaEvolve 在探索过程中会不断涌现出创造性的想法,这难免产生错误,即幻觉,由于人们无法预判结果的正误,evaluator 在这个过程中就显得尤为关键。对于每个新想法,AI 会进行以下验证:1. 详尽测试:在模拟器或海量实例上运行,检验结论的适配性;2. 全局验证:确保方案在整个目标问题上有效,而非仅适用于局部。接下来,AI 会对生成的方案进行智能筛选,这正是 AlphaEvolve 的巧妙之处。AlphaEvolve 能够提出多样化的解决方案,evaluator 会严格筛选这些方案,淘汰无效或低效的方案,保留有创意的方案。随后,AI 会进一步整合这些优质方案中的核心思路,不断迭代优化,最终产出强大且可靠的算法。虽然当前 AlphaEvolve 主要依赖程序化的 evaluator,还没有与人类产生交互,但在某些特定情境下,引入人类评估者可能是有价值的。例如,当 AlphaEvolve 针对一个数学问题生成多个性能相似的算法时,如何选出最佳的那个算法,就可能需要人类介入,因为这不仅涉及算法性能,还涉及算法是否优雅、是否易于理解等主观性较强的人类评价维度。但 AlphaEvolve 在某些领域能否脱离物理实验,单凭算法推动科学发现的边界,还取决于 evaluator 与现实的贴合程度。如果算法被认为完全可靠,那么实验室验证就不是必须进行的了,但一旦算法和现实之间存在偏差,就需要将结果与现实世界的实验反馈相匹配。未来 LLM 自身可以成为 evaluator虽然当前 AI agent 在执行任务时受限于 evaluator 的能力,即它们能否很好判断一个方案是否有效、是否优越,但 AlphaEvolve 也为突破这些限制提供了两个思路。首先,虽然 AlphaEvolve 这类 agent 确实高度依赖精确的 evaluator,但这也恰恰凸显了这类 agent 的核心价值,因为这意味着,如果我们能针对一个关键问题构建出极其精准的 evaluator,那么这类 agent 就有潜力发现远超人类能力的解决方案。AlphaEvolve 之所以能取得成功,关键就在于它所应用的问题本身已经有明确的、可量化的评估标准。而且模型本身有可能协助构建更优秀的自动化 evaluator,因此,开发更精确、能覆盖更多领域的 evaluator 是一个值得重点投入的方向。其次,构建精确的 evaluator 并不是最重要的,未来最重要的是如何降低对完美 evaluator 的依赖。在实际应用中,用户往往难以像专业的产品经理那样清晰地表达需求,很多时候只能用模糊的自然语言向 coding agent 描述任务。这时,AI 就需要通过不断地与人协作来澄清需求,或者依赖有效的任务跟踪机制来推进工作。有一种可行的路径就是利用 LLM 自身来进行评估。例如,LLM 可以判断一个解决方案是否有前景,或者指出其中存在的具体问题。DeepMind 推出的 AI co-scientist 项目就是一个有力的例证:它让语言模型对自然语言提出的想法进行有意义的分析和判断,从而成功区分出优劣。这表明,LLM 本身可以成为评估的重要工具。
DeepMind 的 AI co‑scientist 是由多个基于 Gemini 2.0 的 AI agent 组成的协同系统,目的是协助科研人员从海量文献中生成、评估、推演科学假说,从而加速药物重定位和生物医学发现。该工具已在斯坦福大学和帝国理工的肝纤维化实验中验证了 AI 的建议策略具备潜在抑制效果,展示了 AI 在科学研究中的价值。
AI co-scientist 概览上述两种方案看起来就像是处于两个极端,一端是精准、严格的评估机制,能够提供具体明确的评分;另一端则是基于 LLM 的自然语言评价,但介于两者之间的,还有模拟器和各种辅助评估的函数。尽管这些方法可能并不完美,但只要它们与真实目标存在一定关联,就可以借助进化算法等,围绕这些不完美的 evaluator 不断迭代优化。尽管过程可能需要更多轮次,但依然有可能带来实质性的进展,比如,AlphaEvolve 的 evaluator 就不是完美的。
模拟器指的是一个可交互的虚拟环境,能模拟现实世界或特定系统的行为,可以用来训练和评估 agent 在其中的表现。它允许 AI 在无需现实成本的情况下进行大量试验与学习。
但模拟器通常只在特定问题上有效。要验证解决方案的普适性或特定属性(如“始终满足某种性能”),可能需要额外工作,比如引入一个“证明 agent”来尝试形式化验证。值得一提的是,agent,尤其是采用进化策略(即利用种群进行搜索)构建的 agent,在大规模搜索方面非常高效。它们能在广阔的解空间中探索,为那些困扰人类多年甚至数十年的重要问题,找到出人意料的创新方案。当没有模拟器时,基于 LLM 的 evaluator 可以审视解决方案并对它的质量进行推测。这种方法在实践中已被证明非常有效,比如 DeepMind 的 AI co-scientist 采用多 agent 协作,让 agent 自己判断哪些假设在新颖性、重要性和影响力上更优,从而确定优先级。令人惊讶的是,这种机制最终产生的结果,超越了基础大模型单独生成的能力。这意味着,通过精心设计,人们确实能够引导 agent 发现超越模型原始能力的新知识。03.AI 正在进入自我改进范式早期阶段目前,AlphaEvolve 已展现出强大的自我改进能力,比如在 Google 的 training infra 中,成功将关键计算模块的运行效率提升了 23%,优化了训练流程,使得下一代模型(如 Gemini)的训练变得更加高效。这一突破性进展标志着 AI 可能正在进入递归式自我改进范式,这将影响技术演进的核心路径。不过,我们也需要清晰认识到当前成果的缺陷:这种进步主要体现在效率层面,而非模型在认知能力上的根本突破。有一个重要但还没有得到验证的问题是:优化训练流程是否不仅能加快训练速度,还能显著提升底层模型在关键认知任务中的表现?这也是该领域未来值得深入探索的重要方向。此外,目前 AI 自我改进的反馈周期相对较长。AlphaEvolve 对 training infra 的优化效果主要是体现在下一代模型的训练过程中的,这意味着反馈周期可能长达几个月,因此,虽然 AlphaEvolve 展现了 AI 自我改进的能力,但距离实时、紧密的递归循环还有一定差距。但理论上,实现更深层次、更广泛的 AI 自我改进是完全可能的,关键在于能否设计出高效且可靠的 evaluator,比如 evaluator 需要能准确判断某个改进方案是否真的会产生预期中的良好结果。目前没有理由认为这样的 evaluator 是无法构建的,但需要持续的研究投入和工程努力。Evaluator 的质量是实现更高级的 AI 自我改进能力的关键。值得注意的是,AlphaEvolve 展示了 AI 自我改进并非只有一种路径,而是有多种潜在的发展方向:1. 一次性突破:AI 的自我改进可能仅获得一次显著提升,之后会停滞不前; 2. 收益递减:AI 的自我改进能够持续发生,但每次提升的幅度会逐渐减小,最终趋近于某个能力上限;3. 持续累积突破:AI 的自我改进不断发生,且提升效果持续放大,形成指数级的增长潜力。AI 的自我改进最终会遵循哪种模式,或者是否会出现其他未曾预料的方式,科学家尚无法给出确切的答案。04.如何重新定义科学发现的边界?AlphaEvolve 重塑科学研究的范式推动科研进步的重要方向之一就是利用 AI 加速知识发现与创新。目前,AlphaEvolve 主要专注于数学和计算机科学领域,因为这些学科本身拥有强大的自动化评估机制,能够高效地判断各种方案的优劣。但这并不是 AlphaEvolve 能力的边界,比如在生物学或化学领域,我们在设计新分子的时候也可以利用模拟器或预测模型构建 evaluator,从而预测候选方案的效果。只要具备这样的评估机制,AlphaEvolve 就具备应用潜力。而且,AlphaEvolve 的进化之路仍在继续,开发团队正致力于提升它的能力和通用性,未来,AlphaEvolve 能在多个科学领域有广泛的应用。从更深层次看,科学探索的本质是“搜索”,也就是寻找合适的结构、解决方案或候选对象等。虽然传统科研常依赖偶然发现,但科学家们始终在努力提高这一过程的效率。如今,科研正朝着更加“理性化”的方向发展,计算方法与可量化的评估机制变得更加重要。