科学发现还是人类专利吗?
当世界还在为 AI 在数学竞赛中达到金牌水平而惊叹时,一项更加深远的突破正在悄然发生。与解决 IMO 题目这种封闭性问题不同,真正的科学发现是一个开放性的、长期的认知过程 —— 需要提出原创问题、设计实验方案、观察现象规律、形成科学假设,然后在不断的试错和迭代中逼近真理。
这个过程的复杂度远超任何标准化测试,它要求的不是计算能力,而是真正的科学创新思维。
由创智学院领衔的研究团队今日发布的 AI 超智能系统首次证明,AI 已经具备了进行完整科学发现的能力 —— 该系统在完全自主的条件下发现了 106 个超越人类设计的神经网络架构(在多个基准测试中超越了如 Mamba2 和 Gated DeltaNet 等强大的基线模型),更恐怖的是,它初步验证了科学突破可以像训练模型一样进行工业化量产。标志着我们正式跨入了长期自主超智能(Long-Horizon Superintelligence)的新纪元,科学发现进入 Scaling Law 时代!
从数学金牌到科学发现:认知复杂度的代际跃迁
近期 AI 领域最引人注目的成就之一是在数学竞赛中的突破表现。Google 等研究团队展示了 AI 系统在国际数学奥林匹克(IMO)等竞赛中达到金牌选手水平的能力,这无疑是 AI 推理能力的重要里程碑。然而,解决数学竞赛题目与进行科学发现,在认知复杂度上存在着本质差异。
数学竞赛虽然具有极高的技术难度,但本质上仍属于封闭性问题求解:题目边界明确,评判标准客观,解题路径虽然复杂但相对确定。AI 系统主要需要在有限的问题空间内进行深度推理和计算。而科学发现则完全不同。它是一个开放性的、长期的认知过程,包含了人类智慧的最高形式。长期以来,科学发现一直被认为是人类独有的认知能力,依赖于研究者的创造性思维和直觉洞察。特别是在人工智能领域,神经网络架构的设计更是被视为需要深厚专业知识和创新思维的高级智力活动。
由上海创智学院领衔的团队发布 AI 超智能系统:ASI-Arch,其成功设计彻底颠覆了这一认知。该系统基于先进的大模型技术,构建了高度自主的多智能体研究框架,能够完全独立地进行从问题识别、假设生成、实验设计到结果验证的完整科学研究流程。
论文标题: AlphaGo Moment for Model Architecture Discovery系统开源: https://github.com/GAIR-NLP/ASI-Arch网站地址: https://gair-nlp.github.io/ASI-Arch/
在长达数月的自主研究过程中,ASI-Arch 系统展现出了令人震撼的研究能力。系统共进行了 1,773 次独立实验,累计消耗超过 20,000 GPU 小时的计算资源,在无人干预的情况下,ASI-ARCH 自主发现了 106 个新颖且性能卓越的线性注意力架构,这些架构在多个基准测试中超越了如 Mamba2 和 Gated DeltaNet 等强大的基线模型。这一研究规模和效率远超传统人类研究团队的能力范围。
更为重要的是研究质量。系统并非进行盲目的随机搜索,而是表现出了与顶级科学家相似的研究直觉和逻辑推理能力。每一次实验都基于前期结果进行智能化迭代,展现出了真正的科学思维过程。这一突破意味着科学研究正在从传统的 「人力驱动」模式转向 「算力驱动」 模式,为加速科学发现开辟了全新路径。
突破性成果:106 个超越人类的创新架构
ASI-ARCH 系统成功发现了 106 个全新的线性注意力机制架构,每一个在性能指标上都显著超越了现有的人类设计方案。这些发现的重要性不仅在于性能提升,更在于设计理念的创新。系统提出的许多架构设计原理和优化策略,即使是该领域的顶级专家也承认此前从未考虑过。这表明 AI 系统已经具备了超越人类认知边界的创新能力。
正如围棋界的 「Move 37 时刻」 展现了 AI 的超人类策略智能,ASI-ARCH 的发现同样证明了 AI 在科学创新领域的超人类潜力。
为什么说这是 AI 架构设计的 「AlphaGo 时刻」?
传统的神经架构搜索(NAS)技术,本质上仍是在人类预先划定的巨大空间内进行组合与挑选,扮演着 「高级优化器」的角色,其创造力受到了根本性限制。
ASI-ARCH 则实现了质的飞跃。它代表了一次 从 「自动化优化」 到 「自动化创新」 的范式转变。借助大模型强大的认知和编码能力,ASI-ARCH 不再局限于已有的模块,而是能够像人类科学家一样:
提出全新的假说: 自主构想出前所未有的架构概念。实现并验证: 将这些新想法编写成代码,并通过严谨的实验来验证其有效性。超越人类范式: 发现那些超越现有设计范式和人类直觉的新架构。
这种从 「工具」 到 「研究伙伴」 甚至 「独立研究员」 的角色转变,正是其被称为 AI 架构设计领域 「AlphaGo 时刻」 的根本原因。它标志着 AI 已经开始涉足以往只有人类才能胜任的、更富创造性的科学发现过程。
「科学发现缩放定律」 的确立 (Scaling Law for Scientific Discovery)
本研究最具革命性的贡献是首次建立了 「科学发现缩放定律」。研究数据明确显示,科学发现的速度和质量与投入的计算资源呈现稳定的缩放关系。这一发现具有深远的意义。传统科学研究的进展速度受限于人类研究者的数量和能力,存在明显的瓶颈。而 「科学发现缩放定律」 表明,通过增加计算资源投入,可以系统性地提升科学发现的效率和质量。这意味着科学研究正在经历从 「人力密集型」 向 「计算密集型」 的根本性转变,为解决人类面临的重大科学挑战提供了新的解决方案。
ASI-ARCH 超智能是如何自主进行科学研究的?
ASI-ARCH 的核心是一个由 「研究员」、「工程师」、「分析师」 和 「认知库」 四个模块构成的闭环进化系统。
研究员 (Researcher): 作为系统的 「大脑」,负责提出创新的架构设想,并生成新的架构代码。它从历史经验和人类知识中汲取灵感,生成新的设计动机。
工程师 (Engineer): 作为 「动手者」,负责接收 「研究员」 的架构代码,并在真实的训练环境中进行训练和评估。
分析师 (Analyst): 扮演 「反思者」 的角色,它综合分析实验数据,总结成功与失败的原因,并将这些洞察提炼成新的知识,反馈给 「研究员」 以指导下一轮创新。
认知库 (Cognition Base): 如同一座 「图书馆」,存储了从近百篇人类顶尖论文中提取的核心知识,为 AI 提供人类专家的 「认知」 支持。
尤为关键的是,该框架引入了一个创新的 Fitness Function,它不仅评估模型的性能指标(如损失和基准得分),还引入一个 LLM 「专家评审」,对设计的创新性、复杂性等进行定性评估。这种设计有效避免了系统为了刷分而产生无意义设计的 「奖励黑客」 问题,确保了产出的架构既强大又优质。
实验结果解读:AI 「研究员」 全面超越人类顶尖模型
为了最终验证 AI 「研究员」 设计架构的真实能力,我们上演了一场 AI 与人类顶尖智慧的 「巅峰对决」。研究团队将 AI 自主发现的架构,与由人类专家精心设计、业界公认的强大基线模型(如 DeltaNet)、代表线性注意力最先进水平的 Gated DeltaNet,进行了严格、公正的正面比较。
实验采用了一种科学且高效的 「探索 - 验证」两阶段策略:
1. 探索阶段(20M 参数量级): 在此阶段,ASI-ARCH 在较小的模型规模上进行了大规模的 「海选」,旨在快速筛选出具有潜力的候选架构。令人惊喜的是,即便是在这个资源受限的探索阶段,AI 发现的大部分架构在核心指标上已经展现出超越人类 SOTA 模型的强大实力,为最终的成功奠定了坚实基础。
2. 验证阶段(340M 参数量级): 从探索阶段脱颖而出的高潜力架构,被放大到更大的模型规模进行 「终极验证」。在这一更接近真实应用场景的规模下,AI 架构的潜力被完全释放,其卓越性能也得到了充分的印证。
实验结果表明,我们将模型在覆盖常识推理、阅读理解等 12 个不同基准测试 中的表现进行了综合评估。AI 自主发现的架构(以白色背景标识),在综合平均得分上,全面超越了 Gated DeltaNet 等线性注意力基线,成功刷新了该领域的性能上限(SOTA)。
这张亮眼的成绩单揭示了 ASI-ARCH 的几项关键特质:
1. 综合实力更强,拒绝偏科: 最终的胜利并非依赖于在个别任务上的 「偏才」,而是在衡量模型综合智慧的平均分上全面领先。这意味着 AI 发现的架构在常识推理(如 PIQA、Hellaswag)、知识问答(如 ARC-Challenge、OpenBookQA)、阅读理解(如 SQuAD)等多样化的能力维度上都表现出了卓越且均衡的性能,是一种更鲁棒、更通用的智慧体现。
2. 学习效率更高,基础更扎实: 在衡量模型学习效率和语言建模基础能力的训练损失(Loss)和困惑度(PPL)指标上,ASI-ARCH 发现的顶尖架构普遍取得了更低的值。这意味着 AI 架构的学习效率更高,能用同样的数据学到更多知识,并且对语言规律的把握更精准。
3. 发现具备普遍性,而非偶然: 这次胜利不是单个 「天才模型」 的偶然爆发,而是 106 个新 SOTA 架构的集体涌现。这充分说明,ASI-ARCH 的发现能力是系统性的、可复现的。它找到的不是一个点,而是一片富饶的、全新的 「架构良田」。
总而言之,实验结果清晰地表明,由 ASI-ARCH 自主发现的架构,在同等条件下,其性能不仅超过了作为起点的基线模型,更是全面超越了线性注意力领域内由人类专家设计的顶尖模型。更重要的是,AI 通过自主探索,发现了人类未曾设想的、通往 「更优设计」 的新路径 —— 例如,它独立演化出了多种巧妙的门控机制与路径融合策略,这些设计在没有人类先验知识指导的情况下,实现了对计算资源更高效的动态分配,从而取得了更好的效果。这场在综合性能指标上的完胜,正是我们称之为 「AI 架构探索的 AlphaGo 时刻」 的最有力注脚。
AI 「研究员」 的设计哲学:涌现出怎样的智慧?
通过对 1773 次自主实验的深入分析,研究团队把模型分成两组:表现最好(SOTA)的 106 个模型和剩余的表现一般模型,发现了 AI 「研究员」在设计过程中涌现出的、类似人类科学家的设计模式与智慧:
(1)脚踏实地,聚焦经典:
ASI-ARCH 并没有盲目地追求 「新奇特」,而是展现出一种与人类顶尖科学家高度一致的工作方法论:在成熟、经过验证的技术之上进行迭代创新。
对 AI 所探索的全部架构进行组件分析,可以发现 AI 明显偏好使用 「门控系统(Gating System)」、「卷积架构(Convolutional Architecture)」 等经典且强大的组件。虽然 AI 也探索了 「物理启发机制(Physics-Inspired Mechanism)」 等大量新颖的 「长尾」 组件,但一个关键的区别在于:表现最好的 106 个模型(模型画廊,Model Gallery)的 「长尾分布」远没有其他模型那么严重。这表明,顶尖的 AI 设计收敛于一个核心且高效的技术集合,通过对这些关键技术的精妙组合与改良来实现突破,而不是漫无目的地追逐新颖性本身。
(2)从经验中学习,在分析中升华:
AI 创新的灵感从何而来?研究揭示了一个深刻的模式:要达到 「优秀」,AI 可以依赖于学习人类的先验知识(认知);但要实现 「卓越」 和真正的突破,对自身实验历史的深度分析和抽象总结必不可少。
对设计灵感的来源进行追溯,可以发现,对于所有模型,其灵感主要来源于对人类论文知识的借鉴(「Cognition」 占比 51.7%)。然而,对于顶尖的模型组,其设计灵感来源于对过往实验的自我反思(「Experience」)的比例(44.8%)显著高于其余模型(37.7%)。这证明了,虽然学习人类经验是基础,但通过自我探索、总结和发现来合成新颖解决方案的能力,才是 AI 产出颠覆性成果的关键。
(3)拒绝过分复杂的架构:
在架构搜索中,一个常见的误区是通过不断堆叠组件、增大参数量来换取性能提升。然而,ASI-ARCH 展现出一种内在的 「设计纪律」,拒绝了这种通过暴力堆砌复杂度来提升性能的简单策略。
尽管在实验初期 AI 会探索不同大小的模型,但在整个演化过程中,AI 设计的模型参数量分布始终保持稳定,并没有出现持续增长的趋势。绝大多数模型都稳定在特定的参数范围内。这表明,ASI-ARCH 是在一个相对公平的 「复杂度预算」 下进行真正的 「巧思」,寻求更高效、更聪明的架构设计,而不是依赖于 「堆料」。
ASI-ARCH 的成功标志着 「AI for AI research」(ASI4AI)新时代的正式开启。这一概念描述了 AI 系统能够自主进行科学研究、设计和优化下一代 AI 系统的发展阶段。在这个新时代中,AI 不再仅仅是研究工具,而是成为了真正的研究主体。AI 系统设计更强大的 AI 系统,形成自我改进的正向循环,这将极大地加速整个 AI 领域的发展进程。为促进全球 AI 研究的协同发展,研究团队做出了具有战略意义的决定:将全部 106 个突破性架构、完整的 ASI-ARCH 系统框架以及详细的研究过程数据向全球研究社区开源。这一开源举措将产生广泛而深远的影响。全球研究者将能够直接受益于这些 AI 自主发现的成果,并在此基础上进行进一步的创新研究。同时,开源的 ASI-ARCH 框架将为构建更多自主 AI 研究系统提供重要参考。
重新定义科学研究的未来
ASI-ARCH 不仅是技术突破,更是认知革命。它证明了机器可以进行真正的科学思维,而不仅仅是数据处理或模式匹配。这为解决人类面临的重大挑战开辟了全新可能性。从气候变化到疾病治疗,从新材料开发到基础物理理论,长期自主智能系统都有望在这些领域产生突破性发现。
随着科学发现进入 Scaling Law 时代,我们正站在人类文明史上一个前所未有的转折点。ASI-ARCH 作为长期自主智能的先驱,其历史意义将随着时间推移而愈发凸显。
我们不仅见证了 AI 从工具向伙伴的转变,更见证了科学研究从人类独有活动向人机协同探索的历史性跨越。这是认知能力的代际革命,也是人类文明加速发展的新起点。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
文章原文