原创 集智与上智院 2025-05-06 21:35 上海
让AI自主或半自主地执行科研活动
导语
上海科学智能研究院、集智科学研究中心和阿里云联合发布了《AI × Science十大前沿观察》,梳理出35个研究前沿,来推动科学发展的黄金时代到来。本篇为前沿观察4,扫描下方二维码,可获得完整版下载地址,并能快速链接论文原文。
AI科学家
AI科学家
背景介绍
AI科学家(AI Scientist)是一种能够自主或半自主地执行科学研究活动的人工智能系统。这类系统试图模拟人类科学家的研究方法和思维过程,能够参与从研究构思到实验验证再到成果输出的完整科研周期。随着数据、算力驱动的AI技术快速发展,AI科学家系统经历了显著演进,可以分为两个主要阶段:
第一阶段:基于数据驱动的自动发现期(2020年前)
最初的AI科学家系统主要依赖于符号回归和数据驱动方法进行科学发现,采用RNN模型、图网络模型、神经微分方程等,聚焦于从观测数据中自动提取科学规律和定律,而无需深入的领域先验知识。代表性工作包括:
Al Feynman系统[1]:通过提高符号回归的噪声鲁棒性与方程识别精度,展示了在复杂数据中发现科学公式的能力。该系统采用Pareto优化的符号回归方法,利用图模块性来提升性能。
Al Poincare系统[2]:专注于在动态数据中发现守恒定律。该系统能够从未知动力学系统的轨迹数据中自动识别和提取守恒量,为物理定律的发现提供了新的途径。
AI Physicist系统[3]:通过模仿物理学家的四种关键策略——分而治之、奥卡姆、统一化和终身学习,实现了对物理规律的无监督学习。
第二阶段:基于智能体的全流程自动化探索期(2020-2024)
随着大语言模型出现,AI科学家系统开始成为自动科研探索的 AI智能体(Agent):不再局限于单一数据分析任务,而是尝试参与从初始构思到实验验证再到论文撰写的完整科研周期。
通过对LLM在科学文献上的预训练和针对性微调,以及思维链(CoT)、检索增强生成(RAG)等技术应用,使AI科学家能够自主感知和决策,模拟人类科学家的推理过程,并通过工具扩展进行各种科研操作。再加上与传统的复杂系统建模方法深度融合,使得AI科学家具备全流程的科研能力。
其中 The AI Scientis[4]和 Coscientist[8] 是两篇比较重要的工作,前者实现了「规划-执行-反思」范式的Agent框架,后者则实现了从化学实验设计到硬件控制的深度集成,以及对AI科学家的优化改进,例如西湖大学开发的Nova系统[9]通过创新的技术框架将创意生成效率提升了2.5倍。下面将重点介绍这几项工作。
研究进展
进展目录
1. AI科学家与自主科研智能体
2. 科学家助手
AI科学家与自主科研智能体
推荐理由: AI科学家(The AI Scientist)是第一个完全自动化的科学发现系统,能够独立完成从研究构想到实验设计、结果分析、论文撰写到模拟评审的全过程[4]。
AI科学家(The AI Scientist)能够从广泛的研究方向和一个简单的初始代码库开始,无缝地执行构思、文献搜索、实验规划、实验迭代、撰写论文和同行评审,以产生有洞察力的论文。The AI Scientist自动化了整个研究生命周期,包括生成新的研究想法、编写必要的代码、执行实验、总结实验结果、可视化结果,并在完整的科学论文中展示其发现。
The AI Scientist:一个LLM驱动的端到端科学发现流程 | 来源:"Lu, C., Lu, C., Lange, R.T., Foerster, J., Clune, J., & Ha, D. (2024). The Al Scientist: Towards Fully Automated Open-Ended Scientific Discovery."
The AI Scientist框架能够以一个开放的循环的方式运行,这意味着它可以不断地迭代和改进。在每次循环中,系统都会基于前一次的研究成果来生成新的想法和假设,然后进行实验验证和论文撰写。这个过程可以无限重复,每次迭代都会在前一次的基础上进行改进。通过自动化的同行评审和反馈机制,The AI Scientist还能够识别和改进其研究中的不足之处。这些评审和反馈会被用来指导下一代研究想法的生成,使得新的研究能够建立在之前研究的基础上,从而实现持续的改进和创新。
整个框架模仿了人类科学社区的工作方式,包括想法的生成、实验的执行、结果的分析、论文的撰写以及同行评审。这种模仿不仅包括科学研究的技术层面,还包括了科学社区中知识共享和反馈的社交层面。通过这种方式,The AI Scientist能够模拟人类科学家的合作和竞争,推动科学发现的进程。
在此基础上,西湖大学蓝振忠团队研发的Nova系统带来了突破性进展[9]。Nova专注于科研创意生成环节,通过创新的技术框架,将创意生成效率提升了2.5倍。当The AI Scientist生成2个创意时,Nova已能产出5个高质量的创新想法。Nova采用迭代规划、外部知识检索、检索增强生成等先进技术,确保生成想法的质量、多样性和新颖性。实验评估显示,Nova生成的想法超过80%都是不重复的,在人工评估中获得了最高的整体质量和新颖性评分。
The AI Scientist框架以开放循环的方式运行,通过不断迭代和改进来推进科学发现。而Nova则通过其独特的技术优势,极大地提升了这一过程中创意生成的效率和质量。Nova的发展规划分为三步:首先在单一领域实现创新并验证效果,然后拓展到多学科领域,最终目标是实现自主的科学探索和商业创新。
Nova模型:通过迭代的方式制定搜索识别新颖性和多样性的文献,使得模型能够不断优化生成的想法 |来源:"Nova: An Iterative Planning and Search Approach to Enhance Novelty and Diversity of LLM Generated Id."
此外,AMD推出的由 GPT-o1-preview 驱动的 Agent Laboratory 系统[10],则通过整合生成式AI与半导体芯片协同设计能力,通过文献综述、实验、撰写报告三个阶段,每一阶段分配都有不同的任务、工具和AI Agent角色,将实验数据处理效率提升40%,平均每年为科研团队节省84%的经费支出。该框架接受人类提供的研究想法,允许用户在每个阶段提供反馈和指导,可以产生全面的研究成果,包括代码库和研究报告,并达到了最先进的性能。
Agent Laboratory:以人类的研究想法和笔记为输入,分任务和角色喂给专门的研究智能体,最终产出研究报告和代码库 |来源:"Agent Laboratory: Using LLM Agents as Research Assistants"
同时,斯坦福与哈佛大学的研究人员提出了一个将严格的统计原则与基于LLM的智能体相结合的自动化假设验证框架POPPER[11]。该框架受卡尔·波普尔(Karl Popper)的证伪原则启发,通过设计和执行针对假设可测量含义的证伪实验来验证假设。POPPER使用两个专门的LLM智能体:实验设计智能体和实验执行智能体,前者负责识别可测量的子假设并设计证伪实验,后者则负责实施实验并生成p值以总结实验结果。此外,POPPER引入了一种新颖的序贯测试框架,通过将多个潜在相关的LLM生成测试的证据聚合在一起,同时严格控制第一类错误率,从而构建动态化决策机制并保障统计严格性,决定是否拒绝假设、进行进一步实验或终止验证过程。
POPPER架构概览 | 来源:"Automated Hypothesis Validation with Agentic Sequential Falsifications"
POPPER在六个领域进行了验证,包括生物学、经济学和社会学等,展示了强大的错误控制能力、高功效和可扩展性。与人类科学家相比,POPPER在验证复杂生物假设时表现出了相当的性能,同时将时间缩短了10倍,为假设验证提供了一个可扩展且严格的解决方案。该框架的提出为科学发现提供了一种新的工具,能够有效地从大量假设中筛选出有价值的假设,减少手动验证的工作量,提高研究效率。
这几个系统的出现标志着AI辅助科研进入新阶段。The AI Scientist 提供了完整的科研流程自动化框架,Nova大幅提升了创意生成的效率和质量,Agent Laboratory 则大幅度降低了科研成本预算,POPPER可以进行自动化假设验证。另外,Open AI 推出的基于Chagpt-o3模型的 Deep Reseach 自主研究智能体[12],也展现出强大的独立文献检索、数据分析和研究综述工作能力。这些系统的的结合将极大推动科研效率的提升,为未来全自动科学探索开辟新的可能。
除此之外,随着AI技术和大模型的迅猛发展,2024年还涌现出多项科学使用LLM辅助科研的研究成果,如[5][6][7]等。这些成果不仅改变了科学研究的方式,提升了科研效率,未来有望在各个领域实现更具规模的全自动科学探索。
科学家助手
推荐理由: 本篇论文试图解决如何将大型语言模型(LLMs)应用于自动化化学研究全流程的问题[8]。亮点在于开发了一个名为 Coscientist 的AI智能体系统,能够自动设计、规划和执行复杂的科学实验,并具有和信息检索,代码管理,自动化实验装置等模块相互交互的能力。
Coscientist 展示了与多个模块(如网络搜索、代码执行和文档搜索)交互的能力,从而获取和处理解决复杂化学问题所需的知识。此外,Coscientist 在化学合成规划、实验室硬件控制和多变量实验设计中也表现卓越,在优化实验和化学推理能力方面拥有特别的应用潜力。
Coscientist系统架构图 | 来源:Boiko, D.A., MacKnight, R., Kline, B. et al. Autonomous chemical research with large language models. Nature 624, 570–578 (2023)
a. 组成Coscientist的多个交互模块。b. 使用单模块或多模块时可组合出不同的实验类型。
Coscientist在化学合成规划上表现卓越,特别是在采用GPT-4模型时,能够提供详尽且准确的合成步骤。系统还能通过文档搜索模块理解并运用技术文档,比如Opentrons Python API和Emerald Cloud Lab的SLL,增强了实验的精确度和可靠性。
在硬件控制方面,Coscientist 能精准操控液体处理设备,完成复杂的实验任务,显示了其在实际应用中的适应性和灵活性。它还能利用网络数据进行计算,并编写代码以规划和执行催化交叉偶联实验,展现了解决实际化学问题的能力。
Coscientist 的化学推理能力同样出色,能够获取信息、处理复杂问题,并设计实验方案,这些都是衡量智能代理在化学领域应用的关键指标。这些成果不仅证实了LLMs在化学研究中的应用潜力,也为自动化和智能化科学实验的未来指明了方向。
Coscientist 是在化学领域专用的科学家助手,在通用领域,Google 推出的 AI Co-scientist 则是一个强大的跨学科科研助手系统 [13] 。
AI co-scientist 多智能体系统中的不同组件以及系统与科学家之间的交互范式的图示 | 来源 Google Research Team. "Accelerating scientific breakthroughs with an AI co-scientist" Google Research Blog, 2024。
AI Co-scientist 是基于 Gemini 2.0 构建的多智能体人工智能系统,定位为科研助手而非替代者,通过人机协作提升研究效率。它采用了六大核心智能体协同工作的架构:
Generation Agent (生成智能体):负责初步假设和研究方案的生成
Reflection Agent (反思智能体):评估假设和方案,提供改进建议
Ranking Agent (排序智能体):对不同假设进行排序和评估
Evolution Agent (进化智能体):基于现有假设生成新的研究思路
Proximity Agent (邻近性智能体):计算假设间的相似度,避免重复
Meta-review Agent (元审查智能体):总结分析所有假设和评估结果
系统采用了两项关键技术创新。测试时计算扩展:不同于传统AI模型在训练阶段消耗大量计算资源,Co-scientist在推理阶段投入更多算力,实现更深入的科学推理;科学辩论机制:通过多智能体间的“科学辩论”,互相质疑、补充,最终达成高质量的研究假设。
AI Co-scientist 一经推出,就带来了亮眼的科研成果。例如,在英国帝国理工学院的研究中,Co-scientist 仅用48小时就复现了科研团队耗时10年的发现。研究聚焦于 cf-PICIs(衣壳形成噬菌体诱导性染色体岛)在细菌耐药性传播中的作用机制。系统不仅独立提出了正确的假设,还额外提出了4个创新性理论方向。还有,在药物再利用研究中,提出了包括 Binimetinib、Pacritinib 等候选药物,准确预测了药物作用机制,实验验证显示多个预测结果具有显著疗效。
Google Co-scientist 的出现标志着AI辅助科研进入新阶段、扩展到了更多科学领域,它不仅能够加速科学发现过程,更重要的是实现了一种有效的新型人机协作模式。随着技术持续进步,我们有理由期待它能够帮助科研人员突破更多科学前沿,推动人类知识边界的扩展。
挑战与展望
挑战与展望
科学研究的全流程
随着AI科学家、Nova以及OpenAI基于强大基础模型的 Deep Reseach[12]等系统和功能的出现,AI科学家的发展展现出令人振奋的前景。一项[14]研究通过招募100多名NLP研究人员进行大规模人类评估实验,首次系统性地比较了人工智能系统与专家研究人员在研究创意生成方面的能力。研究发现,AI生成的研究创意在新颖性方面显著优于人类专家 (p<0.05),但在可行性方面略逊一筹。
因此我们可能开发更强大的AI科学家系统,从创新能力的跃升到全流程自动化的实现,在多个维度上推动科学研究范式的革新:
未来科学AI智能体参与科学研究全流程的设想
具体来说,AI智能体在未来将可以自动提出研究想法,设计实验,生成代码,运行实验,收集结果,并通过自动生成的可视化工具和语言总结实验结果,最终撰写完整的科研论文(见上图总结)。这种全流程能力大大提升了AI系统在科学研究中的自主性,减少了人类科学家在繁琐实验和数据分析上的投入。
虽然AI智能体在科学研究中的应用取得了显著进展,尤其是在仿真和数据驱动模型验证方面,但它们的自主自动化能力仍然存在不少局限性,特别是在涉及与真实世界交互的实验和科学探索领域。这些不足主要体现在以下几个方面:
与真实世界的交互能力有限:当前的LLM智能体主要依赖于仿真数据或现有数据集进行科学推理和实验设计。然而,真实世界中的实验涉及复杂的物理交互,要求系统能够实时感知、操控物理对象、处理环境不确定性。这是现有数据驱动模型所无法完全胜任的。LLM在这类场景中表现较弱,因为它们缺乏与实际物理系统的直接连接。
硬件支持不足:尽管LLM在软件层面表现出强大的计算能力,但与物理世界的交互需要更加智能化的硬件支持。具身智能(Embodied Intelligence)将成为解决这一问题的关键,它要求AI模型不仅在虚拟环境中进行推理,还要能直接控制物理设备并适应环境变化。现有的LLM代理还未能有效整合物理硬件和AI模型之间的协同工作。
实验自主性的局限:虽然LLM代理可以自动生成代码、设计仿真实验并撰写论文,但其“自主性”还不够强。例如,AI在面对新兴的、未被数据集覆盖的实验问题时,往往难以进行创新的实验设计。这限制了AI在基础科学研究中的探索能力,特别是在需要物理实验的领域(如材料科学、生物技术等),LLM往往依赖于预先设定的框架或模型,而缺乏真正的探索创新。
无法处理真实实验中的复杂变量:真实实验往往涉及许多复杂且难以预测的变量,如环境噪音、实验设备的差异以及意外情况。现有的LLM系统在应对这类不确定性时表现不佳,它们更适合处理理想化或简化的问题模型,而缺乏应对现实世界中随机性和复杂性的能力。
尽管当前基于LLM的AI智能体展示了其在科研自动化中的巨大潜力,特别是在数据驱动的仿真和分析方面,但它们在真实世界实验中的能力仍有待提升。要实现真正的自主科学发现,需要更强的AI模型、更智能的反馈迭代机制以及与硬件系统的深度结合。随着具身智能和更先进的AI技术的融合发展,我们有望在未来看到完全自主的AI科学家系统,不仅能够在虚拟世界中推理,还能够在物理世界中进行真正的科学探索,为人类的科学进步提供前所未有的动力。
参考文献
[1] Udrescu, S.-M., Tan, A., Feng, J., Neto, O., Wu, T., & Tegmark, M. (2020). Al Feynman 2.0: Pareto-optimal symbolic regression exploiting graph modularity. NeurIPS 2020.
https://www.nature.com/articles/s42254-023-00581-4
推荐理由:这篇论文介绍了Al Feynman 2.0,这是一个利用图模块化的帕累托最优符号回归算法,旨在从数据中自动发现物理定律 |
[2] Liu, Z., & Tegmark, M. (2021). Machine Learning Conservation Laws from Trajectories Phys. Rev. Lett. 126, 180604.
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.126.180604
推荐理由:这篇论文介绍了AI Poincaré算法,这是一个机器学习工具,能够从未知动力学系统的轨迹数据中自动发现守恒量,包括在五个哈密顿系统中发现所有精确守恒量以及周期轨道、相变和近似守恒定律的破坏时间尺度 。 |
[3] Wu, T., & Tegmark, M. (2019). Toward an artificial intelligence physicist for unsupervised learning.
https://journals.aps.org/pre/abstract/10.1103/PhysRevE.100.033311
推荐理由:这篇论文提出了一个名为“AI Physicist”的无监督学习框架,该框架通过模仿物理学中的四种策略——分而治之、奥卡姆剃刀、统一化和终身学习——来提高机器学习的性能。 |
[4] Lu, C., Lu, C., Lange, R.T., Foerster, J., Clune, J., & Ha, D. (2024). The Al Scientist: Towards Fully Automated Open-Ended Scientific Discovery.
https://arxiv.org/abs/2408.06292
推荐理由:这篇论文介绍了一个名为“The AI Scientist”的系统,旨在实现完全自动化的开放性科学发现,通过自我迭代的实验设计、执行和结果分析来推动科学进步。 |
[5] Guo, S., Deng, C., Wen, Y., Chen, H., Chang, Y., & Wang, J. (2024). DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning. Proceedings of the 41st International Conference on Machine Learning (ICML).
https://arxiv.org/abs/2402.17453
推荐理由:这篇论文介绍了一个名为“DS-Agent”的自动化数据科学系统,通过将基于案例的推理赋予大型语言模型,以实现完全自动化的开放性科学发现。 |
[6] Ma, Y., Gou, Z., Hao, J., Xu, R., Wang, S., Pan, L., Yang, V., Cao, Y., Sun, A., Awadalla, H., & Chen, W. (2024). SCIAGENT: Tool-augmented Language Models for Scientific Reasoning. Retrieved from arXiv:2402.11451v2.
https://arxiv.org/abs/2402.11451
推荐理由:这篇论文介绍了一个名为“SCIAGENT”工具增强型的大型语言模型,旨在通过结合特定领域的工具集来提升科学推理能力,使模型能够在多个科学领域中进行自动化的科学发现和问题解决。 |
[7] Chen, H., Shen, X., Ye, Z., Feng, W., Wang, H., Yang, X., Yang, X., Liu, W., & Bian, J. (2024). Towards Data-Centric Automatic R&D. Retrieved from arXiv:2404.11276v2.
https://arxiv.org/abs/2404.11276
推荐理由:这篇论文探讨了如何实现以数据为中心的自动化研发,旨在通过自动化的方法来加速科学研究和开发过程。 |
[8] Boiko, D.A., MacKnight, R., Kline, B. et al. Autonomous chemical research with large language models. Nature 624, 570–578 (2023).
https://www.nature.com/articles/s41586-023-06792-0
推荐理由:这篇论文介绍了一个由GPT-4驱动的人工智能系统,它能够自主设计、规划和执行复杂的化学实验,展示了在内的六项不同任务中的研究加速潜力,体现了大型语言模型在科学研究中的多功能性、有效性和可解释性。 |
[9] Hu, Xiang, et al. "Nova: An iterative planning and search approach to enhance novelty and diversity of llm generated ideas." arXiv preprint arXiv:2410.14255 (2024).
https://arxiv.org/abs/2410.14255
推荐理由:提出了一种创新的迭代规划和搜索方法,专门用于提升大语言模型生成内容的新颖性和多样性。所提出的Nova框架通过结构化的迭代探索过程,有效克服了LLM生成内容单一和重复的问题。 |
[10] Schmidgall, Samuel, et al. "Agent Laboratory: Using LLM Agents as Research Assistants." arXiv preprint arXiv:2501.04227 (2025).
https://arxiv.org/abs/2501.04227
推荐理由:这篇论文提出了一个创新的LLM驱动的自主研究框架"Agent Laboratory",通过文献回顾、实验和报告写作三个阶段实现端到端的研究自动化,实验显示该系统不仅能达到与现有方法相当的性能,还实现了84%的成本降低,为AI辅助科研提供了新范式。 |
[11] Huang, Kexin, et al. "Automated Hypothesis Validation with Agentic Sequential Falsifications." arXiv preprint arXiv:2502.09858 (2025).
https://arxiv.org/abs/2502.09858
推荐理由:这篇论文提出了一个将严格的统计原则与基于LLM的智能体相结合的自动化假设验证框架POPPER,能够有效地从大量假设中筛选出有价值的假设,减少手动验证的工作量,提高研究效率。 |
[12]OpenAI Team. "Introducing Deep Research: An Autonomous Research Agent." OpenAI Technical Report, 2024.
https://openai.com/index/introducing-deep-research/
推荐理由:该报告介绍了OpenAI开发的Deep Research系统,这是一个基于大语言模型的自主研究代理,能够独立完成文献检索、数据分析和研究综述工作。系统由最新的o3模型驱动,具有增强的推理能力、网络浏览功能和数据分析能力,可以显著提高研究效率,为科研工作者提供强大的智能辅助工具。该系统标志着AI辅助科研进入新阶段,有望加速科学发现过程。 |
[13] Google Research Team. "Accelerating scientific breakthroughs with an AI co-scientist" Google Research Blog, 2024. https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
推荐理由:该文介绍了Google开发的AI co-scientist 科研助手系统,展示其作为"AI联合科学家"在材料发现、实验设计等领域的实际应用。系统具备多模态理解、数据分析和知识整合能力,能协助研究人员完成文献分析、实验优化等任务。文章通过具体案例展示了AI助手如何加速科研突破,体现了大语言模型在科学发现中的实用价值,代表了AI辅助科研的重要进展。 |
[14] Si, Chenglei, Diyi Yang, and Tatsunori Hashimoto. "Can llms generate novel research ideas? a large-scale human study with 100+ nlp researchers." arXiv preprint arXiv:2409.04109 (2024).
https://arxiv.org/pdf/2409.04109
推荐理由:这项大规模人机对比研究首次证实了LLM在研究创意生成方面的潜力,通过严谨的实验设计和统计分析,不仅量化了AI在研究想法新颖性上的优势,也指出了当前系统的局限性。 |
出品:漆远、吴力波、张江
运营:孟晋宇、王婷
撰稿:张江、杨燕青、王婷、王朝会、十三维、周莉、梁金、袁冰、江千月、刘志毅
鸣谢(按姓氏拼音顺序,排名不分先后):
曹风雷 、陈小杨 、程远、杜沅岂 、方榯楷 、付彦伟、 高悦、黄柯鑫、李昊、刘圣超、谭伟敏、吴泰霖、吴艳玲、向红军、张骥、张艳、朱思语
AI+Science 读书会
6. 加入集智,玩转复杂,共创斑图!集智俱乐部线下志愿者招募