原创 范阳 2025-02-13 18:35 上海
AI 科学家与 “做科学的元方法”。
在通用人工智能时代,无尽的前沿在自然科学,自然科学的发展会被 AI 推到极限( 其实自然和科学的定义也会被改变 ),而最终的目标是让所有人共同受益,这个过程可能没有那么快到来,但是现在是启始它最好的时刻。
今天分享的这篇文章是我认为最近最有价值的一个话题之一 —— 人工智能驱动的自动化科学 ( Autonomous Science )。而 “自动化科学” 的前沿在生物技术与生命科学,这可能也是 AGI 带给我们最大价值的领地,这里发展的时间不再是以“十年为单位”,也会逐渐的开始争分夺秒。初代的 AI 科学家和 “虚拟细胞” 已经开始变成现实,人类科学家也开始接触新事物——在数字世界中 “解剖” 致病机制,再通过强化学习迭代出完美药物,让决策机制变得极短,然后送到 “云实验室” 做现实世界的验证。
“ 当一切在计算环境中的优化( in silico )都已无法再更进一步时,真正的药物赏金猎人才正式进入现实世界——调用云实验室 API( cloud lab API )合成最优候选化合物,并利用日益完善的人体生物模型( models of human biology )进行实验测试。”
在文章的最后部分也分享了 “自动化科学” 和面向未来的做科学的元方法是什么样的,为什么现在是最好的开始时机。
这篇文章的作者是 Mackenzie Morehead,他是研究型风险投资基金 Compound 的研究者 & 投资人。
希望今天这篇文章对你有启发。
自动化科学(第一部分):一切皆可通过API实现
Autonomous Science Part I: Everything’s an API Away
作者:Mackenzie Morehead
Researcher & Investor, Compound
编辑:范阳
发表日期:2025年2月5号
如果 AGI 真的在几年内到来,你会选择打造什么?
在我们的优先级清单中,能够自动化进行科学发现的系统几乎位列榜首( A system capable of autonomously conducting novel science is at or near the top of our list )。经过多年的投资与研究,我们认为现在正是推进这一愿景的最佳时机——让 “自动化科学” 从简单的重复任务与优化问题,迈向更加开放的科学探索( autonomous science will graduate from automating repetitive tasks and optimization problems to increasingly open-ended scientific exploration )。
构建这样一个系统,核心在于整合多项技术,而这些技术本身都处于指数级增长轨道上。其中包括但不限于:
1. 理解当前主要存储于文献和数据集中的知识
2. 在此基础上进行推理
3. 生成可验证的假设或确定下一步行动
4. 能够在现实世界中执行实验
5. 在数字工具足够强大且能提供可靠结果的情况下,进行模拟实验探索(experimental exploration in silico)
在《自动化科学》( Automating Science )系列的第一篇文章中,我们将详细探讨这五大技术类别的最新进展、它们的发展轨迹、可能的未来演变,以及它们之间的相互联系。
知识图谱与数据池
Knowledge Graphs and Data Pools
生物医学知识的增长速度远超我们高效提取见解和生成新假设的能力。目前公开可用的文献数据包括 2500 万篇摘要、300 万篇全文,并且每天新增 4000 篇论文。这正是我们认为科学自动化可以切入的起点。
通过结合大语言模型( LLM )与传统检索方法,文献综合可以达到足够高的质量。在 Deep Research 之前,FutureHouse 曾构建过迄今最为巧妙的技术实现,并尝试自动化运行他们的文献爬取系统( literature crawling system ),以被动筛查论文内容,寻找与其主张相矛盾的文献。结果发现,大约 2% 的论文观点在其他论文中受到质疑或有争论。
一个更为雄心勃勃的项目是构建一个持续更新的知识图谱,其中包含机制性或因果性知识的各个片段( updating knowledge graph of individual fragments of mechanistic or causal knowledge )——这些知识被精心收集、整理和组装,以统一文献中的主张( collected, curated and assembled with care to unify the literatures' claims )。
去年,研究人员在这一领域取得了令人瞩目的进展,他们构建了一个自动化系统,能够将挖掘出的文本尽可能详细地转化为机器可读的因果机制关系( translates mined text into machine-readable causal mechanistic relationships )。
该系统通过处理 AI 阅读理解中的错误、解决文献中的冗余和矛盾、理解上下文、评估主张的相关性和可信度、推断缺失信息等方式,将这些知识片段进行组装和分层组织。截至目前,该系统已经分析了约 100 万篇论文。
将这一学术项目扩展到所有文献领域( 可能作为其自身的 FRO 项目 ),就像谷歌投入前期成本构建最佳的网络图谱,然后通过廉价且快速的查询来分摊成本,这与 FutureHouse 每次提问都从头开始进行搜索的方法形成鲜明对比。考虑到多个学术团队已经将规模扩展到数百万篇论文,这种扩展很可能是一种具有成本效益的方式( in a cost-effective way )。
尽管在多项选择题领域知识测试中表现优异的前沿大语言模型( LLMs )可能已经足够,但在生物研究这一高风险领域,似乎更需要这样一个系统,能够积极、细致地验证和组织每一个知识片段,而非单纯依赖模型对其权重进行概率加权回忆。( a system that actively and painstakingly validates and organizes each fragment of knowledge is important as opposed to a model conducting probability-weighted recall of its weights )。
同样,随着生物医学数据量呈指数级增长,这些数据大多分散在不同的数据集当中,已有大量努力致力于通过创建更好的软件基础设施并自动标注实验上下文来整合这些数据集。
这些数据池将用于训练生物分子、虚拟细胞和组织的基础模型,以做出有用的预测,而位于异构数据集之上的搜索引擎( search engines sitting atop heterogeneous datasets )将使自然语言查询成为可能。
综合来看,这三个方向的进展将使得在无法想象的规模下,快速、系统地将新的实验观察与现有知识和数据建立关联成为可能( systematic relation of novel experimental observations to existing knowledge and data at otherwise unimaginable scales )。从长远来看,这些资源对于构建高效的 “自动化科学系统” 至关重要,因为充分利用先前的知识( leveraging prior knowledge )能显著提升性能和表现,正如它对人类科学家的作用一样。
推理
Reasoning
一个复杂的 “自动化科学家”( autonomous scientist )不仅能够访问不断更新的科学知识库,还能够在此基础上进行推理,提出新的假设、设计实验来验证这些假设、在实验结束后确定下一步行动方针,并且在过程中处理产生的错误。
科学——尤其是科学新发现——需要极高的知识压缩能力和先进的决策与推理能力( extreme knowledge compression and advanced decision-making and reasoning capabilities )。尽管过去十年我们着重于信息压缩的规模化,但我们现在已经进入了高级推理模型的时代( we’re now firmly in the era of advanced reasoning models )。
我花了相当多的篇幅在这一部分,原因如下;不过,如果这些内容对你没有相关性,你可以跳过这一部分。
1. 推理对人类水平或超人类的科学探索来说直观且显然是至关重要的。它是所有科学探索活动的前提,大部分科学探索活动都可以视为“下游”推理的延续。因此,了解 AI 推理的演变路径以及何时能够实现成本效益足够的 AI 性能,是决定何时建立自动化科学初创公司( an autonomous science startup )的关键。
2. 在做完这部分工作后,我认为我们应该期待在未来几年内实现具有成本效益的 AGI。因此,现在是建立这样一个雄心勃勃的初创公司的时机。
3. 尽管推理的需求直观且显而易见,但 AI 推理的具体机制却是不直观且不明显的。深入了解这些细节有助于理解技术进展的驱动因素。
4. 这些机制( 如强化学习、搜索、训练对抗、程序合成和多智能体自我对弈 )正是自动化科学初创公司可能需要用来推动现有技术边界的工具。
在过去的几个月里,OpenAI 的o1 和 DeepSeek 的 R1 在语言和聊天机器人这一极其开放且难以验证的领域中,推广了并稳健地产品化了 AI 推理能力,几乎在所有基准测试中都取得了进步。而像蒙特卡洛树搜索( MCTS )这样的先前搜索算法仅适用于某些领域( 如围棋 ),但在扑克等游戏中表现不佳。这些模型可以在推理时使用更多的计算资源来“思考更长时间”。
有趣的是,实现这一目标的方法非常简单:只需通过扩大训练数据并将其输入一个基础的自回归 Transformer 模型。模型生成大量可验证领域的链式推理(CoT)轨迹,然后使用模型监督的深度强化学习(RL)来提炼如何选择最佳路径、回溯等的学习成果,并将其内化到基础模型中。正是因为自然语言奖励数据随着 RLHF 的扩展而爆炸性增长,基础模型本身在验证上也变得非常出色,现在才有可能构建如此通用且开放式的推理。
自从 o1 模型的首次发布仅几个月以来,我们确实学到了很多东西。
o3 显然采用了相同的架构,并大规模扩展了其规模。它在 AGI-ARC 上实现了大致的人类级推理,并解决了一些最难的数学问题。
尽管这些模型目前需要巨大的推理成本,但随着思维链(CoT)数据集质量的提高以及模型被训练以找到更快的路径或捷径来达到正确结果,它们的成本将继续迅速下降。事实上,GPT-4 级别智能的成本在 1.5 年内下降了 1000 倍,而 o1 级别智能的成本在过去3个月内下降了27倍(!!)。
与此同时,R1-Zero 是已知的首个成功从冷启动开始训练的推理模型,无需人类标注数据进行引导,类似于 AlphaZero。尽管没有人类数据作为保护性限制,它在推理中展示了一些不一致和难以理解的迹象,但这正是导致 “第 37 步棋” 的重要原因。
正如 Ilya 曾经说过,“所有真正的创造力来自于强化学习( all examples of true creativity come from RL )。”
在我看来,这个模型比所有媒体关注的 R1 更加重要,因为它作为一个概念验证(PoC)指向了一个未来,即使在最初的数据获取阶段,也不再依赖人类瓶颈。
至于这些模型何时能足够强大,成为能够验证真正通用情境的验证器( verifiers for truly generalized situations ),或者推理痕迹能在多大程度上被泛化或迁移学习到全新的情境中,特别是在不容易有验证器的领域,仍然有待观察。
为了实现通用的超人类推理能力( generalized superhuman reasoning ),可能通过扩展链式推理训练数据( 每次查询这些模型时自然会发生这种情况 ),模型可以记住足够多的“推理向量”,以便进行模式匹配并应用于分布之外的情况。
注:Nous Rearch 的团队认为,如果模型在广泛的领域中进行训练,“它将达到一个 click 时刻,能够将其推理应用于任何事物。这也是我们目前最感兴趣的研究方向。
或者,或许真正的通用推理将需要架构上的进步( maybe truly general reasoning will require an architectural advance )。一条非常有趣的研究方向是程序合成( program synthesis ),它涉及通过深度学习引导的组合搜索在离散操作符上揭示将输入转换为输出的程序或函数。这是系统1思维,与 LLM 的概率模式匹配系统2思维相对应。
另一个有望在推理新情况时产生重要影响但常常未被讨论的方法是测试时训练( TTT )。而 o1 的推理扩展实际上是产品化的链式推理,TTT 则是产品化的测试时微调 / LoRA,作者推测它可能会在 2026 年之前出现在前沿模型中。模型可以通过在基础模型中永久更新其参数,以响应新学到的有用信息,从而将搜索与学习统一起来( Models could unify search with learning by having the base model permanently update its parameters in response to the newly learned useful information )。这可能使 AI 科学家能够不断地更新自己,获取有用的新信息和思维模型,而无需从头开始重新训练。
最终,搜索算法、主动测试时间搜索(active test-time search )、TTT 和程序合成的组合,将通过工具使用、多代理自我对弈和集体智能( tool use, multi-agent self-play and collective intelligence)得到增强,正如 Noam、Demis 和 Ilya 所说的那样,这正是他们当前的研究前沿。
除了推理的进展,我们还在等待训练集群的规模飞跃,达到 100K 至可能1M H100s,推动从 GPT-4 到 GPT-5 的跃迁。
总的来说,AI 的科学推理( AI’s scientific reasoning )在不久的将来无疑将变得深远,尤其是考虑到 o1 Pro 已经显示出能够在生物医学和数学领域提供帮助,甚至做出新的科学发现。
假设生成
Hypothesis Generation
当一个具有强大智能水平和推理能力的“实体”能够访问科学文献和数据时,它可能会提出值得测试的有趣假设。尽管目前在自动化假设生成方面的工作尚无定论,并且存在许多矛盾的说法,但早期的研究表明,最新的模型已经具备了足够的能力,且通过上面提到的所有技术,预计很快就能达到这一水平。
一个简单的问题是目标不断变化的速度——GPT4o、o1、o1 Pro和 o3 分别在 5 月、9 月和 12 月发布。考虑到这些模型在 STEM 领域和推理方面的提升,2024 年前的任何论文大多已经不再具有参考意义,而且甚至还没有足够的时间来研究 o1 Pro,尽管一位免疫学教授的演示视频表明,这可能标志着假设生成的一个重要转折点。
当前研究的另一个问题是,严格评估一个研究想法的新颖性和实用性是极其困难的( rigorously evaluating a research idea’s novelty and usefulness is extremely difficult )。唯一的可行方式是通过领域专家在大规模下进行控制和盲审,但这种方法成本高、工作量大且不可扩展。
有一项研究测试了一个 SotA 模型,在该研究中,100 多名 NLP 研究者进行了控制实验。结果显示,人类专家评估认为 Claude 3.5 Sonnet 的研究想法比同领域的专家更具新颖性,但可行性较低。其他一些不那么严格的研究也显示了这些模型的实用性,但也有一些争议。
一些初步的结论包括:
a.访问知识图谱显著提高了 LLM 的表现。
b.同时利用文献和数据比单独使用其中之一能更有效提升性能。
c.通过迭代更新假设或使用多代理框架可以改善假设的质量或多样性。
d.即便是那些确认模型能够生成有意义的创新假设的研究,也发现其创意的独特性呈渐近状态,因此无法无限扩展推理,以持续生成新颖的想法 ( the uniqueness of their ideas asymptotes so one couldn’t scale inference indefinitely to continuously generate novel ideas )。
目前还没有人创建一个从头开始,专门基于科学文献、数据和因果知识图谱训练的LLM,更不用说LRM了,且该模型在训练后能够生成新颖、可行且有用的科学假设( trained from scratch on scientific literature, data, and causal knowledge graphs that’s then guided in post-training )。即使前沿模型吸收了所有这些数据,达到了大约博士级别的领域知识水平,一个从头开始训练的小型模型,如果没有整个互联网的“负担”,可能在速度上更为高效。
IRL实验
IRL Experiments
构建自动化科学的时机非常好,因为用于测量和编辑生物学的各个工具早已进入指数级的成本下降和通量提升曲线。如今,人们可以购买商业化的现成仪器,这些仪器能够以规模化且合理的成本运行检测,基本上按下按钮即可操作。
此外,历史上未实现自动化的工具,如显微镜、冷冻电镜/电子层析仪、质谱仪等,现如今也因 AI 的应用而变得更加自动化。这些领域,像计算机技术一样,将继续沿着自己的指数进步曲线发展。
现在需要的是一种先进的机器人系统,能够将样本从一个仪器转移到另一个仪器,以完成端到端自动化实验( complete experiments in end-to-end automation )。几十年来,人们一直在为此努力,但实验室机器人大多局限于用于移液的自我受限的盒子或固定的机械臂。这些系统都没有视觉能力,例如无法判断样本是否被污染,而且完全缺乏流体智能( fluid intelligence ),因此非常脆弱、编程繁琐,且无法处理错误等问题。
实验室机器人搭建的明显突破是来自 ChatGPT,它使得曾经对于全球少数实验室自动化专家而言艰难的任务变得像插入自然语言界面一样简单。事实上,在我参加的一次实验室自动化黑客马拉松中,一个团队在一天之内就开发出了一个机械臂,能够端到端地运行实验、分析数据、决定下一步操作,并且可以通过自然语言进行交互和编程。最新的模型甚至开始接近人类在故障排除和执行实验室协议方面的表现。
实验的物理实现也变得更加容易和精准。一旦明确了 Transformers 是一种迄今为止无限通用的模型架构,并且通过扩大其规模将带来更强的通用性智能,研究人员和风险投资家立即将目光投向了下一个最显而易见的领域——机器人技术。因此,我们正在获得越来越通用且智能的机器人,并且这些机器人内置强大的视觉处理能力。初创公司正在尝试制造智能机械臂、移动智能机械臂( mobile smart arms ),而人形机器人迅速成为了最具共识和竞争最激烈的领域之一。
过去几年间出现了一项被低估的技术——Isaac Sim 风格的仿真,它将在使实验室机器人实现最大化无缝连接方面发挥重要作用。实验室自动化专家花费大量时间手动校准机器人的三维操作。大部分这一工作可以通过一个集群来承担,该集群运行大规模并行的虚拟仿真,以确定完成某个目标的最佳动作,并随着时间的推移将这一策略推广到新的环境或任务中。
总的来说,这些通用且移动的机器人系统将为低通量、以发现为导向的科学实验带来巨大好处,因为这些实验需要极高的灵活性。这些系统可以部署在现有的实验室中,并实现全年无休的 24/7 运行。
不过,为了平衡预期,目前我们家庭中最好的自动化设备还只是洗碗机。可以合理推测,真正通用化、即插即用且成本效益高的机器人系统还需要一些时间才能实现,尤其是考虑到数据需求。
与此同时,另一条通往通用端到端自动化的路径已经进行了数十年,并且现在已经在仓库规模上运行,这就是集成化、模块化系统的进展。在这条路径中的一个中间步骤是像 HighRes Bio 这样的公司,它们销售集成化但固定的“工作单元”( workcells ),通常将一个机器人手臂放置在 5 到 10 台设备的中间。这些系统设计用于运行一组较为狭窄的实验,无法轻松重新配置,也无法并行运行多个实验。
如今,Emerald Cloud Lab、Gingko 等公司拥有数十万平方英尺的仓库空间,并通过一个网络门户让科学家能够从他们的笔记本电脑上运行几乎任何实验。远程研究人员或自主代理可以从协议列表中选择,并通过点击按钮运行所需的实验。这种模式还能够根据需要动态扩展设备使用,并支持并行运行实验。对于这些高资本支出的企业( 如AWS或台积电 ),最大化的利用率和运行时间是关键。
制药行业正在逐步接受这种方法,并开始雇佣这些云实验室协调者,帮助他们将分散在多个实验室的设备集中到少数几个大型仓库中,从而减少设备冗余并提高利用率。
对于这些大规模云实验室的乐观预期是,与其他高资本支出业务一样,如果它们能够持续扩大收入和用户基础,就可能形成自我强化的增长动态。不断将增长的收入重新投资于基础设施建设,将带来成本削减和服务质量的复利式提升——包括更广泛的实验种类、更快的实验速度、更简单的实验编程方式。这将进一步推动需求增长,并使其能够在不断扩大的用户群体上摊销这些成本。
也许,行业的广泛采用甚至可能鼓励像Hamilton这样的设备制造商从头开始重新设计他们的仪器,以适应这种自动化流程,而不是为人类操作而设计。96 孔板和人类可读的流程可能会被淘汰。为未来设计的仪器可能是初创公司的一个机会。
我们估计,目前云实验室服务和基础设施建设的总市场规模大约在2亿美元左右。
也许,对集中式云实验室的需求并未实现,反而出现了一种相反的未来趋势:小型化、专门化的合同研究组织(CROs)( smaller scale purpose-built CROs )如雨后春笋般涌现,专注于解决相对狭窄的任务。这些初创公司会识别出一些实验需求,例如酶工程或全质粒测序,这些实验具有以下特点:1)行业需要大规模运行,2)具有较高的“傻瓜指数”( 即操作复杂度低,易于标准化 ),3)过于复杂或占用过多物理空间,无法通过本节开头提到的桌面仪器实现自动化。
范阳注:当埃隆·马斯克(Elon Musk)接管SpaceX时,他深知太空行业的高昂成本会阻碍商业化。为了挑战这一现状,他提出了一个极其简单的指标:“傻瓜指数”(Idiot Index),即材料成本与成品成本的比率。
例如,如果一个由铝制成的组件制造成本为1000美元,但原材料铝的成本仅为100美元,那么“傻瓜指数”就是10——这显然是低效的表现。马斯克利用这一方法简化设计并全面降低成本。
然后,它们会设计一种从头开始的高通量、低成本的方法来完成这些实验,通常借助芯片或通过微流控技术实现微型化。
在这种第三种自动化科学的未来愿景中,除了这些任务特定的CROs( task-specific CROs )之外,还存在一个极长的长尾市场,即那些资金较少的学术实验室。这些实验室负担不起昂贵的自动化设备,因此会根据以下规格,利用开源蓝图构建极其廉价且可组合的硬件。
无论是集中式还是分散式的实验室自动化场景,每一次通过自动化流程运行的实验都会为机器人协调的代码库增添内容。每个实验都是由一系列子任务( 如 GoldenGate 克隆、酵母转化和平板读数 )组合而成的。因此,随着子任务库和实验设计的不断丰富,在未来几年内,运行一个新实验将变得像无代码、拖放式配置模块一样简单(running a new experiment will become as easy as no-code, drag-and-drop configurable building blocks in the next several years)。
在此之后,AI 科学家系统可能会发展到足以自行设计实验协议的程度。
计算机模拟实验
In Silico Experimentation
在药物开发的每一个步骤中,都有一种计算工具可以预测和测量结果。这一领域在临床前研究方面尤为拥挤,涵盖了多种方法,包括结构建模( structural modeling)、小分子药物设计、抗体设计、大环肽设计( macrocyclic peptides )、毒性和脱靶效应预测以及细胞反应预测等。
目前,这些模型可以被视为计算机模拟的高通量实验,用于尽可能缩小搜索范围,然后在实验室中验证有潜力的候选物质。
AlphaFold 是第一个达到实验精度的模型( first to converge on experimental accuracy ),这意味着它的预测几乎与在实验室中运行完整测试一样准确。这个 “40年一夜成名” 的成功当然领先于其他尚未成熟的领域,如神经网络势能( NNPs )、虚拟细胞以及各种从头生成设计工具,但这些领域预计将在 5 到 10 年内迎头赶上。
范阳注:有关于虚拟细胞的最新进展,可以参考这篇博客文章
https://www.markov.bio/research/mech-interp-path-to-e2e-biology?ref=mackenziemorehead.com
随着搜索和实验越来越多地完全在计算机内进行,且反馈回路高度紧密并可任意并行化( where the feedback loops are tight and can be arbitrarily parallelized ),我们将有可能训练出一个超越人类的科学研究模型,专门掌握如何进行科学探索的元方法( train a superhuman model on the meta of doing science itself )。
物理世界永远都太慢、太难扩展,无法承担这一角色。举个例子,AlphaZero 在训练过程中与自己对弈了 4400 万次,而国际象棋的复杂度远远低于科学发现( chess is infinitely simpler than scientific discovery )。
因此,即使测量仪器的通量持续呈指数级增长,并且越来越通用的机器人技术可以加速和自动化特定实验流程,这些进步仍不足以训练出一个真正能进行科学研究的通用模型。
要想窥探这个崭新世界的轮廓,以及生物科学可能如何被彻底重塑,我们可以参考虚拟细胞( virtual cell )初创公司和 Isomorphic 提出的视角。例如,先进的机制可解释性技术( mechanistic interpretability techniques )可以用于数字解剖虚拟细胞( digitally dissect the virtual cell ),以此找到新的药物靶点,从而启动一场药物发现实验。
markov.bio
他们的文章里是这样说的:
假设我们拥有大量的单细胞干预实验( single-cell perturbation experiments ),目标是找到最优干预 a*,使细胞从初始表达状态( expression state ) s₀ 迁移到期望的终态 s*。你的虚拟细胞( virtual cell )结合机制可解释性技术( mechanistic interpretability techniques )如何加速这一过程?
首先,你可以对数据进行适当的加噪( noising ),然后进行一次前向传播( forward pass ),观察稀疏自动编码器( SAE ) 在细胞的不同 token 上激活的主要特征( features )。这将帮助你大致定位当前的细胞状态空间( cellular state space )及其主要的生物学模块( biological modules )。
接下来,你可以尝试一些计算开销较低( cheap )的归因方法,如前向梯度法( forward-gradient method )或 DeepLIFT,这些方法仅需 O(1) 级别的前向和反向传播,即可初步判断哪些输入基因对输出影响最大。
然后,你可以选择更计算昂贵( expensive )但更精确的稀疏特征归因方法( sparse feature attribution method ),计算:
输出 logits( 你关注的特定基因 )对输入基因的归因,或
上游特征对下游特征的归因关系。
最便宜的方式是为每个需要归因的特征运行 2 次前向传播,但如果愿意增加计算量,可以运行更多前向传播以获得更精确的归因估计。这样,你就能构建特征-特征或特征-logit 归因图( feature-feature or feature-logit attribution graph ),从而了解哪些特征在细胞计算中最具因果中心性( causal centrality )。
接下来,你可以尝试确定哪些特征在细胞状态转变中起关键作用。一种方法是依次剪除( ablate )这些特征,观察对模型的影响。如果你成功筛选出一小组候选中介特征( candidate mediator features ),那么你可以进一步剪除它们的下游特征,以确定它们影响终态的具体特征路径( feature pathways )——这实际上是一种对干预机制( mechanism of action )的深入解析。
最终,结合归因( attribution )、剪除( ablation )、补丁( patching )等方法,你可以在虚拟细胞中逆向工程( reverse-engineer )出最小充分干预( minimally sufficient perturbation ),即能够实现目标状态变迁( desired change ),同时最小化副作用( undesirable effects )——例如避免激活毒性特征( “toxicity feature” )。
这或许就是全新的、真正意义上的完全基于计算( in silico )靶点发现的模样。
假设它成功识别出一种致病蛋白。即便是当下最前沿的实验室,如 Isomorphic,也已经能够在短短数周内生成有希望的药物先导化合物。他们的一位高级科学家曾在演讲中罕见地清晰展示了他们的研究流程,而我们可以想象,这一流程未来将如何与虚拟细胞( virtual cell )无缝衔接。
他们可以使用 AlphaFold 3(AF3) 以实验级精度预测该蛋白的原子级 3D 结构,将传统上需要数年时间的冷冻电镜晶体化( cryo-EM crystallization )过程替换为一个目前仅需数分钟的预测过程。
围绕该结构生成化学物质时,会考虑一系列参数,如结合亲和力( binding affinity )、化合物多样性( diversity of matter ),而当它与虚拟细胞相连接时,还可以基于毒性等特征激活的相关性( feature activations like toxicity )进行筛选。
Isomorphic 接着对这些化合物进行排名,目前他们可以在五秒内完成一次预测,并在短短数天内评估数百万个化合物。他们选取得分最高的化合物,进入下一阶段的虚拟设计( virtual design ),并基于上一轮的反馈生成带有优化调整的替代版本。
他们会不断重复这一循环,直到无法再进一步提高得分。
神经网络势能( NNPs ) 的出现,使团队可以将最终的候选化合物放入3D 原子级模拟( 3D atomistic simulations ),置于真实的细胞内环境中,然后“按下播放键”。观察该化合物如何与蛋白及其局部微环境相互作用,或许能够发现一些关键的时间依赖性现象( time-dependent events ),例如隐性结合口袋的出现(cryptic pockets)或亚稳构象变化( metastable conformational changes ),这些都会影响药物的有效性。
团队随后会将剩下的优化后的候选化合物投入虚拟细胞,用于预测毒性、离靶效应( off-target effects ),并结合机制可解释性工具( mechanistic interpretability tools )获取更多信息。
当一切在计算环境中的优化( in silico )都已无法再更进一步时,真正的药物猎人才正式进入现实世界——调用云实验室 API( cloud lab API )合成最优候选化合物,并利用日益完善的人体生物模型( models of human biology )进行实验测试。
我之所以详细描述这一切,不仅仅是为了让大家看到我们 Compound 对未来十年药物发现( drug discovery )可能会是什么样子的设想,更重要的是——这条路径上,每一步都涉及无数个独立的决策。每一个环节都是一个分叉点,一个自动化科学 AI 需要在无限可能中决定下一步的时刻( Each step is a branching point in which an AI model conducting autonomous science would need to decide what to do next amongst the infinite options )。
在现实世界中,实验通常需要数天到数月才能完成,而这种完全基于计算( in silico )的方法是唯一可行的路径,能够让 AI 学会在无限复杂的决策树( infinite labyrinth of decision trees )中导航,并最终掌握 “做科学的元方法”( the meta of doing science )。
正如 Isaac Sim 对于通用机器人( general robotics )至关重要,计算驱动的科学探索( computer-based exploration )同样是学习如何做科学的核心。
最终的目标是构建一个端到端的系统( end-to-end system ),其中每个实验步骤都能生成细粒度的数据( granular step-level data ),并行运行大量实验,然后使用深度强化学习( deep reinforcement learning )在每次实验后更新决策策略,以在下一次实验中做出更优决策。
我可以想象一个并不遥远的未来( 甚至不是几十年后 ),在这个未来中,从基础科学研究( basic science )和靶点发现( target discovery )到先导化合物优化( lead optimization )之间的整个组合路径( combinatorial path )可以在数秒到数分钟内完成。
生物实验室将在多吉瓦数据中心( multi-gigawatt datacenters )中并行运行数百万个实验,这就是学习 “做科学的元方法” 的方式。
概念验证
PoC
来自学术界的实验室、初创公司、大型制药企业( Big Pharma )和科技巨头( Big Tech )的数十个 PoC 已经证明,可以将上述五个核心组件整合在一起,实现端到端的自动化科学( autonomous science ),并应用于生物学和材料科学的众多领域,从系统生物学( systems biology )到光伏技术( photovoltaics )、3D 打印和抗体研发( antibody development )。
以下是几个令人兴奋、且具有代表性的案例:
1. 2010 年,Adam 系统成为首个通过闭环自动化系统在生物学中( a closed-loop autonomous system in biology )发现新知识的案例。它通过基因敲除( gene deletions )和生长因子需求分析( auxotrophic analyses )推断了酿酒酵母( S. cerevisiae )基因的功能。
2. 迄今最令人印象深刻的 “自驱实验室”( self-driving lab )是 A-Lab,由劳伦斯伯克利国家实验室( LBNL )和 DeepMind 合作开发。在过去一年里,该系统完全自主地完成了 3500 多次化学合成实验。
范阳注:A-Lab 的知名论文
https://www.nature.com/articles/s41586-023-06734-w?ref=mackenziemorehead.com
3. 首个真正由机器人科学家驱动的系统生物学实验,旨在明确地( unambiguously )证明在某些科学领域,机器人科学家( robot scientists )比人类科学家更快、更低成本。它将在微型生物反应器( μ-bioreactors )上,每天并行执行 1000 个基于假设的闭环实验周期,并集成质谱分析( mass spectrometry )。
范阳注:Genesis: Towards the Automation of Systems Biology Research
https://www.arxiv.org/abs/2408.10689?ref=mackenziemorehead.com
4. 一种创新的多智能体( multi-agent )协作框架,其中不同 AI 代理( agents )在特定领域( 如免疫学、计算生物学、机器学习 )中扮演不同角色,由首席研究员 AI( PI agent ) 指导它们进行 SARS-CoV-2 纳米抗体( nanobody )设计。
范阳注:The Virtual Lab: AI Agents Design New SARS-CoV-2 Nanobodies with Experimental Validation
https://www.biorxiv.org/content/10.1101/2024.11.11.623004v1?utm_source=substack&utm_medium=email
这些 AI 代理不仅自主探索,还与人类研究员合作,探讨不同的研究方法,并执行分配的任务。结合 AlphaFold 等工具,它们设计出了 92 种纳米抗体,其中 90% 以上能结合原始病毒株,而两种还能结合新变种。
结论
Conclusion
在经过数小时的研究、讨论和写作后,我终于确信,自动化科学这个宏伟目标已经可以开始认真攻克它了。
事实上,我们在 Compound 押注诺贝尔-图灵大挑战( Nobel Turing Grand Challenge )设定的目标——即在 2050 年前完全自动化地做出诺贝尔奖级别的科学发现——是可以提前实现的。
范阳注:Nobel Turing Challenge: creating the engine for scientific discovery
https://www.nature.com/articles/s41540-021-00189-3?ref=mackenziemorehead.com
既然我们已经详细探讨了可以构建的工具,以及为什么现在是构建它们的最佳时机,接下来,在这个文章后续的第二部分中,我们将讨论可以采用的商业模式,以及我们最感兴趣的商业化路径。请保持关注。
原文链接:
https://www.mackenziemorehead.com/autonomous-science-part-i-everythings-an-api-away/
如果你来自于产业界或者科研领域同时也对新型的科研与商业化合作模式感兴趣,也欢迎添加我的微信 ID: 2871981198 ,附上一句话介绍,与我们交流。
唐·布雷本:风险科研 (Venture Research) 如何挑战传统科学资助体制?
伟大的科学家遵循直觉与美感,而非理性。| Erik Hoel