海外独角兽 前天 00:42
对谈斯坦福 Biomni 作者黄柯鑫:AI Scientist 领域将出现 Cursor 级别的机会|Best Minds
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文访谈了斯坦福大学博士生黄柯鑫,探讨了AI scientist在生物医药领域的应用与发展。文章指出,AI scientist本质上是agentic system,能够自主进行科研任务,并有望革新科研范式。文章介绍了Biomni项目,该项目构建了一个集成了数百种专业工具、数据库与软件的开放环境,旨在赋能AI agent,使其能执行生物科研任务。文章还讨论了AI scientist与通用agent的区别,以及AI scientist在科研中的潜力与挑战,并展望了AI for Science的未来发展。

🔬AI scientist是一种agentic system,模拟人类科学家,能够自主提出假设、设计实验和循环修正,从而推动科学发现。

🛠️通用agent在AI scientist领域面临挑战,主要在于缺乏合适的环境和专家的know-how,构建包含专业工具、数据库和软件的开放环境至关重要。

💡Biomni项目构建了一个集成数百种专业工具、数据库与软件的开放环境,为AI agent提供了执行科研任务的基础,并支持跨生物医学子领域的交叉研究。

🚀AI scientist可以作为科学家的copilot,辅助完成数据分析、实验设计等任务,提高科研效率,甚至可能带来新的科学发现。

原创 拾象 2025-06-20 20:03 北京

AI scientist 在 agent 层面和 alphafold 同样重要

嘉宾:黄柯鑫

访谈:Penny、Cage

随着语言模型在强化学习和 agentic 领域的进步,agent 正在从通用领域快速渗透到垂直领域,科学和生物医药这类高价值领域尤其受到关注。如果说 AlphaFold 在 foundation model 层面是生命科学的重要里程碑,AI scientist 就是在 agent 层面,能够给科研带来和 alphafold 同样重要的影响。

今年 5 月,前谷歌 CEO Eric Schmidt 投资的 AI lab FutureHouse 推出了四款 AI scientist agent,一个月后,他们又宣布自己的 AI 系统 Robin 成功发现了新药。两天前,OpenAI 也发布博客强调 AI 在生物学领域的能力正在不断增强。AI scientist 已经在改写科研和药物开发范式。

随着 multi-agent 技术的发展,AI 可能不再只是“工具箱”,而是能自主完成跨学科复杂研究,从而推动科学发现走向全新模式。

最近,斯坦福大学也发布了一个生物医学通用 agent Biomni,Biomni 搭建了一个适合 agent 的环境,通过整合不同的工具、数据库、专业软件,让 agent 能够自主完成生物科研任务,目前可以在 biomni.stanford.edu 免费注册和使用。

AI scientist 到底是什么?通用 agent 为何难以胜任?AI for Science 是否真的能改变科学发现?为了更好了解 AI scientist,我们访谈了 Biomni 第一作者、斯坦福大学 CS 博士生黄柯鑫:

 AI scientist 实际上就是模拟人类科学家,本质是 agentic system,能够自主提出假设、设计实验并循环修正;

 当前通用 agent 无法成为 AI scientist 的原因在于缺乏合适的环境和专家的 know-how;

 Biomni 构建了集成数百种专业工具、数据库与软件的开放环境,未来是 multi-agent 系统的基础;

 AI scientist 可以使用 AlphaFold 这类工具来完成一些任务,两者是同样重要的机会;

 AI for Science 会出现像 Cursor 或 Devin 这样的机会,会带来千亿级别的机会。

......

💡 目录 💡

   01 AI+生物领域在发生什么?

   02 AI scientist 本质是 agentic system

   03 通用 agent 做不好 AI scientist

   04 Biomni 的核心在于打造了一个 agent 环境

   05 AI scientist 是使用 AlphaFold 的 Agent 系统

   06 如何设计 AI biology 的 benchmark?

   07 AI for Science 也存在“Cursor”的机会

01.

AI+生物领域

在发生什么?

 海外独角兽:先请柯鑫做一个自我介绍。

柯鑫:我叫黄柯鑫,现在是 Stanford CS 的四年级博士生,导师是 Jure Leskovec,本科在 NYU,硕士在 Harvard。我从本科大三开始就一直在做 AI+生物医药方向的研究,生物医药的各个领域都有做过相关研究,包括药物研发,clinical notes 之类。在 AI 方面,我最近主要的研究内容是 AI scientist,也就是用 AI agent 做生物医学的研究。

 海外独角兽:柯鑫同时在 AI 和 biology 这两个方向都进行研究,在这两个方向做研究会有什么不一样的挑战和收获吗?

柯鑫:我觉得这两个方向有比较显著的差异。我自己是主要从事 AI+生物方向的研究,同时也涉及一些纯生物的领域。我可以从三个方向来分别阐述。

首先,AI 研究更倾向于方法驱动型的研究。通常我们有一个既定的 benchmark,研究的目标就是超越 benchmark,这样的任务相对更好定义且边界明确。

相较之下,生物医药研究更像是结果或问题驱动型的研究。研究者们可能不太关注方法,更关注结果和影响,比如在生物学的期刊中,结果部分通常紧随在引言之后,而方法部分则会放在在线补充材料中。因此,识别问题的 taste 是至关重要的。

而在 AI+生物方向,既有方法驱动也有结果或问题驱动的研究。现在 AI+生物领域有许多的 task benchmark,很多研究者致力于超越这些 benchmark。因为这是一个相对新兴的领域,存在许多新的研究空白,这会促使研究者去发现新的应用,定义新的问题,创建新的 benchmark 和 task。

我个人更多地从事 AI+生物方向的研究,更偏向去寻找新的生物问题,进行从零开始的研究。这类研究通常没有现成的 baseline,需要自己定义 baseline 并且确定研究目标。这样的研究影响力通常比较大,但挑战也更多,因为需要与生物学家合作,去找到既有意义又适合机器学习的问题。

我更倾向于解决实际的生物学问题。我不会为了 AI 问题而去专门开发一种方法,而是通常从生物学问题出发,当现有方法无法解决时,才开发新的方法或者新的 machine learning model。如果这个新的模型能解决之前的 ML model 无法解决的问题,并且可以推广到生物学以外的领域,我们就会发表一篇 AI 方向论文。

 海外独角兽:能否说明一下什么样的生物学工作属于这种从 0 到 1 的研究?

柯鑫:我可以举个例子。在我博士一年级时,我做了一个叫做 GEARS 的项目,目标是想解决药物研发中的一个根本性的任务,就是细胞如何响应扰动来推断疾病靶点。因为在 CRISPR 技术出现后,研究人员可以敲除某些基因,然后观察整个细胞的反应。这是一个全新的任务,我们通过与许多生物学家交流,发现这个问题很重要且根本。

CRISPR 技术是一种基因编辑工具,能在特定 DNA 序列上进行高效、精准的剪切和修改,广泛用于基因功能研究和疾病治疗开发。

最近有个热门概念叫 virtual cell ,其本质上就是要解决这个问题。如果你能预测任何扰动对细胞的影响,那么你实际上就拥有了一个 virtual cell。这只是实现 virtual cell 的一种方法,还有很多其他方法。

Virtual cell 是使用多模态、生物与分子数据训练的神经网络模型,目的是在计算机环境中模拟细胞在不同状态下的行为与功能,为预测细胞动态和治疗响应提供虚拟实验平台。

这个例子就是想说明,我们在三四年前发现了这个新的生物学问题,然后设计了新的 machine learning model 来尝试解决这个任务。

 海外独角兽:如果真的能做成 virtual cell 的话,相当于把人体的细胞甚至器官都能完全模拟了。这听起来是一个非常困难的任务。

柯鑫:确实非常难和复杂。Virtual cell 这个概念其实在 1990 年代就已经出现了,每过 15 年都会有这样一波热潮。2010 年的时候,Markus Covert 等人做了一个 Whole-Cell Modeling,他们使用 ODE 系统(常微分方程,Ordinary Differential Equations),把几千条方程式组合起来,然后拟合一些实验数据。最近因为 AI 这一波,基础模型火起来以后,大家又开始讨论 virtual cell 这个概念,因为它确实是圣杯级的目标。

如果你真的有一个全面的模型,输入任何扰动,都能够精准地预测结果。这样的话,很多实验都不用做了,你可以非常快速地在计算机中进行实验模拟,可以快速地尝试各种各样的扰动,然后观察结果,进而找到哪个基因能够导致特定的结果。如果真能达到这个水平,那将会解决生物医学领域的一个根本性问题。但从现实的研究角度来说,我们离这个目标还是非常远,在数据和模型方面都存在各种各样的问题。

 海外独角兽:Virtual cell 是生物医药领域里面的王冠或者圣杯的这个比喻是很恰当的。想要完全去模拟一个人体或者生物体这种非常复杂的组织和构造,听起来是个几乎不可能实现的任务。如果说机器学习或者 AI 能够稍微接近这个目标,即使最终不能完全模拟,它最多能逼近到哪个程度?

柯鑫:其实有两种方式的 virtual cell。第一种就是把生物系统中所有错综复杂的细节都进行建模,那是不太实际的,因为生物系统是一个 multiscale 的复杂系统,基本上不可能把所有细节都整合在同一个模型里。

另一种方式是把 virtual cell 作为黑盒来建模。我们知道它的输入是什么,如果模型能够精准地预测结果,那这个黑盒模型在某种程度上就成为了一个有效的 virtual cell。

这种方法更加现实。假设我们有大量数据,涵盖各种扰动输入、基因、化学物质,在各种 cell context 下都能精准预测结果,我们就可以说这个 virtual cell model 在某种层面上一定获取了一些有趣的信号,比如基因与基因之间的关系,或是更加高阶、更加错综复杂的关系,这是可能达到的。

因为最近出现了一些新的实验技术,使我们能够大规模地进行扰动实验,并在各种 cell context 下收集数据。假设有足够大量的数据,这其实是一个比较自然的机器学习问题:我们有输入和期望的预测结果,可以直接训练模型去拟合。但现在最大的挑战是数据不够,因为数据生成非常缓慢。所以问题不在于模型不够好,而在于数据不足。

02.

AI scientist 

本质是 agentic system

 海外独角兽:市场普遍认为,LLM 和 RL 的进步可以从比较通用的领域扩散到垂直领域,而科学和生物医药可能是最高价值的垂直领域之一。今天想先从 AI scientist 这个概念聊起,你会怎么定义 AI scientist ?它与我们一般说的通用 agent 有什么相同或不同的地方?与大家熟悉的 AlphaFold 等底层 AI 模型又有什么区别?

柯鑫:通用模型是 Deep Research, computer use 这类 agent,包括 Cursor,AI scientist 和它们相同的地方在于它本质上也是一个 agentic system,只是应用和目标是执行科学研究。

要理解 AI scientist 的具体工作,我们可以参考人类科学家的日常工作流程。拿生物学家来说,他们通常会从一个假设开始,如某基因会导致特定的表型。为了证明这个假设是对的,他们会进行各种实验,包括湿实验、生物信息学分析、数据库搜索等。通过执行这些行动,他们可以获得反馈和新的观察,为后面的实验提供参考。之后他们有可能会修正现有的假设,也有可能会直接转向下一个新的假设,构建新的实验。

干实验 VS 湿实验:干实验通常指不直接操作生物材料的计算或理论工作,比如用计算机进行基因序列分析、建模模拟等;湿实验是指在实验室中直接操作生物样品(如细胞、蛋白质、DNA)进行的实验,如 PCR、培养、染色等。

我们希望用 AI 来自动化这个"Hypothesis-Experiment-Observation"的 loop。具体有两个层面:首先是 automation,自动化日常任务;其次是 discovery,实现完全自主的 AI scientist,AI 能够自行提出假设、设计实验、从环境中观察结果,并由此来提出或修正新的假设,通过自己来进行发现。

但这仍然是使用底层大语言模型作为 intelligence layer,利用 tool use 能力进行实验并观察结果,由此指导下一步行动,本质上来说还是一个 agentic system。

 海外独角兽:FutureHouse 是 AI scientist 理念的先行者,它们最近发布了一系列不同功能的 agent,并且号称用 AI agent 能开发出了新的 dAMD 药物。FutureHouse 是怎么用 AI agent 来开发新药的?相较于你前面提到的两种系统的状态,它们的 AI agent 系统更接近哪一种?

FutureHouse 发布了四个 agent

柯鑫:FutureHouse 过去两年一直在做 AI scientist 方向的研究。他们目前做的是相当于有几个独立的 agent,其中三个是做文献研究,比如找一些相关的论文,这有点像 Deep Research,但更偏向学术文献。还有一些 agent 会去找文献中的矛盾,检查是否有人之前做过这类研究。他们在文献研究这方面做了很多工作。最近他们又开发了一个数据分析 agent。

最近他们开发了一个系统,将各种 agent 串联在一起,让它们能够执行更加高阶的任务,比如如果想要针对 dAMD 开发一种新药,他们就可以让这个 agent 去端到端地执行整个开发过程,从识别相关论文到进行分析,最后输出一种药物。他们做得更像是药物重定位,即已知这种药物可能对其他疾病有效的情况下,让它重新用于一种新的疾病。

他们在论文中做了一些非常初步的计算验证,声称这是一个发现,因为它还没有被完全验证。如果要验证一个药物还需要进行临床试验等,所以这更像是有了一些初步的证据,表明这是一个潜在的发现。

结合 automation 和 discovery 这两个层面,他们的独立 agent 更贴近 automation,而这个多 agent 系统则更像是在做 discovery。

 海外独角兽:FutureHouse 所说的发现一种新药,这个概念听起来可能非常吸引人,或者听起来好像已经超越了现在的人类,甚至有点像是 AGI 或 ASI。但这个概念是否有一些包装的成分在?我们真的可以理解为发现了一种新药吗?

柯鑫:科学领域有一个比较有趣的点是,你可以提出任何假设,关键是要验证它是否有效。你也可以说你有了一个新的发现,为这个疾病发现了一种新药,但如果它没有被验证,那么实际上就不能声称这是一个真正的新发现。

我认为 FutureHouse 肯定有一些 PR 的成分,说这是一个真实的发现,但 FutureHouse 所展示的肯定是一个非常有意思的 demo,AI agent 可以端到端地基于一个疾病输出一种药物,但我不认为是一个真实的发现。

具体来说,药物重定向是过去 10 年一直都存在的任务,之前是用更加传统的模型去做,输入一些药物、疾病的信息,然后做出一些预测,然后进行药物重定向,也有大量的论文说模型发现了新药。但这次主要还是因为这是 AI scientist 第一次去做这件事,所以大家会非常兴奋。

03.

通用 agent 

做不好 AI scientist

 海外独角兽:OpenAI  Deep Research、Manus 这样类型的通用 agent 为什么没有办法真正做好一个 AI scientist?真正要去端到端完成的最后一公里是什么?

柯鑫:Deep Research 能做很多科研任务,因为科研过程中其实有很多基于文献的任务,这一点 Deep Research 应该能做得很好。但科研还包含各种其他的任务,比如进行一些分析、做湿实验等。

我认为最后一公里的核心问题是缺少一个合适的环境。这里的环境指的是生物学领域里海量的专业工具、数据库和软件,这些都是目前 LLM 还无法访问的。整理这些资源非常耗时耗力,因为生物学里面这些资源太分散了。构建这个环境本身就是一个巨大的工程挑战。这是第一个缺失的方面。

第二个缺失的方面是专家的 know-how,生物学中存在很多隐形的知识,这些知识往往是存在于专家的脑子里,传播往往依赖口口相传,因为它们没有被记录在互联网的任何文档上,所以大模型的预训练语料很难捕捉到。因此这也是最后一公里的一个巨大的挑战:如何构建一个途径,可以让这些专家的 know-how 可以被编码成 agent 能够访问的资源。

当然还有其他挑战,比如要做科研探索,模型就必须非常严谨,幻觉的问题就必须要解决;模型还需要有创造力,生物学不仅要做分析做研究,也需要想出问题,这需要一些想象力来真的做出一些创新的假设;很多人也在尝试解决 long-horizon 的问题,因为一项真正的科学发现,通常需要人类科学家花费数年时间才能完成,这也是目前 agent 可能还不太擅长的一点。

 海外独角兽:通用的 Deep Research 无法自助地进行生物学研究,而专用环境、专业数据、工具整合以及创新能力,都是成为 AI scientist 的必要条件,在理想情况下,AI scientist 最终交付给人类科学家的会是怎样的结果?

柯鑫:交付的成果可以分为两个大类。第一类更像是科学家的 copilot,比如,我想对一个 well-defined 的数据集去做分析,agent 可以代替他去执行,执行完毕后生成一份报告,里面有一步一步的日志、输出结果和可以直接用于论文发表的图表。这是一种最直接的 copilot 模式的交付结果,是目前最合理、且能立刻看到应用价值的。

另一类,如果它真的在进行自主科研,那将会是一个完全自主的系统。它可能会花费几天时间,进行各种 tool use 和推理,可能经过上千步的思考后,产出一个新的发现,比如一个附上依据的新假设。这也是一个非常有意思的输出,但这个场景离我们还比较遥远。

 海外独角兽:是否可以理解成:在目前的 copilot 模式下,AI scientist 给出的结果其实并未超出人类的能力范围?也就是说,它可能无法提出真正创新假设,包括 Futurehouse 提出的假说其实也完全在人类的能力范围之内,它更多是完成了一些自动化的工作?

柯鑫:是的,大部分任务目前其实主要是自动化。但有些任务也确实进入到了智能的层面,这取决于任务本身的属性。

有些任务是简单的自动化,比如重复运行十次 GWAS 分析,基本是相似的流程。但有些任务需要高度的智能,当你把这类任务委托给 agent 时,它可能会比人类做得更好,比如罕见病诊断,这个任务就需要大量的 tool use 和 reasoning。

GWAS(Genome-Wide Association Study,全基因组关联研究)是一种通过比较大量个体的基因组变异与表型差异,寻找与疾病或性状相关的遗传位点的方法。

另一方面,这也取决于用户是谁。大部分用户本身是某个领域的专家,比如一个读了五年博士的学生,但可能只精通一个非常细分的领域,当他想做其他方向的研究时,就需要找别的专家合作。在这种情况下,一个 AI copilot 虽然还比不上其他领域里的世界顶级专家,但在那个领域完全有可能比这位用户做得更好,那也是有价值的。

04.

Biomni 的核心在于

打造了一个 agent 环境

 海外独角兽:最近柯鑫作为核心成员,参与开发了一个名为 Biomni 的 biomedical agent。可不可以给大家介绍一下这个项目?

Biomni 是生物医学领域的一个通用 agent

柯鑫:Biomni 的核心是构建一个环境,让 AI agent 能够执行大量的研究任务。目前,大部分 bio agent 都称之为 specialist agent,它们是针对特定任务设计的,比如单细胞分析。研究团队会整合大量相关工具,将已知的一些 know-how 融入到 specialist agent 中。

我同伴之前做了很多这方面的工作,比如 spatial agent,还有一个合作者做了 target discovery agent,还有最初的 CRISPR GPT,这是一个专门用于 CRISPR 实验设计的 specialist agent。

Spatial agent 在生物学中通常指在空间上具有自主行为或能对局部环境做出反应的个体(如细胞、动物、植物),行为和分布受到空间位置和周围邻居的影响。

CRISPR 实验通常指应用 CRISPR-Cas 系统对特定 DNA 进行剪切、修饰或调控的实验,常用于基因敲除、基因敲入或基因表达调控,广泛应用于基础研究、疾病模型构建及潜在治疗开发。

我们后来意识到一个问题,生物研究可以有无限数量的任务,而预定义的工作流不可能遍历所有内容。

其次,如何让它能够进行跨生物医学子领域的研究,这也是我们的动机。我们想开发一个通用的生物医学 AI agent,具有高度灵活性,可以执行大量任务,并能在生物医学子领域之间进行交叉研究。因为一般这样才能获得更多 insights。

在有了这个目标后,我们开始构建环境。

首先遇到的问题是世界上存在太多专业化工具、数据库和软件。我们用了一个比较系统化的方法来寻找这些资源:通过文献挖掘,从 biorxiv 中为每个主题找到约 100 篇论文,然后使用我们称为 Action Discovery agent 的另一个 agent 来阅读每篇论文,识别对研究结果很重要的工具、数据和软件。经过这些处理后,我们总是能发现大量的新工具、软件和数据库。

过去一年,我们有大约 5 个团队成员进行了大量工程工作,去构建这个环境。这个环境目前包含了几百个工具、几百个软件和几十个数据库。构建完成后,我们想要开发一个通用的 AI agent 来利用好这个环境,完成各种任务。

我们的 agent 实际上是一个非常简单的 code as action,因为我们意识到代码是一种非常灵活的方法。它可以同时使用数据库、软件和一些专业化工具,还可以实现更复杂的逻辑,如 if-else 语句、for 循环等,是一个通用的任务处理工具。使用这个 agent 后,我们进行了大量验证。

比如说我们与一个湿实验实验室合作,他们有一个 cloning design 的任务,Biomni 就帮助他们设计了一个 step by step 的 cloning protocol。他们完成了这个 protocol,又根据这个 protocol 做了一系列湿实验,最后发现这个湿实验成功了。这是在湿实验方面的应用。

在干实验方面,我们与 Michael Snyder Lab 合作,他们有大量的 wearable data(可穿戴数据),这类数据很多都没有被分析,因为缺乏相关的人员。我们帮他们做了分析后,发现了一些有趣的假设,而生物信息学家需要 3 周完成同样的任务,让 agent 来做的话只花了 30 分钟,这大大提高了生产力。

Michael Snyder Lab 是由斯坦福大学 Michael Snyder 教授领导的著名研究实验室,该实验室在个人化医疗、基因组学以及利用可穿戴设备进行大规模健康数据监测等前沿领域的研究中处于世界领先地位。

Wearable data,即可穿戴设备数据,指的是通过智能手表、健康追踪器等便携设备持续收集的个人生理与活动数据,如心率、体温、睡眠模式、血氧饱和度、步数等。在生物医学研究中,这类高密度的时间序列数据被用于实时健康监测、疾病早期预警和个性化健康管理。

我们的论文中还有更多结果,我这里只是简单地提一下。做完这个项目之后,我们也开发了一个平台,让所有科学家都可以直接使用 Biomni。如果有研究型的任务,他们可以直接请求 Biomni 来帮助完成任务,而且这个平台也是免费使用的。

 海外独角兽:生物学领域有哪些特殊工具和数据库?最终构建的环境与大家熟悉的 chatbot 或 Deep Research 的环境有什么不同?

柯鑫:我们将它分为三类:专业化工具、数据库和软件。

软件主要是指一些比较主流的生物信息学软件,比如用于单细胞分析的 Scanpy,现在可以在 scanpy 上创建无数个 tool,但我们更希望构建一个通用 agent。我们在互联网上已经能看到大量 LLM 使用这些软件的例子,所以我们只需要告诉 LLM 它可以访问已安装好的软件环境。我们有大约 100 多个常用的生物信息学软件。

Scanpy 是一个基于 Python 的开源分析工具包,专门用于处理和分析单细胞 RNA 测序(scRNA-seq)数据。它是生物信息学领域进行单细胞分析的主流软件之一,能够帮助研究人员对细胞进行聚类、识别细胞类型、发现新的生物学标记等。

a 指的是 scanpy 的分析功能,b 是 scanpy 相较于 Cell Ranger R 工具包的加速效果,图 c 是 130 万个细胞的数据可视化与聚类

数据库在生物领域非常重要,因为大量原始生物数据都存储在数据库中。我们将所有主流的数据库都纳入了 agent,如 Open Targets Genedics、ClinVar、RegulomeDB、gnomAD 等。我们开发了专门的工具,让 LLM 可以轻松访问这些数据库。

专业化的工具指的 LLM 可能难以自行编写出代码的工具,比如一些 know-how,例如,我们与生物实验室合作,获取了他们的实验 protocol,虽然有些 free parameters 需要 agent 来自行输入,但我们提供了 protocol 的模板。像这类就是专业化工具。

此外,我们也把一些 AI 工具如 AlphaFold 和 DiffDock 这些模型定义为专业化工具,因为让 LLM 自己写任务和安装环境还是比较困难的。总共差不多有几百个各种各样的工具,所以这是一项大规模的工程化工作。

 海外独角兽:确实听起来是个很大的工作量。我们做成这个项目,团队一共有多少人?是否需要各个实验室甚至整个开源社区一起来作贡献,把更多的工具和数据库整合进来?

柯鑫:我们的第一个版本现在大约有 5 个核心学生在做,他们来自不同的实验室,比如 Michael Snyder Lab、Arc Institute 以及 Genentech。我认为这是一个非常具有协作性的项目,因为确实整合这个环境不是一个人能做好的。这也是我们想要开源的原因。

这个环境还是第一代版本,我们只是完成了这个模板,但实际上还有更加大量的专业化工具、专业知识、软件和数据库还没有被纳入其中。所以这就是为什么我们 Biomni 不仅开源,还提供了非常简单的 contribution guideline,并且建立了一个 slack 社区。如果我们把这个环境构建好了,所有人都可以在此基础上进行开发,而不用再去做重复的工作。

 海外独角兽:Manus general agent 有一个很经典的产品设计理念叫 “less structure,more intelligence”,很多 agent 在使用工具或采取行动时,更多地依赖于底层模型的能力,而较少依赖于预先的设计。但是在生物学这样一个非常专业、垂直化的领域里,有大量的 know-how。你们在设计这个 agent 的时候,是更多地让模型底层自己去使用各种工具的路径,还是因为它非常垂直,所以你们反而要预先给它很多的设计?

柯鑫:这是一个非常好的问题。我们其实很受 “less structure,more intelligence ”这个理念的启发。Biomni 实际上也是一个没有任何预定义结构和工作流的系统,完全依赖底层的 LLM 来设计如何使用这些工具、软件和数据库。在实际应用场景中,我们发现这种 general purpose agent 虽然能够处理很多任务,覆盖面很广,在大概 50%的任务上都已经达到了非常好的水平,但的确在一些较为精细和专业的任务上,目前的 LLM 还没有达到理想的水平。部分原因可能是 LLM 还不够好,还有一个原因是因为有很多专家 know-how。这种情况下,就需要提前告知 LLM,比如人类专家执行任务时的步骤,然后让 agent 根据这些指令来完成任务。

因此, Biomni 的下一步计划是建立一个资源分类,让人们可以贡献他们在特定任务和专业知识方面的经验,让 agent 去自主地选择。当有新任务时,agent 可以挑选合适的任务模板,检索之前专家的处理方法,由此来更好地完成任务。

另一方面,我们也在考虑如何让 agent 变得更智能,因为之前这个过程还是偏人工完成的,我们需要收集各类数据、工具,也要找各类专家来让 agent 学习。我们最近在进行一些强化学习项目,让 agent 自己学习和自动找出解决方案。

建立 Biomni 的另一个原因就是,有了环境之后,你可以进行一些强化学习任务。如果这个任务是可验证的,在定义好奖励之后,它就可以自己训练,自主地使用工具和推理,从而获得更好的性能。我们最近在一些任务上使用强化学习,确实看到了有趣的性能表现。由于我们是在开源模型上做的试验,所以效果可能不如闭源模型那么好。但是我们也才刚开始做这方面的研究。

 海外独角兽:现在你们用强化学习做推理相关的工作,在实际操作过程中哪些任务更适合最强的通用模型,哪些需要专门微调一些小的模型?这里你们会如何区分这些能力?会将它们划分为几个层次?

柯鑫:在训练 RL agent 和 LLM 方面,由于资源有限,我们只能在一些较小的模型上进行尝试。我们可以明显看到 Biomni 效果比小模型本身好很多,但还没有达到最强大的闭源通用模型的水平,目前我们部署的 Biomni 和 Web 平台都是使用通用模型来做的。这主要是因为我们现在的 RL 方向还处于探索阶段。对于之后的一些定义非常明确、有清晰的奖励系统、有大量样本和数据点的任务,我们可以尝试专门训练一些小模型,让它们达到比最强的通用模型更好的效果。

05.

AI scientist 是使用 AlphaFold 的 Agent 系统

 海外独角兽:我们之前一直讨论的是 coding 和数学才可以用形式化语言来验证,只有这样的任务才有明确的 reward 或更易于设计的 reward。生物学里哪些任务特别适合做 RL?

柯鑫:生物领域里,可以分为两个类型的 reward。

第一类是任务空间是有限。比如总共有 2 万个基因,我们想要设计一个筛选机制去找出 50 个基因,而我们其实已经通过实验,知道了这 2 万个基因分别对应的真实结果。这时可以让 LLM 设计那 50 个基因的组合,无论它设计哪 50 个,我们都能计算出 reward。这种情况下,整个答案空间或解决方案空间都是完全掌握的,但这种任务在生物学中是比较少见的,因为整合梳理这样的任务也是非常耗时耗力的。

另一种情况是在生物领域中有一些具体任务,它们有一个明确定义的 oracle,这个 Oracle 可能是一个 machine learning model,比如 AlphaFold 2。在蛋白质设计中,可能有一个任务是大家需要花费很多精力来设计一个稳定性很好的蛋白质,现在比较常用的稳定性检测方法是,使用 AlphaFold 2 运行一遍,查看 uncertainty score(pLDDT Score)如何,这实际上就是一个可以直接用于优化的奖励,所以也会有针对每个任务的特定 oracle。

Oracle 指理想化的、能为某个特定问题提供绝对正确或黄金标准的模型或系统。

pLDDT Score 是 AlphaFold 2 输出的一个关键指标,表示模型对所预测的蛋白质结构中每个氨基酸残基位置的置信度,分数越高,代表模型对该局部区域的结构预测越有信心,结构也更可能可靠。

因为生物领域的任务非常分散,所以每个任务都需要具体查看是否有一个 reward 是清晰定义的。同时,找到任务也很困难,我们花了很长时间进行头脑风暴。

 海外独角兽:除了 oracle 模型之外,AlphaFold、Evo 2,以及我们前面提到的 virtual cell 模型,未来与你正在开发的 agent 之间的关系会是怎样的?它们之间是会协同一起并行地向前进步吗?

柯鑫:我觉得它们实际上是一种相互独立又互补(orthogonal)的关系,AI scientist 可以使用 AlphaFold 这类工具来完成一些任务,然后根据 AlphaFold 的结果,我们可以决定下一步该使用什么工具来完成整体目标。

Virtual cell 模型、AlphaFold 这些生物学领域的基础模型都是为了解决具体的某一步骤,而 AI scientist 更像是如何将各种工具、各种步骤协调在一起,以完成一个更高阶的目标。目前来说,我认为 AI scientist 会使用像 AlphaFold 这类工具。

从另一个角度来说,在未来,因为目前 AI scientist 里还有真正从事 AI 研究的科学家,他们可能也会开发出新的 AlphaFold,就像 Google 的 AlphaEvolve,它可以解决像构建生物学领域的基础模型这样的问题。这可能就会形成一个闭环:AI scientist 先设计这些新模型,然后 AI scientist 也同时可以使用这些模型进行发现,又会推动 AI scientist 制作新工具。这可能是未来非常长远的发展方向。

AlphaEvolve 是 DeepMind 2025 年推出的进化式 coding agent,通过不断生成、评估和优化代码,能够自主改进算法并发现新方案,目前已在矩阵乘法、数据中心调度和芯片设计等领域实现突破。

 海外独角兽:AI Science 领域的 AlphaEvolve 其实是一个很有趣的话题。如果 AI agent 可以自主设计自己所使用的工具,那么科学上可以探索的空间就会更大。这是否是未来完全自主 AI biologist 所必须实现的终极目标?

柯鑫:我认为 AlphaEvolve 确实是一个非常有趣的应用,因为它与现在 AI scientist 所做的任务有些不同。现在 AI scientist 还是在自动化一些任务,进行一些研究发现,而 AlphaEvolve 是从根本上改变了如何执行任务。所以我觉得这仍然是一个相互独立又互补(orthogonal)的方向,两者都是互相受益的。

 海外独角兽:除了这个目标之外,我们的 agent 现在处于哪个阶段,接下来还有什么期待?AI scientist agent 未来持续进步的方向和里程碑是怎么样的?

柯鑫:有很多很多方向,首先是环境。现在的环境还是初始的版本,相较于 LLM 和之前的通用 agent 来说,agent 的确能够完成大量 task,但仍有很多任务它是完全做不到的,所以这需要社区的努力来构建高质量的环境。

其次,有了环境后,如何达到超越人类的智能,这种情况可能就需要 RL,需要 well-defined verifiable tasks,让 LLM 自己搞清楚如何利用环境来实现前所未有的发现。这是一个非常令人期待的方向。

另一个方向是落地应用,AI scientist agent 可能会有尚未探索到的新能力。比如 agent automation ability 就意味着它可以进行大量的规模化。生物学领域很多问题本质上其实就是搜索问题。之前因为科学家做不到人工地去搜索各种各样的东西,而 agent 现在具备人类的推理能力,也可以大规模地进行搜索,这就导致它会产生新的能力。

比如我们先前做过一个叫 popper 的项目,把一堆数据集喂给 agent,提供了几百个文件和数据库,让它像黄金矿工一样挖掘数据,然后 agent 就可以大量地产生各种假设,这是之前没有 agent 无法实现的能力。可能还有很多这样我们没想到的新能力。

Agent 在某种程度上其实是从根本上改变了我们做科研的方法。之前的阶段性方法都是 observation-hypothesis-experiment 这样一个线性的过程,但 agent 开辟了更 open 的方向。这些新方向只有提出来后才会意识到。

Popper 是柯鑫作为核心作者开发的一个 multi-agent 系统,设计灵感源于科学家 Karl Popper 的可证伪性原则,目的是自动化“假设生成-实验验证”的科学发现循环:由一个 agent 负责从海量数据中提出科学假设,另一个 agent 则负责设计实验来验证或证伪这些假设,从而大规模地挖掘潜在的科学洞见。

Popper 是柯鑫作为核心作者开发的一个 multi-agent 系统

 海外独角兽:生物领域里很多问题都是搜索的问题。应该怎么理解搜索,是不是分为两层?一层是传统意义上的搜索,比人更多地查找资料,更多地将不同学科的知识和数据库串联起来;另一层是很多结构或基因序列本身就存在,但人类之前没有能力在如此大的搜索空间中找到这些结果。

柯鑫:是的,因为在生物领域,比如有 2 万个基因,我想知道哪个基因导致了某种疾病。现在因为人力的限制,通常只能最多研究 50 个基因。但如果让 agent 来执行这个任务,它可以自动化和规模化这个过程,直接分析全部的 2 万个基因,得到全新的 insight。

对于更大的搜索空间,比如基因的组合问题,agent 可以自己设计最合理的基因组合,使用它的先验知识来更好地搜索下一个 multi-gene 实验应该是什么。

 海外独角兽:也就是说,不再是做选择,而是 AI 或 agent 有能力把所有可能性都遍历一遍。

柯鑫:是的,或者是更加智能地去搜索这个 space。

 海外独角兽:除了 LLM,即语言这个模态之外,其他很多模态的数据都不是那么轻易能够获得的。因为语言模态的大部分数据都是在互联网上现存的,做数据清洗和获取都比较容易。其他不管是多模态、机器人还是生物领域的数据,获取成本都比较高。如果只看生物领域,现在的数据获取成本是什么样的?如果很多数据还是需要来自于湿实验,那 AI 能够怎么样去帮助大家更好地整合这些实验中不同模态、大量且多尺度的数据?

柯鑫:数据在生物领域是最大的瓶颈,其实很多时候有了新数据,如果数据中真的有 signal,很容易直接揭示那个 insight。

最近有一些有意思的工作,是让 AI agent 去整合组织这些数据。我们之前一个同伴所在的 Arc Institute 做了一个 scBaseCamp。

scBaseCamp 是一个由 AI agent 驱动、持续更新的单细胞 RNA 测序数据存储库。

生物领域的数据一方面是私有的,另一方面是分散,遍布在整个互联网上,agent 可以自己去搜索,做 web search、compute use,自己去抓取各种数据,把它整合组织在一起。让 agent 进行数据整理是一个比较有意思的角度。

另一个角度是,有没有可能让 agent 自己去指导人类如何生成数据。现在有那种完全自动化的实验室:AI agent 读了很多文章,看了之前的实验结果,它可以告诉 robotics lab 下一步要做哪些实验,然后 robotics lab 把实验结果告诉 agent,这样就形成了一个全自动化的闭环。这样也能在总体上提升数据生成的规模。

还有一种 scale up 是让 AI agent 自己去根本性地改变实验和技术的实现方式。现在为什么很多实验数据量还不够大,是因为实验技术还没到那个程度。比如基因组的测序,20 年前测一个基因组就需要花十亿美元,现在几百美元就可以。这 20 年间实验技术有很大变化,这些技术的进步就是 research 的结果,其实就是人类推理加各种实验试错的结果。所以从另外一个角度上,AI 也可以做这方面的事情,去加速湿实验设计、实验技术本身,我认为这也是 AI agent 产生更多数据的一种方式,但这可能是更远的方向,因为它需要很多创新。

 海外独角兽:现在我们获取生物数据的成本在显著下降,其中一个原因是我们可以用 reasoning 去设计湿实验。可能以前的观念是把前期的干实验和湿实验分开,但实际上 AI 也可以通过 reasoning 的方式加速湿实验?

柯鑫:刚才说的是一种方式。现在湿实验也有很多 dry 的部分,比如我要设计实验 protocol,AI agent 现在也可以帮忙更好地设计实验 protocol。

 海外独角兽:Biomni agent system 的主要使用者会是谁?

柯鑫:我认为使用者可以分为多个部分。第一个部分肯定是学术机构中的 researchers 和 individual scientists。AI 可以帮助他们自动化日常任务。但因为这些任务往往很通用,所以在药企、医院、以及为药企提供服务的外包公司中都会遇到。

我们可以将任务分为几种类型:第一种是文献研究。例如,我想了解某个变量的具体机制,Biomni 可以搜索各种数据库和网页,组织整理成一份报告。这是偏 Deep Research 类型的任务。

第二种是数据分析。无论在学校还是在药企,都会遇到这个问题,比如我有一个数据想要进行标准化的分析。我们的 AI agent 可以帮助完成这类任务。

第三种是湿实验的 protocol 设计。对于湿实验的科学家来说,在进行实验之前需要制定 step by step 的 protocol,包括这一步的温度设置、下一步的试剂使用等。AI agent 可以辅助设计这些 protocol。

最后,可能还会有一些临床应用,如疾病诊断和临床决策支持。总的来说,这是一个通用型的 AI agent。

 海外独角兽:你之前在 Genentech、Pfizer 等多家制药公司工作和合作过,这些经历对你的研究和做 Biomni 产生了哪些影响?

柯鑫:我个人是非常喜欢去这些 domain 的公司,与他们深度合作,并了解他们的需求和兴趣。这些经历对我最实际的影响是让我更好地感知问题,明白哪些问题值得研究,哪些问题他们关心,哪些问题会产生更大的影响。所以在 Biomni 中,我们有许多用例是制药公司比较关注的,比如设计靶点发现、预测药物性质、虚拟筛选、分子对接等。这些 Biomni 的关键用例都是基于我之前与制药公司合作的各种项目经验。

06.

如何设计 AI biology 的 benchmark?

 海外独角兽:生物领域缺乏像 ImageNet 或 SWE-bench 这样统一的标准。前不久姚顺雨也发了文章,提到 AI agent 和 RL 的下半场 benchmark 非常重要。如果让你来设计 AI biology 的 Benchmark,你会如何设计?有哪些重要的核心指标或任务?

 

柯鑫:设计 benchmark 有各种各样的途径。在 Biomni 里,我们就自己创建了一个新的 benchmark,主要是整理了八个新的 research task。这些任务都有一个由领域专家预先定义好的标准答案,可以用来衡量 agent 在真实世界里研究任务上的表现。

在这之前,学术界也有一些 question answering 和 multiple choice research 形式的 benchmark,用于评估 agent 有没有基础知识或使用工具的能力,但那更像是考试形式的 benchmark,而不是真正的科研型的 benchmark。我们最想评估的还是 agent 在实际研究任务上的表现,这一点的维度其实非常广。因为生物领域有太多任务,我们不可能为所有任务都定义好明确的 benchmark 和标准答案。

所以,我最近也在考虑一种新的方式,有点像 Chatbot Arena 的模式,做一个 preference-based 的 benchmark。可以设置一些明确的科研任务,然后让两个不同的 agent 去完成并生成结果,最后让一位生物学家来评估,哪个结果更好。这种方式也会有很多问题,但我认为这也是 benchmark 的一个值得探索的方向。

Chatbot Arena 是一个由 LMSYS Org 和伯克利 SkyLab 于 2023 年 5 月启动的公开 LLM 性能评测平台。

 海外独角兽:我觉得基于偏好的说法很有意思,Chatbot Arena 的偏好是基于用户更喜欢哪个回答,而在这里,研究员的偏好可能也是基于他的科学品味,这有时不完全等同于事实?

 

柯鑫:的确,真的要组织好这个模式其实挺麻烦的。我们可以让输出的结果尽可能的 factual。比如,一个任务是我想要设计 50 个基因来进行筛选,agent 就只输出这 50 个基因。这样就可以让研究员只评估输出结果的表现,而排除报告的语言、语法等潜在的干扰因素。

但即便如此,它仍然依赖于用户的个人偏好。对同样一份 50 个基因的列表,不同的研究员可能会有不同的 taste。特别是对于一些开放式问题,可能连人类科学家自己都无法给出一个完美的评判标准。所以,这是一个非常有意思的问题,目前还没有一个明确的答案。

07.

AI for Science 

也存在“Cursor”的机会

 海外独角兽:我们的听众可能对生物领域,以及研究者们的日常工作比较陌生。这些研究者无论在药企还是在学术机构,大家日常工作里占用大量时间的工作大概有哪几类?有了 Biomni 之后,哪些工作能真的地把研究者解放出来?

柯鑫:我认为有这么几大类。第一个肯定是生物信息学的数据分析,这是一个基础的基于 coding 的工作,而 LLM 在 coding 能力上非常强。所以这肯定是能解放研究者大量的时间和成本的方面。我们了解到,在药企或大型生物实验室里,经常有 70%-80%的数据是被闲置的,就是因为缺少足够的生物信息学家去做分析。所以如果有了 agent 之后,他可以去大量地分析新数据,然后再从中产生新的发现。这是最立竿见影的应用。

第二大类是湿实验的方案设计,这也是一个非常大的类别。因为设计一个实验方案其实非常花时间。之前和一位湿实验科学家聊,他说他有一半的时间花在电脑上设计实验,另一半时间才是亲手去做实验。如果能将设计实验的这个过程自动化,也是非常有价值,而且见效很快。

 海外独角兽:Biomni 这个系统是由一个 agent 还是多个 agent 组成的?每个 agent 都扮演什么样的角色?

柯鑫:目前 Biomni 实际上是一个 single agent,它可以作为通用 agent 执行各种任务。当然,在设计时,我们内部也加入了一些 sub-agent,比如我们专门有一个 tool retrieval sub-agent,负责帮助从环境中检索相关工具。对于一些数据库,我们也是用 sub-agent 来进行数据库查询。但是 Biomni 的整体结构还是一个 single agent,只是将这些 sub-agent 作为工具的形式来使用。

我认为这是 multi-agent 的一个基础,single agent 可以执行各种任务,multi-agent 在之后可以将各种类似 Biomni 的 agent 串联在一起,每个 Biomni 执行不同的任务,形成 multi-agent 系统来完成更高阶的任务。

比如,给定一种疾病去找到对应的药物,这种复杂度较高的任务可能更适合使用 multi-agent,因为需要执行多个步骤;我们之前的 popper 项目也是 multi-agent 系统,一个 agent 提出假设,另一个验证假设,两个 agent 可以都是 Biomni,只是 system prompt 不同。这个 multi-agent 系统可以迭代地证伪和调整假设。

所以,我们目前的想法是 Biomni 是一个 multi-agent 的基础,我们可以构建各种 agentic system 来实现更高阶的任务。

 海外独角兽:Bioinformatics 与 coding 任务比较接近。过去一年中,AI coding 和 AI for science 是发展特别快的两个方向。你在开发 agent 的过程中,是否认为在未来 AI for science 领域也会出现像 Cursor 或 Devin 这样的机会?

柯鑫:我认为必然会出现更加大的机会。Cursor 和 Devin 是在规模化 coding 这项专业能力,而 AI scientist 是规模化生物医学领域或者其他科学领域的专业知识。

生物医药的研发成本是一个数千亿美元的市场,其中有巨大的低生产力环节和大量重复性的任务。生物医药产业的效率其实非常低,研发一个新药就需要 10 年,消耗 30 亿美元,整个行业已经习惯了这种长周期、高失败率的场景。现在的一个风向其实也是降低各种成本,提高生产力。所以这是一个巨大的市场,而且这仅仅是自动化一些任务。

如果是做 discovery 的话,那将是另一个更大的市场。一种新药做出来的话,可能可以带来数十亿美元的销售额。因此,如果 AI agent 真能发现新药,那将是一个千亿级的市场,肯定会出现像 Cursor 或 Devin 这样的机会。

 海外独角兽:随着 AI biologist 从 automation 到 discovery 的发展,如果我们展望稍远一些,大概 3 到 5 年后,你预期 2030 年左右,那时候药厂以及所有的生物实验室会以什么样的形式运营?

柯鑫:这是一个很有意思的问题。因为到 2030 年,实际上也只有 5 年时间,我认为随着时间的推移,演变的第一步肯定是像 cursor 一样提升人类能力,有一个 workspace for biologists,它可以自动化大量的数据任务。

第二步则是 autonomous agent,它可以自己进行一些发现,提出一些假设。人类更像是一个监督者,每周可以与 agent 进行一对一交流,agent 会向你报告实验结果和新发现。我认为这相当于之后,比如一个博士生手下可能有 4 个 agent,它们可以帮人完成工作,然后博士生就可以总结并向 PI(项目负责人)汇报。

第三步可能更像是一个组织,我们之前设想过一个概念叫 Virtual Pharma,有没有可能在未来一个 agent 就是一个 pharma,它可以进行药物的设计,甚至直接做一些机器人实验室和湿实验室的编排工作等,这有点像一个人的十亿美元创业公司的概念,可能是一个人或一个 agent 创造价值十亿美元的 Biotech 公司。我觉得这种生物技术完全有可能实现,也许不是 2030 年,可能是 2050 年。

在学术界,PI 可能会雇用更少的博士生,甚至在未来,可能会出现一个 PI 一个实验室的情况。因为我们最近已经看到一些生物信息的任务完全可以用 agent 来自动完成,所以以后可能会越来越倾向于这种一个 PI 一个实验室的模式。

 海外独角兽:未来可能一个人带着很多 AI agent 作为同事来运作多个研究方向,对于那些想要进入 AI for science 或 AI for biology,或者其他如材料科学领域的 AI scientist,你有什么建议吗?

柯鑫:我的建议是深度地去和生物学家进行合作,设身处地去考虑他们的需求是什么。不是说我要创造一个工具然后去解决他们的问题,而是与他们交流,了解他们的问题是什么,了解他们的日常工作是什么样的,形成合作关系。我觉得这是一个比较好的方式。

我认为最近也是一个非常好的时机,因为确实能感受到生物学家现在对 AI 非常开放。我从 7 年前开始做这个工作,最初的 5 年里,生物学家对 AI 并不是很 open。他们认为这只是一种技术,不会影响到他们。但是最近两年明显能感受到他们非常愿意合作,甚至非常积极地想要使用 AI,他们自己也会使用一些 AI 工具。所以我觉得这是一个很好的时机。

 海外独角兽:我们也经常听到一些可能本身不写代码的生物学研究员,现在都开始用 cursor 写代码了。我感觉这确实是他们拥抱 AI 和 AI 产品的一个很好的时机。

柯鑫:是的,大型药企里面也是一样。这也是一个比较有趣的现象,现在有一个自上而下的 AI 拥抱浪潮,从高层管理和资深人员开始,他们整天在思考如何让公司更好地应用 AI。这与五六年前非常不同,那时候做 AI 药物发现的公司对此其实是非常保守的。

 海外独角兽:从你的了解来看,这些药企首先肯定要有一笔预算去做 AI 方面的投入。之前对他们来说,一定会花钱去买的 AI 工具有哪些?在我们的概念里可能只知道 AlphaFold,最近你感觉到有什么新的变化吗?

柯鑫:AlphaFold 确实有一些药企在使用,但最多的其实还是 ChatGPT,他们会用企业版。其他外部的 AI 工具我感觉使用得其实非常少,有一些数据库分析工具,但我感觉不是那种非常核心的研究方面的 AI。

 海外独角兽:这些药企主要用 ChatGPT 来做什么呢?

柯鑫:开一家药企,除了科学研究以外,还涉及很多方面。比如 business intelligence,你想要知道某个靶点是否有其他药企在用;比如我想要做一个临床试验,那我要怎么设计这个标准;然后甚至做一些文献研究。当然,在科学方面也会用到很多。

ChatGPT 是一个非常基础且通用的工具,所有药企都会使用,他们也会构建一个定制的版本,把药企的私有文档和数据都连接到 ChatGPT 里面。

 海外独角兽:从这个角度来看,如果要开发一个垂直领域的 AI scientist 或 AI biologist,在某种程度上还是与 ChatGPT 存在一定的竞争关系?

柯鑫:但 ChatGPT 因为没有这个环境,所以它更偏向处理一些基于文本的任务。我认为它不像是那种真正的科研任务,而更像是非研究性质的公司业务。

也不排除 ChatGPT 之后会做 scientific discovery 方面的研究,他们最近支持了 RDKit 的相关功能。

RDKit 是一个在化学信息学和计算化学领域被广泛使用的开源工具包,可用于分子的读取/写入、结构绘制、化学指纹计算、分子相似性搜索等任务。

 海外独角兽:你在与这些用户合作的过程中,有没有看到一些 Biomni 特别有意思的 use case 可以分享一下?比如说 ChatGPT 做不了的,或者是用户对 AI 能做到这个程度感到非常惊讶的案例。

柯鑫:因为我们现在还没有正式发布,所以我们目前的 data point 相对较少。但是在我们目前与实验室的合作过程中,我发现用户对此的期望并不是很高,他们现在认为 ChatGPT 能做的就是回答一些问题。所以当我们向他们展示我们的成果时,比如我们把他们的一个 GWAS analysis 从头到尾直接运行了一遍,然后生成了许多高质量图表,他们会觉得这个工具非常好用,立即就想使用它。

这是一个比较实际的例子,很多人在研究任务中并不知道 AI 能做什么,所以当 Biomni 完成了这个任务,然后把报告给他们之后,他们会感到相当惊讶。因为生物学家群体还是相对比较保守的,虽然他们对新技术,特别是计算技术的开放程度,正在逐渐提高,但总体上还是比较保守。包括他们对技术输出是否非常可靠还是存在一些担忧,他们也不太了解这项技术目前的进展程度,比如我们现在的 autonomous agent 能够帮助他们完成分析,但他们实际上并没有这样的预期。

 海外独角兽:这种 aha moment 真的能帮他们解决问题,其实也很好。就像 Cursor 光是 tab 去做代码的自动补全,这样看似非常简单的任务,也是之前就有的功能,但如果把这个任务解决到极致,理论上这些用户就会有非常好的体验。

柯鑫:是的,我认为就是需要很多这种 aha moment 。

 海外独角兽:Biomni 不仅利用了模型的能力,更重要的是为研究人员和生物医药学家提供了一个新的用户界面,让他们能直观地感受到模型和 AI agent 能够做什么,相当于降低了他们使用 AI 的门槛。

柯鑫:确实如此。过去一个月,我们一直在开发用户界面,因为生物学家通常不会写 code,他们需要无代码的解决方案。我们也在思考应该如何设计用户界面,能够让生物学家使用起来感觉很顺畅。

这涉及许多细节问题,我们也与许多生物学家进行了交流,他们关注的点往往非常不一样。我们需要从头设计界面来满足他们的需求,让他们收获 magical experience。我认为这是一个很有意思的问题。

 海外独角兽:今天我们讨论了很多 AI scientist 方面的问题。你认为 AI scientist 发展到什么程度,取得什么样的进展,会让你觉得比较理想,让大家都感到非常兴奋?

柯鑫:我认为会有各种各样的里程碑。最终的里程碑肯定是 agent 做出了诺贝尔奖级别的研究发现,就像发现 CRISPR 这样级别的突破。

还可能有其他里程碑,比如找到一个被验证的全新疾病靶点,如果 agent 能找到第一个被验证的靶点,就说明它能找到更多其他的靶点;甚至 agent 有可能可以从头到尾设计出一个药物,因为这是一个端到端的药物研发过程,解决一个之前没有人能解决的罕见疾病。

AI scientist 实际上就是在模拟人类科学家,所以如果它能做人类科学家能做的事情,甚至做得更好,达到了超级智能的水平,这肯定是最终目标。

 海外独角兽:听起来你认为 AI scientist 的进展与 AlphaFold 这样的科技突破同样令你兴奋。

柯鑫:是的,最初的 5 年我其实没有在做 agent 方面的工作,我更多是在做像 AlphaFold 这样的模型,使用生物数据进行建模这样的工作。然后我明显感觉到 AI scientist 是一种不同的能力,它能解决大量不同的任务,引入的是 human intelligence 这样的元素,所以它能开启完全不同的能力和创新发现,因此我感觉这是一个非常令人兴奋且有很多开放问题的方向。

 排版:范诗翎

延伸阅读

AI4Science 图谱,如何颠覆10年 x 20亿美金成本的药物研发模式

Granola:ChatGPT、Notion 都入场的 AI 纪要,能真正沉淀工作流吗?

巨头博弈下,Agent 的机会和价值究竟在哪里?

从 AI 招聘到数据标注,Mercor 能否打造下一个 Scale AI?

对谈 DeepSeek-Prover 核心作者辛华剑:Multi Agent 天然适合形式化数学 |Best Minds

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI scientist 生物医药 agentic system Biomni 科研范式
相关文章