范阳 07月08日 14:11
什么是虚拟细胞:AI 生物学的“登月时刻”和“苦涩教训”。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了虚拟细胞的概念,探讨了AI在生物学中的应用,特别是深度学习和神经网络在模拟和预测细胞行为方面的潜力。文章回顾了历史上对细胞模拟的努力,包括科弗特团队对生殖支原体的全细胞模拟,以及CZI生物枢纽的宏伟目标。文章强调了AI在生物学研究中的重要性,并展望了未来可能的发展方向。

🔬虚拟细胞是一个广泛的术语,用于描述使用AI模拟细胞行为的努力。它涵盖了从简单的蛋白质结构预测到复杂的全细胞模拟的各种研究。

🧬深度学习,尤其是神经网络,已被证明在生物学中非常有用,特别是在处理复杂和非线性问题时。例如,AlphaFold成功地预测了蛋白质的三维结构。

🔍全细胞模拟是生物学的一个长期目标,旨在创建能够预测细胞行为的详细计算机模型。科弗特团队对生殖支原体的模拟是一个重要的里程碑,但它仍然只是一个开始。

🌐CZI生物枢纽是一个雄心勃勃的项目,旨在通过提供资源、资金和合作机会来加速生物学研究。它的目标是理解细胞的奥秘,并最终治愈、预防和控制所有疾病。

🚀AI在生物学中的应用具有巨大的潜力,可以彻底改变我们对生命科学的理解。随着技术的进步和数据的积累,我们可能会看到更精确、更复杂的细胞模拟在未来几年出现。

原创 范阳 2025-07-03 15:49 上海

What Are Virtual Cells?

We shall not cease from exploration,

And the end of all our exploring

Will be to arrive where we started

And know the place for the first time.

我们不会停止探索,

而所有探索的终点

将是我们从前出发的地方,

只是这一次我们第一次真正认识了它。

—— 艾略特(T. S. Eliot)

“苦涩的教训” 会在生命科学领域重演吗?

计算的生命形态是什么样的?

“生命的统计形态” 意味着什么? 

一台能运行生命的软件是什么样的?

AI 会先预测生命,再理解生命?

“预测即是理解” 这是更进步的认识论吗?还是只是迎合了当下的热潮?

人工智能的终极目标是去模拟生命到创造生命吗?

对于正在产生的新的科学研究范式——“自动化科学”,“模型,预测和押注”,是否会取代现有的同行评议与实验验证?

“AI 科学” 和 “AI 生物学” 会更像搭建一个全球化的“天气预报”系统吗?这需要怎样的多学科人才和组织结构?

这些问题,是我阅读完今天分享的这篇文章后,我想抛出来激发更多思考的。

今天分享的这篇文章《 What Are Virtual Cells? 》来自研究者/写作者/风险投资人 Elliot Hershberg,这篇是我最近读过最令人激动的一篇综述科技写作。也帮助我完善了对于“虚拟细胞”这个新的生物技术领域的“抓手技术”和“催化剂技术”的认知框架。

如果你正在从事这个领域相关的科研和工程开发,也欢迎找到我交流。也推荐你看看在文章末尾的延伸阅读。

希望今天的文章对你有启发。

什么是虚拟细胞?

What Are Virtual Cells?

学习生命基本单元的“通用表征”

Learning "universal representations" of life's fundamental unit

作者:Elliot Hershberg,The Century of Biology 博客主理人

编辑:范阳

发表日期:2025年6月30日

在进入今天的文章之前,我有一个更新要分享。

我加入了 Amplify Partners,协助创建一个 2 亿美元规模的早期风险投资基金,专注支持生物领域的技术型创始人。这显然是我多年来的执念——我有证据!我们正在打造一家服务下一代技术创始人的公司,比如 BridgeBio 的 Neil Kumar、Dyno Therapeutics 的 Eric Kelsic、Vial 的 Simon Burns、Enveda 的 Viswa Colluru,还有更多人。还有太多东西等着去建设……

如果你想了解更多,可以阅读我们的宣言,或者查看相关新闻报道。

这也正好提醒大家:我可不是记者!我的目标并非像现代体育场馆里悬停在赛场上空的摄像机那样,以超然客观的视角记录事件。我有自己的观点。更"糟"的是,我持有相关公司的股份,与文中提及的许多人物都有交情。

换句话说,我和这个话题有千丝万缕的联系——推动生物科技加速发展( accelerating biotech is my life’s work ),是我一生的事业。和之前一样,我会特别标明哪些公司是我们已经选择合作的。

最后,我想对 Packy McCormick 说一句话:谢谢你,谢谢你,谢谢你。我在 Not Boring 工作期间学到了无比多的东西。关于写作和投资,当然。但也关于生活。Packy 是我见过最聪明、最慷慨的人之一。尽管他是个纽约人,Packy 却最能体现硅谷“正和思维”的精神( Packy is the clearest embodiment of Silicon Valley positive sum thinking )他仿佛天生就是用自己的平台和写作天赋去提升别人的人( It feels like he is hardwired to use his platform and gifts as a writer to boost others )我形容Packy是"混沌善良型"( chaotic good )。他是高产作家、快得离谱的马拉松跑者、兄弟、丈夫、父亲,也是朋友。真不知他哪来的精力兼顾这一切,但我知道自己会成为他一辈子的读者和粉丝。谢谢你。

好了,我们开始吧!🧬

2017 年 8 月 4 日,安德烈·卡帕西( Andrej Karpathy )用一条隐晦的推文向我们揭示了世界未来的走向:"梯度下降法写的代码比你强。抱歉( Gradient descent can write code better than you. I’m sorry )。"

他谈论的是深度学习的魔力——一个他极为精通的领域。当时,卡帕西正领导特斯拉的自动驾驶项目。在此之前,他已痴迷于这一人工智能分支超过十年,早在它取得一系列重大突破和诺贝尔奖级别的成果之前,他就开始了探索。而当他起步时,这个领域还只是学术界的冷门方向。

在多伦多大学读本科时,他师从杰弗里·辛顿(Geoff Hinton)。如今被誉为"AI教父",并参加了后者组织的小型专题读书会。我总忍不住想象这样的画面:瘦削而不知疲倦的辛顿教授( 他自称自 2005 年以来就没坐下过 ),在几乎空荡荡的大学教室里,向年轻的卡帕西布道这个当时还鲜为人知的奥秘。

这个奥秘就是:人工神经网络,尤其是深度神经网络,是一种能够从数据中学习复杂计算机程序的算法( The secret was that artificial neural networks—especially deep neural networks—are algorithms that can learn complex computer programs from data )

以图像分类器( image classifier )为例。如果要编写一个判断图片是否包含小猫的程序,你会怎么做?或许你会先寻找类似尖耳朵面部轮廓的像素模式。但这种方法会很脆弱,并且需要成千上万行代码来处理不同的角度和边缘情况。而一旦扩展到识别其他物体,复杂度将迅速失控( Extending beyond kittens would quickly get out of hand )

与其直接编写图像分类器的代码,不如通过提供成对的图片及其对应标签来训练神经网络( Instead of writing code for an image classifier, we can train neural networks to do this by providing pairs of images and their corresponding labels )。只要有足够的数据,训练出的分类器甚至能在同一任务上超越人类的表现。卡帕西推文中的深刻洞见在于:负责调整神经网络以学习这种映射的优化算法——梯度下降法——能够生成人类无法复制的程序( The deep kernel of truth in Karpathy’s tweet was that gradient descent—the optimization algorithm responsible for tuning the networks to learn this type of mapping—could produce programs that no human could replicate )

在后来一篇题为《软件2.0》的博客文章中,他用一张简单的示意图阐释了这个概念,而这张图从此便刻进了我自己的神经网络。

软件1.0 是指那一类由人类手动编写的程序——比如终端、文字处理器或网页浏览器( Software 1.0 consists of the set of programs—like terminals, word processors, or Web browsers—that humans can write by hand )而卡帕西提出的软件2.0,则是指那些能够通过神经网络结合优化算法(比如梯度下降)学习得到的、更广阔的程序范畴。( Software 2.0 is the term Karpathy uses to describe the expanded set of programs that can be learned by neural networks with optimization algorithms ( such as gradient descent ) )

卡帕西接着说道:"事实证明,现实世界中的大部分问题都有一个共同特点:收集数据( 或者更广泛地说,确定期望的行为模式 )往往比直接编写程序要容易得多。( It turns out that a large portion of real-world problems have the property that it is significantly easier to collect the data (or more generally, identify a desirable behavior) than to explicitly write the program )"

正因如此,深度学习——如今基本上已成为人工智能的代名词——已经稳步渗透到计算机科学的诸多领域,并持续输出世界级成果。即便是那些看似非常传统的软件1.0问题,比如排序和哈希( sorting and hashing ),如今也正被 AI 重写算法。

当然,AI 还能实现传统工程手段根本无法完成的产品体验。ChatGPT 的能力范围,早已远远超出了人类手动编码所能触及的程序空间。这一范式转变已经创造了数万亿美元的市场价值。

卡帕西是对的。

梯度下降法写的代码比你强。抱歉。

而最能深切体会这一点的领域,莫过于生物学( Few disciplines feel this more acutely than biology )

生物学界有个流传已久的玩笑:如果你热爱科学但不擅长数学,那么生物学是个绝佳的专业( if you enjoy science but are bad at math, it’s a great major )。分子生物学和物理学截然不同。生命系统的复杂性和非线性,使得知识的创造与传播不得不依赖"暴力破解"的方式。生物学教科书里塞满了事实描述和示意图,而不是方程式( The complexity—and nonlinearity—of living systems has required a brute force approach to knowledge creation and dissemination. Biology textbooks are full of facts and cartoons, not equations )

AI 正开始彻底改变这一局面( AI is starting to change this in a big way )。经过数十年的研究——包括大量数学建模和软件 1.0 的尝试——三维蛋白质结构预测这个难题,最终被深度学习一举攻克( After decades of research—including lots of attempted math and software 1.0—the problem of 3D protein structure prediction was effectively solved by deep learning )。正如卡帕西所说,许多现实问题通过收集数据来解决,远比试图编写程序更高效( many real-world problems are easier to solve by collecting data rather than attempting to write programs )。而蛋白质结构预测,正是这类问题的典型代表。

三维蛋白质结构预测问题:模型学习氨基酸序列与蛋白质三维结构之间的对应关系。

这一突破性进展——以及随之而来的蛋白质设计( 即逆向问题 )研究进展——为戴维·贝克( David Baker )、德米斯·哈萨比斯( Demis Hassabis )和约翰·詹珀( John Jumper )赢得了 2024 年诺贝尔化学奖。

其重要性不难理解:很少有生物大分子能像蛋白质这样关键( Few macromolecules are as important as proteins )。在解析和设计蛋白质结构的能力上实现质的飞跃,绝对是重大突破( Delivering a step change in our ability to resolve and design their structures is a big deal )

随着研究热潮和持续进展,蛋白质建模已成为生物学研究中发展最迅猛的领域之一。正如布莱恩·诺顿( Brian Naughton )所记录的那样,我们设计蛋白质结合体( protein binders )的能力正在快速提升。可以这样理解:两个分子( 无论是蛋白质还是配体 )之间的结合相互作用( the binding interaction between two molecules—either proteins or ligands ),正是分子机器学习下一个顺理成章的研究方向。

但如果是整个分子复合体呢?甚至是这些复合体之间的相互作用呢( what about entire complexes of molecules, or even interactions between those complexes )

2023 年我曾对此做出推测:"我们已经拥有针对特定组成部分的强大模型。现在正在学习将这些部分组合成回路的模型( We already have powerful models of specific parts. Now we’re learning models of parts composed together into circuits )那么如果我们再往前走一步,把这些回路组合成更复杂的结构——能不能逼近对整个细胞的预测模型( What about models of combinations of circuits—getting us closer to predictive models of whole cells )?再进一步,多个细胞组合的模型?——从而更接近组织模型。我们能否像套娃一样,将生物机器学习模型的输出层层嵌套Or combinations of cells—getting us closer to models of tissues? Can we compose the outputs of our BioML models together like a set of Matryoshka dolls )?"

延伸阅读:预测生物学(Predictive Biology):AI 驱动生物学从“还原论”到“涌现性”的新范式。

Evo 2:DNA 语言模型实用性的苏格拉底式对话(上)

即便坏掉的钟每天也能准点两次。这确实正逐渐成为研究的主流方向。生物学界对一个长期追求的"圣杯"的关注度明显提升:有效模拟细胞行为( There has been a palpable uptick in focus on a longstanding Holy Grail of biology: effectively simulating the behavior of cells )

全球顶尖实验室和公司正在竞相构建"虚拟细胞"( Virtual Cell )——这个自世纪之交就存在的概念。借助新工具,人们大胆押注这一愿景即将实现。

这个概念就像一个洋葱。最外层,“虚拟细胞”是一个广义词( a catch-all term ),是用来激发关注( 以及获得资助 )的术语,抽象得足以让不同的人赋予它不同的含义。说白了,是个热词。

往下一层:研究人员正在发表前瞻性文章( 相当于科学界的宣言 ),勾勒更具体的研究计划轮廓。其中具有里程碑意义的是近期论文《如何用人工智能构建虚拟细胞:优先事项与机遇》,我们稍后将详细探讨。

范阳注:How to build the virtual cell with artificial intelligence: Priorities and opportunities

https://www.cell.com/cell/fulltext/S0092-8674(24)01332-1

而在这个“洋葱”的核心,当然就是实际的研究成果了。我们正看到第一波架构创新的出现( first wave of architecture innovation )——尤其值得注意的是基准测试( benchmarking )的推进——以及一系列在数据生成规模化上的协同努力( several concerted efforts to scale data generation )

但在我们开始剥开 AI 虚拟细胞的洋葱之前,不妨先看看另一种路径。如果我们试图直接用数学来描述细胞,会是怎样的一番图景( What it might look like to directly write down math to describe cells )

“一次信仰式的飞跃”

“A Leap of Faith”

在 1980 年代的湾区长大,马克斯·科弗特(Markus Covert)记得当时弥漫着一种特殊的无政府状态与卓越精神的混合氛围( a special blend of anarchy and excellence all around him )那时没有太多规则,孩子们也不必像今天这样承受打造完美"课外活动履历"的巨大压力。但想要获得智力上的启发却很容易( intellectual stimulation was easy to find )。他常常在漫无目的游荡一天后,顺道拜访刚买了第一台 Macintosh 电脑的朋友家。硅谷那些昏昏欲睡的郊区,正逐渐演变成全球科技圣地( The sleepy suburbs of Silicon Valley were evolving into the tech mecca of the world )

大学期间,科弗特选择了化学工程专业——部分出于对科学的长期兴趣,部分则因为这个专业被认为是校园里最难攻克的。事实证明名不虚传:确实非常难。但回报却不尽如人意。为石化工厂建模实在算不上什么令人心潮澎湃的事业。

对化学工程感到失望的科弗特,开始搜寻当时为数不多的生物工程研究生项目。他最终进入了加州大学圣地亚哥分校(U.C. San Diego)——该校在1994年刚刚建立了整个加州大学系统中的第一个生物工程系。这被证明是个明智的选择。

当时,基因组学领域才刚刚兴起。而圣地亚哥正是这一领域的卓越中心之一(同时也保留着浓厚的无政府主义色彩)。克雷格·文特尔( Craig Venter )不久前创立了基因组研究所(The Institute for Genome Research),这家私人研究中心正在攻克一些看似疯狂的项目( a private research center that was tackling seemingly insane projects )

文特尔是一位极具前瞻性和竞争意识的科学家( 他后来因与公共人类基因组计划竞争而闻名 ),他聚集了一小群与他同样充满激情和野心的科学家( assembled a small group of scientists who matched his intensity and ambition )

在一系列具有里程碑意义的论文中,他们先后完成了一个自由生存生物的首个基因组图谱、世界上最小生物体( 生殖支原体 Mycoplasma genitalium )的基因组,以及一种著名肠道病原体的基因组。

Venter 站在首张细菌基因组图谱前。来源:《卫报》(The Guardian)

但这个愿景远不止于基因组测序。文特尔和他的团队推动了一项研究计划,目标是在计算机上模拟完整细胞,最终甚至要合成它们的基因组。测序、合成、模拟( Sequencing. Synthesis. Simulation )这些想法构成了一个统一的使命:以一种全新的方式来工程化地设计生命( These ideas hung together as part of a mission to engineer life in a way that was fundamentally new )

科弗特至今记得这项研究带给他的震撼。"对于我和其他90年代末的年轻生物学家来说,这群人就像齐柏林飞艇乐队:他们打破常规,拥有超凡魅力,演奏着我们从未听过的音乐(To me and other young biologists in the late 1990s, this gang was Led Zeppelin: iconoclastic, larger-than-life personalities playing music we had never heard before)。"

在生物学计算机建模先驱伯恩哈德·帕尔森( Bernhard Palsson )的指导下,科弗特找到了完美的学术归宿。他痴迷于生成可验证预测的美妙过程( the beauty of generating verifiable predictions )。在他的主要研究项目中,科弗特发表了一篇重要论文,将帕尔森的细胞代谢建模技术与基因调控表征方法相结合( Covert produced an important paper connecting Palsson’s techniques for modeling cellular metabolism with approaches for representing gene regulation )

在最初寻找教职的尝试并不顺利后,科弗特说服了现代生物学另一位巨擘戴维·巴尔的摩( David Baltimore )接收他做博士后。37 岁就因逆转录研究获得诺贝尔奖的巴尔的摩( 这项研究需要修正分子生物学的中心法则 ),先后参与创立怀特黑德研究所( Whitehead Institute ),担任洛克菲勒大学校长,最终执掌加州理工学院。

起初,巴尔的摩对科弗特受文特尔启发的"系统生物学"想法持怀疑态度( Venter-inspired “systems biology” ideas )科弗特记得自己追着在校园里试骑赛格威平衡车的巴尔的摩,极力游说人工智能模型驱动生物学研究的重要性(as he advocated for model-driven biological research )。最终巴尔的摩松口道:"我们实验室从没有过你这种背景的人——也许这就是足够的理由( We’ve never had somebody with your type of background in the lab before, so maybe that’s reason enough )。"

在加州理工,科弗特爱上了实验工作。他学会了如何将建模技术与追踪活细胞中单个转录因子的精密实验相结合( He learned how to combine his modeling techniques with meticulous experiments tracking individual transcription factors in actual cells )。更重要的是,他接触到了活细胞成像技术的早期原型( the early prototypes for live-cell imaging technology )。为了掌握这项技术,科弗特主动请缨通宵值守显微镜,用鸡蛋孵化器、纸板和胶带拼凑的临时装置,确保温度恒定在37度以维持细胞活性。

最终,科弗特获得机会回到湾区,在斯坦福建立了自己的实验室。他继续从事计算机建模和活细胞成像研究。但心底始终萦绕着一个更深层的问题:

如何才能模拟一个细胞( What would it take to simulate a cell )

1984 年,耶鲁的生物物理学家哈罗德·莫洛维茨( Harold Morowitz )曾在一篇名为《分子生物学的完整性》( The completeness of molecular biology )的文章中提出过一个攻克计划。

首先,测序最小生物体——支原体( sequence the smallest organism, a Mycosplasma bacterium )。科弗特在圣地亚哥的老邻居文特尔研究所已经完成了这一步。打钩。

接着,模拟基因组中约 600 个基因的行为。莫洛维茨论证道:"在600个步骤的量级,计算机模型是可行的,所有实验室能做的实验都能在计算机上完成。二者结果的匹配程度将验证分子生物学范式的完备性( At 600 steps, a computer model is feasible, and every experiment that can be carried out in the laboratory can also be carried out on the computer. The extent to which these match measures the completeness of the paradigm of molecular biology )。"

实践中,这一步远比预期困难。文特尔和克莱德·哈钦森的早期原型仅模拟了生殖支原体基因组中的127个基因,且结果与实验数据相去甚远( Venter and Clyde Hutchinson’s early prototypes represented only 127 genes in the M. genitalium genome and the simulation results barely resembled experiment )。分子生物学的范式,似乎还远未完备。

2008 年情人节,骑车回家的科弗特反复思考着这个问题。突然间,他多年学术训练中积累的零散想法开始互相嵌合,串联成线( Suddenly, discrete ideas collected throughout all of his training started clicking together )

在加州理工,他曾通过显微镜观察单个细胞( he had stared down the microscope at individual cells )全细胞模拟应该针对单个细胞而非细胞群体( A whole-cell simulation should aim to approximate one cell rather than a population of cells )。就像他论文工作所示,需要将不同细胞过程的数学表征整合到一个模型中( it would require integrating distinct mathematical representations for different cellular processes into one model )。回想起化学工程时期,他记起了由独立模块组成的化工模拟软件 HYSYS( a chemical process simulator composed of discrete modules )

他立即着手为单个生殖支原体细胞的每个生理过程绘制模块草图。工作像滚雪球般展开。科弗特招募了两位雄心勃勃( 或许该说是疯狂 )的研究生乔纳森·卡尔( Jonathan Karr )和贾约迪塔·桑维( Jayodita Sanghvi )加入这项新事业。

这绝非光鲜的工作。卡尔、桑维和科弗特花了两年时间跑遍多个研究图书馆,亲手扫描近千篇论文,搜寻任何关于生殖支原体的分子信息碎片( Karr, Sanghvi, and Covert spent two years visiting multiple research libraries to physically scan nearly a thousand research papers. They were looking for any crumb of molecular information about M. genitalium they could get their hands on。所有这些数据点,连同理论假设和其他物种的测量结果,都被存入 MySQL 数据库。

随着建模工作的扩展和细化,团队不断壮大。科弗特招募了各种背景的研究者。关键人物是贾里德·雅各布斯 ( Jared Jacobs )——科弗特的童年玩伴,后来成为谷歌的优秀软件工程师。在加入新公司前,雅各布斯特意请假数月来帮忙。

受其影响,团队采用了测试驱动开发,并开始向面向对象的程序设计模型过渡。每一个独立的细胞过程和分子都被建模为一个对象,以便应对问题的复杂性 ( With this influence, the team adopted test-driven development and moved towards an object-oriented programming model. Each discrete cellular process and molecule was represented as its own object to help grapple with the complexity of the problem )

另一个关键建模假设是:"尽管所有生物过程在活细胞中同时发生,但在不足一秒的时间内,它们的作用实际上是独立的 ( even though all these biological processes occur simultaneously in a living cell, their actions are effectively independent over periods of less than a second )。"这意味着 28 个模块可以在每秒间隔内独立运行,模块间需要传递的信息则在这些离散时间步之间交换 ( could be executed independently for each one second interval. Information that needed to flow between modules could be exchanged between these discrete time steps forward )

项目进行多年后,仍没有实证表明这个关键假设( 或模型中包含的其他许多假设 )能真正产生结果。正如科弗特回忆:"这完全是一次信仰的飞跃( it was a leap of faith )。"

这是一类“会让数学家发疯”的建模问题 ( the type of modeling problem that “would drive mathematicians insane,” )科弗特说, "它没有边界,但这就是工程师大显身手的地方。"

模型最初表现糟糕,模拟结果与现实几乎毫无对应。但经过一年多的调试、修补和优化,实验与数字结果开始收敛趋于一致。这堪称手工版的梯度下降( It was gradient descent by hand )

2012年,这项始于科弗特四年前灵光一现的成果最终发表在《细胞》期刊上,堪称非凡:每个注释基因都得到呈现,每个细胞过程都匹配了专属数学工具。

图1a 来自《全细胞计算模型:从基因型预测表型》

尽管远非完美,这个全细胞模型成功模拟了细胞生长和分裂过程,其代谢数据预测值与实验值保持在同一个数量级范围内,并与实验获得的基因表达数据呈现相关性。

这是项重大突破。模型的核心设计在于植入了"传感器"模块——它们能在模拟的每个步骤读取细胞状态( A central design element was the incorporation of “sensors” that read out cell state at each step of the simulation )。借助这套数字测量装置,研究团队用这个模型探索了广泛的生物学问题。

这才是真正的"模型驱动的生物学发现"( model-driven biological discovery )。正如霍洛维茨所设想的那样,每个预测与实验间的差异都是向分子生物学"完整"理解迈进的机会。

而差异确实不少。作者们坦率承认:"就像人类基因组序列的首次报告,这里的模型也只是'初稿',需要大量工作才能称得上完整。"

进一步发展的主要瓶颈在于,相比其他模式生物,生殖支原体( M. genitalium )缺乏实验可操作性。其小型基因组虽降低了首个全细胞模型的挑战规模,但微小细胞体积、抗生素耐药性及工具缺失使得某些预测无法在实验室验证。

十三年来,科弗特实验室和其他团队已转向大肠杆菌建模。虽然大肠杆菌是最简单的模式生物之一,其基因组( 4,641,652碱基对 )和基因数量( 超4,000个 )都比生殖支原体( 580,070碱基对 )大近一个数量级。2021 年的大肠杆菌全细胞模型已覆盖 43% 的基因( the E. coli whole-cell model represented 43% of these genes )

科弗特认为此后已取得重大进展。他相信我们正接近"图灵测试时刻"——届时没有大肠杆菌生物学家能可靠区分模拟输出与真实实验( He believes we are approaching a “Turing test moment” where no E. coli biologist could reliably detect the difference between the outputs of the simulation and a matched experiment )

对这个研究最透彻的微生物而言,模拟与现实可能很快将难以区分( For one of the most exhaustively studied microbes, simulation and reality may soon be indistinguishable )

延伸阅读:我们能够、必须,并且一定会模拟线虫的大脑。| Michael Skuhersky

但对于拥有数十亿 DNA 碱基对和数万基因的人类细胞,建立机制性全细胞模型的时间线则模糊得多( with billions of DNA base pairs and tens of thousands of genes, the timeline for mechanistic whole-cell models is much less certain )。甚至其可能性本身仍需要"信仰的飞跃"( It may still be a leap of faith that it’s even possible )

这也将我们带回到梯度下降的问题。如果说细胞的计算机模型恰恰就是那种最适合通过数据来学习,而不是靠人工定义和参数设定来构建的程序类型,那该怎么办?

苦涩的教训

The Bitter Lesson

硅谷早已不是 1980 年代的模样。虽然建筑景观令人沮丧地保持着原样,科技产业却已爆炸式发展。全球市值前十的企业中,如今有七家是科技公司。一种新的文化张力正在蔓延——无论是科技从业者还是他们的子女——科弗特记得自己成长时绝无这般氛围。或许卓越与反叛的比例已然改变,又或许只是人们的期望值被拔高了( A new cultural intensity exists—for technologists and for their kids—that Covert doesn’t remember being present growing up. Maybe the ratio of excellence and anarchy has shifted. Or maybe the expectations are heightened )

能力越大,责任越大( With great power comes great responsibility )

在 20 世纪,美国几位传奇慈善家——安德鲁·卡内基( Andrew Carnegie )、约翰·洛克菲勒( John D. Rockefeller )和亨利·福特( Henry Ford )——为公共事业项目投入了前所未有的巨额资金。全新的大学、研究机构、图书馆和医院被陆续建立起来。历史学家 Olivier Zunz 写道:“这些慈善项目,在慷慨与狂妄的尺度上,前所未有( The philanthropic projects were acts of generosity and hubris on a scale never before entertained )。”

对于正在摸索如何行使新权力的科技新贵们( the new Tech Elite )来说,这些都是难以企及的标杆。与前辈们相似,硅谷慈善家们最初关注的焦点也是科学研究( scientific research )。历史不会重演,但总会押着相似的韵脚。

典型代表就是陈·扎克伯格倡议( Chan Zuckerburg Initiative,CZI )。2015年,马克·扎克伯格和普莉希拉·陈宣布将通过 CZI 捐赠 99% 的脸书( 现Meta )股份。

CZI 的第一个重大项目是斥资 30 亿美元建立生物枢纽( Biohub ),旨在为湾区三大生物医学研究机构——加州大学旧金山分校、伯克利和斯坦福——提供新资源和联结纽带( provide new resources and connective tissue )

该生物中心的创始使命是"在本世纪末前治愈、预防和控制所有疾病"( cure, prevent, and manage all diseases by the end of this century ),这一宣言立即引发两极分化。祖兹的评论简直像是为这个项目量身定制。

最初,包括 CZI 第一任科学负责人 Steve Quake 在内的科学家们都嘲笑这个想法。Quake 开玩笑说:“我自己都说不出口……我不知道你们为什么要雇我,因为我根本说不出这个使命。”

但渐渐地,这个想法感染了他和其他科学家。考虑到目前大多数科研都要依赖官僚主义日益严重、风险偏好日益保守的 NIH,一个新型研究机构无疑是好事( a new institution was a good thing )。而且,更长的资金支持周期意味着科学家可以更大胆地下注。如果把这种项目堆叠在一起连续推进一整个世纪,谁知道我们会达到什么高度( a longer time horizon for funding meant that scientists could take bolder bets. Stacking these types of projects together over a century, who knows what could happen )

具体而言,CZI 以十年为规划周期,是 NIH 平均资助周期的三倍多(the CZI aims to think on ten year time horizons—over three times longer than the average NIH grant)。但十年为思考周期还不足以完全摒弃可交付成果和明确里程碑作为指标( But a decade isn’t long enough to completely omit deliverables and clear milestones )

据奎克透露,CZI"未来十年的北极星是破解细胞的奥秘"( North Star for the next decade is understanding the mysteries of the cell )

这一决策有双重考量( The rationale was twofold )

首先,Quake 和 CZI 的其他成员目睹了 Karpathy 精炼总结的“梯度下降”的推进之势。AI 正在发生。他们认为蛋白质是这些技术在生物学领域的第一个重大应用,但绝不会是最后一个。

其次,AI 模型需要海量数据。AlphaFold 和后续蛋白质模型之所以可能,完全得益于研究人员数十年来积累的晶体结构数据库。在细胞数据方面,CZI 已重金投入单细胞基因组学测量图谱的建设( the CZI had been investing heavily in the development of enormous atlases of single-cell genomics measurements )

czbiohub.org/tools/?datasets-platforms

或许这些庞大的单细胞数据集能推动 AI 预测细胞行为的性能发生阶跃式提升( Maybe these massive single-cell datasets could fuel a step change in the performance of AI models for predicting cell behavior )

延伸阅读:生命模型 | Asimov Press 独家

2024年3月,由西奥法尼斯·卡拉莱佐斯领导的CZI人工智能团队开始行动。首要任务是在旧金山生物中心举办研讨会,更详细地勾勒这一构想。他们召集了顶尖 AI 研究人员和单细胞生物学家,共同探讨可能的前景。

2024 年 3 月“ AI 在单细胞生物学中的应用”研讨会的与会者合影,摄于CZI。

最终,研讨会上的讨论帮助统一了各个实验室正在酝酿的想法。经过数月的提炼,这些思想凝结成一篇发表在《细胞》杂志上的前瞻性论文:《如何用人工智能构建虚拟细胞:优先事项与机遇》( How to build the virtual cell with artificial intelligence: Priorities and opportunities )

在文章的引言中,作者们回顾了以往关于细胞模拟的努力。Covert 于 2012 年对 M. genitalium 的“开创性建模工作”( “pioneering work” modeling M. genitalium )被列为一个重要的里程碑。但同时,但文章同时列举了自下而上机械论方法面临的障碍( But the roadblocks for bottoms-up mechanistic approaches are enumerated )

细胞是由一组极其复杂、种类多样的过程构成的( Cells are composed of a diverse set of exquisitely complex processes )。每一个过程都横跨从原子尺度到整个身体组织系统的多个层级。而更为棘手的是,细胞行为往往是非线性的,这意味着信号传导中哪怕是细微的变化,也可能引发下游剧烈的系统反应( cellular behavior is often nonlinear, meaning subtle differences in signaling can drive massive changes downstream )

我们真能指望建立哺乳动物细胞完整的自下而上数学模型吗( Can we ever hope to produce a complete bottoms-up mathematical description of mammalian cells )?何时才能实现?

于是,作者们提出了新思路:"科学与技术领域正在发生的两场革命——人工智能与组学技术——现在使我们能够直接从数据中学习构建细胞模型( Two exciting revolutions in science and technology—in AI and in omics—now enable the construction of cell models learned directly from data )。"

如果他们是对的,那这也并非首次出现这样的模式。在几乎所有拥有足够数据的计算建模领域,通过学习获得的模型都已经超越了人工构建的机制模型( In practically every domain of computer modeling with sufficient data, learned models have outperformed more detailed mechanistic models )。这正是加拿大 AI 研究者 Rich Sutton 所称的“苦涩的教训”( The Bitter Lesson )。

在一篇 2019 年发表、如今已在 AI 社群中广为流传的博客文章中,Sutton 写道:

"70 年 AI 研究给予的最大启示是:利用算力的通用方法终将展现最大效力,且优势悬殊( The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin )。根本原因在于摩尔定律,或者说算力成本持续指数级下降的广义规律。多数 AI 研究都假设智能体可用算力恒定( 这种情况下人类知识成为提升性能的少数途径之一 ),但稍长于典型研究周期的时间跨度里,大量新增的计算资源总会变得可用研究者为寻求短期突破而试图注入领域人类专家的知识,但长期来看唯有算力利用才是关键( Seeking an improvement that makes a difference in the shorter term, researchers seek to leverage their human knowledge of the domain, but the only thing that matters in the long run is the leveraging of computation )。二者本不必对立,现实中却往往如此。投入一方就意味着牺牲另一方。人类知识驱动往往使方法复杂化,反而不利于发挥通用算力方法的优势( And the human-knowledge approach tends to complicate methods in ways that make them less suited to taking advantage of general methods leveraging computation )。"

以自然语言处理为例。数十年基于语言学和语义学的精细建模成果,最终被 Transformer 架构全面超越。Transformer 作为通用方法,能够随数据与算力扩展而学习丰富的语言表征。

延伸阅读:“自然语言处理”先驱如何成就了对冲基金文艺复兴:Peter Brown 与 Robert Mercer 的珍贵访谈

互联网级别的数据与计算能力赢了( Internet-scale data and compute won )

CZI 论文的核心论点是:我们应在细胞生物学领域验证相同路径( we should test the same recipe for cell biology )但这一次,我们不是依赖互联网数据,而是构建在“组学数据”的基础上。而且,测序技术的改进速度——甚至已经超过了摩尔定律:

自从人类基因组计划( Human Genome Project )以来,DNA 测序技术取得了指数级的进步,我们如今已经能够以前所未有的规模,绘制出单细胞测量图谱。与其依赖人类知识辛苦构建数学模型,不如反过来设想一个问题:如果我们直接从这些数据中学习细胞动态,会怎么样( Rather than painstakingly developing mathematical models based on human knowledge, what if we attempted to learn cellular dynamics directly from this data )

在所提出的“AI虚拟细胞”( AI Virtual Cell,简称 AIVC )方案中,我们应当聚焦于运用通用的学习方法,去捕捉每一种主要细胞构成要素( 如 DNA、RNA 和蛋白质 )的通用表征( Universal Representations,简称 URs )。

图 2a 和图 2b,摘自《如何用人工智能构建虚拟细胞:优先事项与机遇》一文。

不妨将这个构想视为一组嵌套的生物机器学习( BioML )模型套娃:一个模型负责 DNA,一个模型负责 RNA,一个模型负责蛋白质;还有一个模型将这些信息整合起来,形成细胞行为的快照,结合显微镜影像、蛋白质组学或 RNA 测序等多种数据类型。最终,再将这些模型连接成图谱,来展现多细胞之间的相互作用( And a model to integrate this information into a snapshot of cellular behavior alongside data types like microscopy, proteomics, or RNA sequencing. And ultimately, connecting these models together in graphs to represent multi-cellular interactions )

由此产生的主要研究问题是( The major research questions become )

我们需要什么类型的数据( What types of data do we need )

针对每种数据类型,什么样的模型才是合适的( What are the right models for each data type )

《如何用人工智能构建虚拟细胞:优先事项与机遇》中提出的多种建模技术。

这项策略中或许最反直觉的部分,是成功的样子会是什么样子( Probably the most counterintuitive part of this strategy is what success would look like )。想象一下,如果这一切真的奏效了。我们学到了一个能够准确重现细胞行为的通用模型( We learn a general model that can accurately recapitulate cellular behavior )

我们将拥有一个细胞生物学的模型,但我们却无法理解它( We would have a model of cell biology—we just wouldn’t understand it )

为解决这个问题,作者们提出开发一套计算实验工具:

首先需要操控器( manipulators )。这类工具能学习某种干预手段(如化学或基因操作)的表征,并将其应用于通用表征(UR)。操控器会将一个 UR 转换为另一个,代表细胞状态的改变( a change in cell state )

但我们也需要能产生人类可理解输出的工具( tools that produce human interpretable outputs )而不仅仅是难以理解的细胞状态向量表征( not just unintelligible vector representations of cell state )这正是“解码器”发挥作用的地方( This is where decoders come in )。解码器能够学习将 UR 映射到合成的实验测量结果,比如生成的显微镜图像或测序数据( These tools would learn to map between URs and synthetic experimental measurements, such as generated microscope images or sequencing data )

操控器与解码器:来源于《如何用人工智能构建虚拟细胞:优先事项与机遇》。

本质上,我们是在用虚拟细胞的模拟体替代实体细胞( we’d be swapping out physical cells for their virtual simulacra )。最大的好处是,虚拟实验的规模远远超过物理实验的限制( The major benefit would be that virtual experiments scale in a way that physical experiments don’t )理论上,我们可以利用这些模型测试数十亿乃至数万亿个假设。只要某个结果看起来有希望,就能在现实中进行验证。( In theory, we could test billions or trillions of hypotheses using these models. If a result looks promising, it could be validated in physical reality )

延伸阅读:全假设研究( All-hypothesis research )

与大多数前瞻性论文一样,这篇关于AI虚拟细胞(AIVC)的文章试图整合众多已有雏形的想法( Like most perspectives, the AIVC paper attempts to unite many ideas that had already been swirling around )。许多作者花了多年时间测试相关方法。比如,2023 年发表的“通用细胞嵌入”( Universal Cell Embeddings )模型展示了如何将蛋白质模型与 RNA 数据整合,创建细胞表征。其他架构,如 GEARS 和 scGPT,已经被开发用来模拟细胞扰动( Other architectures like GEARS and scGPT were already developed to simulate cellular perturbations )

核心观点很明确:在细胞生物学领域验证"苦涩的教训"的研究方向( testing the Bitter Lesson for cell biology )是最有前景的前进道路。文章结尾强调:"我们相信,我们正迈入科学探索与理解的新纪元( We believe that we are stepping into a new era of scientific exploration and understanding )。AI 与生物学的融合,正如 AIVC 所体现的那样,标志着生物学的范式转变,并为解开细胞的诸多奥秘点亮了希望的灯塔。"

天敌

Natural Predators

伟大的主张需要伟大的证据Extraordinary claims require extraordinary evidence )每当出现新的建模范式时,其他科学家会立刻尝试挑出其中的漏洞( Whenever a new modeling paradigm emerges, other scientists immediately attempt to poke holes in it )这就像一种免疫反应。而且通常,主张越宏大,反应越迅速、越猛烈。

AI 细胞模型一出现,第三方的基准测试和评估就陆续展开。一些结果令人颇感意外。2024 年 9 月,一组来自德国的资深生物统计学家发布了一篇预印本,比较了许多最早期用于扰动预测的 AI 模型和“刻意简化”的线性模型( comparing many of the first AI models for perturbation prediction against “deliberately simplistic” linear models )

预测细胞对扰动的响应,已成为 AIVC 研究者的重点方向。利用 CRISPR 等实验工具,可以上调或下调特定基因,类似于旋转细胞大控制面板上的旋钮( With experimental tools like CRISPR, specific genes can be up- or down-regulated, like turning a nob on a big cellular control panel )。通过 RNA 测序,可以观察基因表达的变化。像 Perturb-seq 这样的方法被发明出来,能够在大规模上实现这一点。

基本问题是:当细胞被“戳”了以后,它如何切换其基因表达程序( how does a cell switch up its gene expression programs when it is poked )

德国实验室就评估了模型对双基因同时上调扰动响应的预测准确度。

他们用到的两个基线模型是:

无变化模型(No change):对于双重扰动,预测基因表达不会发生变化。

加性模型( Additive model ):简单地将单个扰动导致的表达变化相加,作为双重扰动的预测结果。

出乎意料的是,简单的加性模型的误差率比复杂的 AI 模型还要低( Counterintuitively, the simple additive model had lower error rates than the complex AI models )

图 1a,摘自《基于深度学习的基因扰动效应预测尚未优于简单线性基线》一文。

另一方面,Eric Kernfeld 在约翰斯·霍普金斯大学完成博士论文期间,在更广泛的数据集上得出了类似的结果。在他配套发布的博客文章中写道:“方法开发者的天敌是基准测试开发者,而当方法呈现种群爆发时,基准测试自然也会爆发( The natural predator of the methods developer is the benchmark developer, and a population boom of methods is naturally followed by a boom of benchmarks )。”

范阳注:Expression forecasting benchmarks

https://ekernf01.github.io/perturbation-benchmarks

这些"天敌"确实找到了漏洞( The natural predators had found vulnerabilities )

这些 AI 模型在这类预测任务中无疑具有前景。即便是线性基线模型的开发者也指出:“我们并不认为我们对基础模型预测任务表现的负面结果,是对该研究方向本身的反对……变换器架构( Transformer )和迁移学习范式在众多机器学习任务中的进展是真实而深远的。”

但正如基准测试开发者所言,现有模型的初级版本仍远未达到能产生"非平凡洞见"的水平( But the first implementations still felt far from producing “non-trivial insights” )

我向 AIVC 观点论文的两位主要作者 Yanay Rosen 和 Yusuf Roohani 询问了他们如何看待这些结果。两位研究者都完全认可这些早期原型模型的局限性。

不过,Rosen 也特别指出,在构建通用细胞嵌入( universal cell embeddings )这一任务上,AI 模型已经产出了无法被简单方法捕捉的成果。这些方法使得研究者能够在不同数据集、不同组织类型,乃至不同物种之间,用一个统一的坐标空间来表示细胞。生物学家正利用这些表征发现新细胞类型,并解答进化生物学的根本问题( Biologists are already using these representations to discover new cell types and answer fundamental questions in evolutionary biology )

通用细胞嵌入(UCE)所创建的通用嵌入示例。

来源:《Universal Cell Embeddings: A Foundation Model for Cell Biology》

最近,陈·扎克伯格倡议(CZI)的人工智能团队通过发布 Transcriptformer 模型拓展了这一研究方向。该模型基于来自 12 个物种( 代表 15 亿年进化距离 )的 1.12 亿个细胞训练而成,专为广泛预测任务设计。CZI团队在发布声明中写道:"研究人员可用 Transcriptformer 预测细胞类型、判断细胞病变状态以及解析基因互作关系( Researchers can use TranscriptFormer to predict what different types of cells are, whether a cell is diseased, and how genes interact )。"

在细胞相对定位任务上( For the task of positioning a cell in relation to all other cells ),现有数据量似乎已足够让 AI 模型大放异彩。但要预测细胞受扰动后的动态变化,现有数据和模型仍显不足( But for predicting the dynamics of how a cell changes when perturbed, existing data and models appeared to be insufficient )

这一现状正在改变。

现任职于 Arc 研究所机器学习研究组的鲁哈尼( Roohani ),对加强与实验科学家的协作充满期待。作为科技慈善支持科研的又一产物 ( large-scale tech philanthropy for science )Arc 研究所已启动自己的"虚拟细胞图谱"( Virtual Cell Atlas )项目,重点之一正是大规模数据生成 ( large-scale data generation )

arcinstitute.org/tools/virtualcellatlas

arcinstitute.org/news/arc-10x-ultima

本周,Arc 团队发布了这一研究计划中的最新成果。他们的新模型名为 State,在扰动预测任务上似乎实现了重要突破。你可以清晰看到基准测试开发者与方法开发者之间的相互博弈:线性基线模型被明确地置于对照核心 ( You can see the interplay between benchmark developers and methods developer in action: linear baselines are now front and center )。而这一次,这些模型似乎更有效地捕捉到了“非平凡的洞见 ( non-trivial insights )”。

来源:《Predicting cellular responses to perturbation across diverse contexts with State》

性能提升的关键在于更精细地处理数据中的生物噪声 ( A key driver of the jump in performance comes from a more careful representation of the biological noise that is present in the data )细胞本质上是充满噪声的异质性系统——而相关实验方法本身也存在局限 ( Cells are fundamentally noisy, heterogenous systems—and the experiments interfacing with them bring their own limitations )State 模型通过数学方法区分生物噪声与实验噪声,避免真实信号被淹没 ( The State model uses mathematical bookkeeping to account for the biological and experimental noise that can drown out true signal )

当实现这一点时,重要变化出现了:模型性能开始随数据量增加显著提升。( When they do that, something very important happens: the model’s performance appears to meaningfully increase with more data )。换句话说,Sutton 所说的 “苦涩的教训” 开始生效了( Sutton’s Bitter Lesson starts to kick in )

最近,Tahoe 开源了一个庞大的数据集,其中测量了 6 万种药物扰动作用在 1 亿个不同细胞上的表现——远超所有其他公开的单细胞数据集。在如此规模和多样性的数据上训练后,State模型展现出更广泛的扰动预测泛化能力。

tahoebio.ai

研究者写道:"总体而言,State 模型的性能和灵活性为虚拟细胞模型的规模化发展奠定了基础。"这预示了未来可能的发展轨迹( Overall, the performance and flexibility of State sets the stage for scaling the development of virtual cell models )

那么,虚拟细胞究竟是什么( So, what are virtual cells )

首先需要明确它不是什么( Let’s start with what they are not )

听到这个术语时,人们难免想象细胞三维动态的华丽渲染画面。放大可见核糖体仔细检查RNA分子,氨基酸链向外延展,驱动蛋白沿微管轨道行进——每个分子机器都像真实细胞中那样运作。这简直是成年细胞生物学家的"神奇校车"体验( It would be the Magic School Bus for grown-up cell biologists )

但这不是科学家们现在正在构建的东西——至少现在还不是。

对 Covert 来说,一个更合适的类比是气象模拟( a meteorological simulation )正如他和团队在近期论文中所写:"数值天气预报是一项综合性工程,它整合全球及太空的多时间尺度观测数据,构建既能反映全球系统初始状态,又能预测数日后大气变化的数学模型( numerical weather prediction is a comprehensive endeavor to integrate observations from around the world and in space, over multiple timescales, into a mathematical model which both holds an initial state of the global system and can produce forecasts of changes in the atmosphere several days in advance )。"

范阳注:A forecast for large-scale, predictive biology: Lessons from meteorology

https://www.cell.com/cell-systems/fulltext/S2405-4712(21)00200-3

他希望建立能模拟微生物系统的等效数学模型( an equivalent mathematical model capable of simulating microbial systems )正如莫洛维茨 1980 年代的设想,这些模型的每个故障都可视为分子生物学版图中的待探索空白( Morowitz envisioned in the 1980s, every glitch in these models can be treated as negative space in our broader map of molecular biology )

范阳注:上面的“建立能模拟微生物系统的等效数学模型”的背景信息:

darpa.mil/news/2024/computational-model-bacteria

“DARPA "微生物系统模拟"( Simulating Microbial Systems,SMS )计划致力于创建能预测细菌行为的全面通用计算模型

现有生物模拟技术面临"鱼与熊掌不可兼得"的困境:要么物理精确但难以扩展,要么可扩展却牺牲精度。目前即便是单一完整细胞模型也尚不完善,对简单模式生物(如支原体)的模拟仍存在知识缺口,而对大肠杆菌等更复杂生物的模拟更是遥不可及。尽管构建大肠杆菌行为的全面计算模型复杂度极高,但其优势显著:既能整合细胞功能多维度参数,又能为相关应用场景提供比简化模型( 如最小细胞 )更具实用价值的解决方案。

"微生物系统模拟"(SMS)计划旨在开发能精准预测多场景下细菌行为的计算模型。具体而言,该计划将通过融合两大领域的最新突破——(1)高通量自动化实验平台;(2)先进计算技术——构建具有全面性、通用性和可解释性的大肠杆菌模拟系统。”

"该计划旨在极大加速构建大肠杆菌完整计算模型的进程——这是生物学界研究最深入的生物之一,"SMS计划经理克里斯托弗·贝廷格博士表示,"我们将运用基于物理原理的计算方法突破,这些方法通过高通量实验获得的新数据进行参数化。最终形成的综合性软件套件,将帮助国防部相关方未来在计算机而非实验室中设计与实施微生物实验。"

贝廷格补充道:"神经网络等技术在模拟流体力学、材料行为和燃烧化学等复杂不确定系统动态方面已取得重大进展。SMS 计划将基于这些创新,预测大肠杆菌这一复杂生物系统的动态行为。"

SMS计划寻求建立跨学科、全方位的工作流程:通过新数据生成未知参数,为预测大肠杆菌行为的计算模型提供依据。该计划最终构想是建立实验与计算的统一工作流,协同推进模拟开发与数据获取/管理——微生物湿实验需兼顾软件架构、物理建模和分析技术;而模拟开发既要利用现有数据,也要指导未来实验。计划成果将是能跨尺度模拟大肠杆菌行为的软件套件。”

延伸阅读:DARPA 模式是如何点燃科技突破的。

我们能够、必须,并且一定会模拟线虫的大脑。| Michael Skuhersky

Covert 跟我说,他“想找到海王星”( he “wants to find Neptune” ),指的是 19 世纪天文学家乌尔班·勒维耶通过“手中的笔尖”就预测出一颗全新行星的能力。

AI 研究者则有不同思路。遵循"苦涩的教训",他们尽可能减少先验设定,让数据自己说话。首要目标是预测,而非理解( Guided by the Bitter Lesson, the goal is to specify as few priors as possible, letting the data speak. The first goal is prediction, not understanding )

延伸阅读:全假设研究( All-hypothesis research )

预测生物学(Predictive Biology):AI 驱动生物学从“还原论”到“涌现性”的新范式。

预测市场到信息金融:“小额押注”娱乐 vs “众筹蒸馏”真相?

AIVC 模型正在学习"生命的统计形态"( The AIVC models are learning “the statistical shape of life ),正如 Karaletsos 所说。但这种"形态"烙印在网络中的高维向量里,对人类而言如同天书( this “shape” is imprinted in massive numerical vectors within these networks that are illegible to humans )。Geoff Hinton 在他早期的深度学习课程中常对学生说:“要处理 14 维空间中的超平面,就在脑海中想象一个 3D 空间,然后对自己大声说一遍‘十四维’。大家都是这么干的( To deal with hyper-planes in a 14-dimensional space, visualize a 3-D space and say ‘fourteen’ to yourself very loudly. Everyone does it )。”

如果这些模型真的达到了令人惊叹的预测能力呢( What if these models achieve incredible predictive power )真正的工作才刚刚开始。拥有了虚拟仪器,生物学家将能够以实验室中根本无法想象的规模上操控细胞( The real work would begin. Armed with virtual instruments, biologists would be able to manipulate cells at a scale that would be unimaginable in the lab )

如果文特尔团队( the Venter gang ) 像是齐柏林飞艇乐队( Zeppelin ),那这些新研究团体更像是泰勒·斯威夫特( Taylor Swift )。大型科研项目接连产出,配合精心策划的新闻稿和社交媒体宣传,这对现代科学的模因传播至关重要( Massive projects are produced back-to-back, accompanied by carefully coordinated press releases and social media announcements—which are essential for mimetic distribution in modern science )

范阳注:上图 Zeppelin 乐队。下图泰勒·斯威夫特,我喜欢这个比喻和类比,泰勒·斯威夫特是最快拥抱和适应这个时代的音乐制作范式和分发方式的音乐人,并且取得了巨大的成功。现代科学的传播和科研方式也应该多向“流行文化”学习,在注意力经济时代(无论你喜欢与否),顶尖科学成果的竞争已从纯技术维度扩展到叙事(易于理解与参与)与传播维度( 得到喜欢和支持 ),降低公众理解门槛和更多专业人士和爱好者参与的门槛是未来正确的方向,这样才能加速技术迭代与大规模采用。并且降低科学高高在上的“无聊感”。

随着时间推移,这些截然不同的声音有可能会逐渐融合( Over time, it’s possible that these distinct sounds converge )自下而上的机械建模可能开始整合 AI 方法( The bottoms-up mechanistic modeling efforts may start to integrate AI methods into their systems )( 科弗特实验室就是最早开发显微镜深度学习方法的研究组之一 )( Covert’s lab was one of the first groups to develop deep learning methods for microscopy )。同样,随着 AIVC 研究超越 RNA 范畴,模型架构将日益复杂,各生物过程的独立模块会逐渐趋近全细胞模拟的思路( as AIVC research efforts expand beyond RNA, model architectures will become increasingly complex. Hierarchical systems with distinct modules for each biological process will start to resemble approaches from the world of whole-cell simulation )

https://doi.org/10.1371/journal.pcbi.1005177

目前,鲁哈尼( Roohani )的目标更务实:让现有模型足够好用,能被实验科学家采纳。就像"GPT时刻"那样,这未必需要完美无缺。

这可能会形成一个积累式进展的反馈回路循环:预测在全球各地的实验室中被测试,从而产生更多数据来进一步优化模型( This could create a feedback loop of compounding progress as predictions are tested in labs around the world, creating more data to further refine the models )

奎克( Quake )设想未来"细胞生物学将从90%实验+10%计算,逆转为10%实验+90%计算"( cell biology goes from being 90% experimental and 10% computational to the other way around )

nature.com/articles/d41586-025-02011-0

朝着这个方向迈出的第一步,就是让研究人员相信——在拿起移液枪之前,至少要先跑几个查询( The first step in that direction will be convincing researchers that they should at least run a query or two before picking up a pipette )

延伸阅读与参考文献说明

Notes and Further Reading

本文主要聚焦科弗特实验室的全细胞建模研究及《细胞》论文作者的早期 AIVC 工作,但这一活跃领域的研究远不止于此,甚至在写作期间就有新成果涌现:

核心文献

全细胞建模(Whole-cell modeling)

A Whole-Cell Computational Model Predicts Phenotype from Genotype

A forecast for large-scale, predictive biology: Lessons from meteorology

AI 虚拟细胞(AIVC):

How to build the virtual cell with artificial intelligence: Priorities and opportunities

Predicting transcriptional outcomes of novel multigene perturbations with GEARS

scGPT: toward building a foundation model for single-cell multi-omics using generative AI

Universal Cell Embeddings: A Foundation Model for Cell Biology

TranscriptFormer: A Generative Cross-Species Cell Atlas Across 1.5 Billion Years of Evolution

Predicting cellular responses to perturbation across diverse contexts with State

Tahoe-100M: A Giga-Scale Single-Cell Perturbation Atlas for Context-Dependent Gene Function and Cellular Modeling

在一个如此活跃的研究领域中写作,最难的事之一就是克制住“面面俱到”的冲动。还有大量研究正在进行——甚至有些是在我写这篇文章的过程中刚刚发表的:

Genentech 在 Aviv Regev 的带领下,已经多年推进这一方向的研究,她是 AIVC 观点论文的作者之一:

Toward a foundation model of causal cell and tissue biology with a Perturbation Cell and Tissue Atlas

Gene-embedding-based prediction and functional evaluation of perturbation expression responses with PRESAGE

PerTurboAgent: A Self-Planning Agent for Boosting Sequential Perturb-seq Experiments

Altos Labs 一直在开展扰动预测研究,并开发相关基准数据。

Recursion 长期以来将虚拟细胞研究作为核心重点。

就在上周,Xaira Therapeutics 发布了一份庞大的 Perturb-seq 数据集,并宣布正在构建自己的虚拟细胞模型。

Noetik 正在构建用于空间生物学的虚拟细胞模型。

noetik.ai/octo-vc

Theofanis Karaletsos 此前在 Insitro 期间也带领了多个扰动预测研究项目。

虽然 NewLimit 并不热衷于使用“虚拟细胞”这个术语,但他们正在开发 AI 模型,预测转录因子组合的作用效果。目标是找到能安全诱导细胞回春的转录因子“鸡尾酒”。

本周,Arc Institute 宣布启动一项 Virtual Cell Challenge。

Demis Hassabis 也将虚拟细胞研究视为分子机器学习的逻辑下一步( Demis Hassabis has also prioritized virtual cell research as the logical next step for molecular machine learning )在最近一次访谈中,他提出了一项逐步推进的研究计划:从蛋白质出发,持续向上扩展至蛋白复合物、分子通路,最终直达整个细胞( In a recent interview, he outlined a research plan focused on continually moving upwards from proteins to protein complexes, molecular pathways, and ultimately, cells )从某种意义上说,这正是本文中所述多个思路的混合体。

当然,这份名单依然远远称不上完整。

感谢你读完这篇关于虚拟细胞快速演进世界的文章( Thanks for reading this essay on the rapidly evolving world of virtual cells )

感谢 Markus Covert、Yanay Rosen、Yusuf Roohani 和 Theofanis Karaletsos 在我调研过程中提供的诸多交流和帮助。

全假设研究( All-hypothesis research )

生命模型 | Asimov Press 独家

预测生物学(Predictive Biology):AI 驱动生物学从“还原论”到“涌现性”的新范式。

预测市场到信息金融:“小额押注”娱乐 vs “众筹蒸馏”真相?

“自动化科学” (Autonomous Science)的蓝图:AGI 遇见“实验室革命”

自动化科研、去中心化地理位置部署的生命科学公司

当AI用蛋白质创造 “未来的计算机” — OpenAI 研究员 Richard Ngo 的虚构写作 | Asimov Press

人工智能的下一个前沿是生命科学:从蛋白质魔法师说起。

蛋白质是一门奇怪外语,Alphafold 蛋白质 AI 是改变科研的导火线。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

虚拟细胞 AI 生物学 深度学习 神经网络
相关文章