SpatialAgent：新一代空间生物学智能体，比肩人类科学家

集智俱乐部前天 23:55

人工智能正深刻改变科学发现模式，空间生物学领域也迎来了重大突破。本文介绍了SpatialAgent，一款专为空间生物学设计的全自主AI智能体。它结合了大语言模型、动态工具执行和自适应推理，能够独立完成从实验设计、多模态数据分析到假设生成的全流程研究。在人类大脑、心脏及小鼠模型等多个数据集的测试中，SpatialAgent在多项关键任务上表现优于现有计算方法，甚至能与人类科学家媲美，并展现出跨组织和物种的扩展能力。SpatialAgent的出现，标志着空间生物学进入“自动化2.0”时代，开启了AI驱动的全新研究范式，为科学家们从繁琐劳动中解放提供了可能。

🌟 **SpatialAgent：空间生物学研究的自主AI智能体** SpatialAgent是一款革命性的AI工具，专为解决空间生物学研究中劳动密集型的工作流程而设计。它巧妙地融合了大语言模型（LLM）、动态工具执行和自适应推理能力，能够自主处理从实验设计（如基因面板设计）、多模态数据分析（如细胞类型注释、细胞间相互作用分析）到科学假设生成的整个研究生命周期。其核心架构包含记忆、规划和行动三大模块，能够高效、智能地完成复杂任务，为生物医学研究开辟了人机协作的新模式。

🚀 **超越传统方法，实现高精度与高效率** 在基因面板设计方面，SpatialAgent通过整合多源数据和空间信息，其设计的基因面板在细胞类型预测准确率上比现有最佳算法（Spapros）高出6-19%，在空间坐标预测上提升达47%。更令人瞩目的是，其效率远超人工，耗时仅30分钟，而人类专家平均需要8小时。在细胞注释任务中，SpatialAgent的注释与金标准一致性高达82.3%，显著优于其他AI工具和传统方法，且成本仅为人工的1/20，极大地提高了研究效率和准确性。

💡 **驱动科学发现，生成可验证的假设** SpatialAgent不仅限于数据分析，还能进一步驱动科学发现。在小鼠结肠炎模型的研究中，它不仅复现了已知发现，还揭示了TGF-β信号和IL-11介导的基质重塑这一关键机制，并生成了包含可验证分子靶点和治疗建议的详细分析报告。这种从数据到发现的能力，展示了AI智能体在加速新知识生成方面的巨大潜力，预示着未来生物医学研究模式的深刻变革。

🤝 **人机协同，优化实验设计与研究闭环** SpatialAgent支持全自动模式和协作模式，允许科学家在必要时介入调整，实现高效的人机协同。在实际湿实验的验证中，SpatialAgent优化了前列腺癌小鼠模型Xenium 5K基因面板，新增的基因显著提升了基质-免疫互作信号的解析能力，揭示了新的细胞交互模式，并提高了聚类指标和关键通路富集度。这证明了AI智能体不仅能加速分析，还能优化实验设计，缩短“数据-洞见-验证”的闭环周期，是科学家们的得力助手。

原创彭晨 2025-07-28 19:02 上海

空间生物学进入“自动化2.0”时代

摘要

人工智能的进步正在改变科学发现的方式，然而空间生物学这一解析组织内分子结构的领域仍受制于劳动密集型的工作流程。在此，我们推出了 SpatialAgent，这是一款专为空间生物学研究打造的完全自主的人工智能智能体。SpatialAgent 将大语言模型与动态工具执行和自适应推理相结合。SpatialAgent 涵盖了整个研究流程，从实验设计到多模态数据分析以及假设生成。在包含来自人类大脑、心脏以及小鼠结肠炎模型的两百万个细胞的多个数据集上进行测试，SpatialAgent 的表现超越了最佳的计算方法，在关键任务上与人类科学家的表现相当甚至更优，并且能够跨组织和物种进行扩展。通过将自主性与人类协作相结合，SpatialAgent 为空间生物学中的人工智能驱动发现开创了新的范式。

关键词：空间生物学（spatial biology）、自主AI智能体（autonomous AI agent）、大语言模型（LLM）、基因面板设计（gene panel design）、细胞类型注释（cell type annotation）、细胞间相互作用（cell-cell interaction）、多模态数据分析（multimodal data analysis）

彭晨丨作者

论文题目：SpatialAgent: An autonomous AI agent for spatial biology
发表时间：2025年4月6日
论文地址：https://www.biorxiv.org/content/10.1101/2025.04.03.646459v1

空间生物学（spatial biology）是近年快速发展的领域，旨在解析生物分子和细胞在组织内的三维空间分布及其功能关联，是帮助我们理解癌症、开发新型治疗方法的关键技术。然而，传统研究依赖人工操作和碎片化计算工具，效率低且难以标准化。近日，大模型与生物医学社区成员王瀚宸团队发表预印本文章，提出首个专为空间生物学设计的自主AI智能体SpatialAgent。该系统整合大语言模型（LLM）、动态工具调用和自适应推理能力，在基因面板设计、细胞注释等任务中超越现有算法和人类专家，甚至能生成科学假设，为生物医学研究开辟了人机协作的新模式。

集智俱乐部「AI+Science第二季」读书会中，黄柯鑫和王瀚宸带来了机器学习如何革新生物医学的讨论，尤其关注基因和扰动实验与转录组学。感兴趣的朋友可以扫码查看视频👇

空间生物学的瓶颈与AI智能体的机遇

空间生物学依赖高复杂度技术（如空间转录组学、MERFISH）生成海量数据，但分析流程高度碎片化。例如，基因面板设计需综合单细胞测序数据、标记基因数据库和生物学知识；细胞注释需结合分子表达、空间坐标和病理图像。传统方法依赖人工迭代，耗时且易受主观影响。

近年来，基于LLM的自主智能体（autonomous agent）在科学领域崭露头角。这类系统能通过“感知-规划-行动”循环自主完成任务，并动态调整策略。研究团队敏锐意识到：将LLM的推理能力与空间生物学的工具链结合，可能彻底改变这一领域。

SpatialAgent的核心架构

SpatialAgent由三大模块构成：

记忆模块（Memory）：存储长期目标（如“设计前列腺癌小鼠模型的500基因面板”）和短期执行步骤，确保任务连续性。

规划模块（Planning）：通过链式推理（chain-of-thought）将复杂任务拆解为可执行步骤，例如先检索数据库、再评估基因重要性，最后优化面板组合。规划过程可调用预定义模板（如标准注释流程），也能动态生成新策略。

行动模块（Action）：执行具体操作，包括调用工具（如Scanpy预处理数据、Harmony整合数据集）、生成代码或与外部数据库（如CellMarker2、PanglaoDB）交互。

系统支持全自动模式和协作模式。前者无需人工干预，后者允许科学家实时调整任务，例如在基因面板设计中加入特定通路基因，或修正注释结果。这种灵活性使其既能独立运行，又能融入现有科研流程。

图 1. 空间智能体（SpatialAgent）的概览和模块化设计。（a）概览。空间智能体是一个配备大语言模型（LLM）的自主智能体，能够处理空间生物学中的一系列广泛任务，包括（1）实验阶段的基因面板设计，（2）观察分析阶段的细胞类型和组织微环境注释，（3）研究结果总结以及（4）生成与细胞间相互作用相关的假设。空间智能体支持多模态输入和跨物种分析。（b）关键模块。行动模块（左）执行诸如检索参考数据集、转换基因名称、利用现有数据库验证配体-受体相互作用、使用已建立的软件包（例如numpy）处理数据或生成并执行自定义代码等任务，同时对来自多个来源的信息进行推理和聚合。记忆模块（右上）同时维护语义记忆（高层次目标）和情景记忆（短期步骤和上下文）。规划模块（下）通过链式思维推理和自我反思来管理任务规划，迭代优化计划以实现特定目标。

超越人类：基因面板设计的革命

基因面板设计是空间组学实验的关键步骤，需在有限基因数内最大化生物学信息。传统方法依赖方差筛选（HVG）或专家经验，但往往忽略空间分布特征。

研究团队在人类背外侧前额叶皮层（DLPFC）数据集中测试SpatialAgent。当用户输入“设计100个基因的面板”时，系统自动执行以下流程：

从CZI单细胞数据库中匹配参考数据集；

提取细胞类型标记基因；

跨数据库（PanglaoDB、CellMarker2）验证基因重要性；

结合空间表达模式优化选择。

图 2.利用SpatialAgent设计基因面板。(a)分步智能体自主工作流程。在背外侧前额叶皮层（DLPFC）中设计基因面板的spatialagent工作流的前几个步骤示意图。（b-f） spatialagent在细胞类型和空间坐标预测方面优于已建立的计算基线。（b,c）细胞类型预测精度（b， y轴）和相对于计算基线（c， x轴）的改进，通过spatialagent或几种既定方法设计50-500个基因面板。箱形图显示中位数（中线）、四分位数范围（箱形）和1.5倍四分位数范围（须形）。圆圈表示异常值。结果在所有12个DLPFC样本中平均运行10次。（d,e）空间坐标预测性能（d， y轴）和相对改进（e， x轴）。（f,g） SpatialAgent、人类科学家和混合方法（其中SpatialAgent结合了人类设计的模板）的细胞类型预测精度（f， y轴）和相对改进（g， x轴）。（h,i） SpatialAgent、人类科学家和混合方法的空间坐标预测性能（h， y轴）和相对改进（i， x轴）。

结果显示，SpatialAgent设计的基因面板在细胞类型预测准确率上比最佳算法（Spapros）高6-19%，在空间坐标预测（R²）上提升达47%。更惊人的是，其表现超过90%的人类专家，且耗时仅30分钟（人类平均需8小时）。当与人类专家协作时，混合设计的准确率进一步提升，55%的案例优于纯AI结果，印证了“人机协同”的潜力。

细胞注释：从混乱到标准化

空间转录组数据的细胞注释需整合分子表达、空间位置和形态学信息，但现有工具（如CellTypist）仅依赖基因表达，忽略空间上下文。研究团队在发育中的人类心脏数据（14.2万单细胞+150万MERFISH细胞）中对比SpatialAgent与7位人类专家。结果显示：

SpatialAgent的注释与金标准（作者标注）的一致性达82.3%，超越CellTypist（45.7%）和GPT-CellType（81.1%）；

在组织微环境（niche）注释中，系统通过整合解剖图像和分子数据，准确划分心房、心室等区域，性能与最优人类专家相当；

效率提升显著：注释10万级细胞仅需2小时，成本仅为人工的1/20。

一个典型案例是神经元与成纤维细胞的误判：传统工具因胶原基因高表达将某集群标注为“心脏成纤维细胞”，而SpatialAgent通过分析神经标记基因（NRXN1）和空间分布，将其纠正为“神经元”，与金标准一致。这种多模态推理能力，正是AI智能体的独特优势。

图 3. SpatialAgent的细胞类型和组织生态位注释。(a)工作流程。Spatialagent集成多模态信息（即解剖图像，merfish数据）进行组织注释，然后通过集体智能进行样本聚合和细化。（b-d）单元格类型注释。(b)由GPTCellType、CellTypist(具有代表性的人类科学家（𝐿𝑎，准确性第二）、SpatialAgent和原始研究的注释着色的细胞的UMAP。颜色表示八种主要的细胞类型，其中“VSMCs”表示“血管平滑肌细胞”。(c)标注性能：精度、宏精度、跨方法微精度（y轴）。(d)混淆矩阵，将来自mcelltypist， GPTCellType， human scientist𝐿𝑎和spatialagent的注释与ground truth进行比较，共享相同的着色规模0-1。（e-f）组织位注释。(e)由SpatialAgent、人类科学家和原作者标注的组织生态位。其中‘ unmatched ’表示与作者注释不对应的区域。(f)跨方法（x轴）的精度、宏观精度和微观精度（y轴）。（g, h）费用和时间。spatialagent和人类科学家（x轴）的估计成本（g， y轴，USD，对数尺度）和时间（h， y轴，hr）。

从数据到发现：假设生成的突破

传统分析止步于描述性结果，而SpatialAgent能进一步生成科学假设。团队在小鼠结肠炎模型中测试了这一能力。系统自主执行以下分析：

使用LIANA+框架量化配体-受体互作；

通过Tensor-Cell2cell识别跨条件的通信模式；

整合PROGENy通路分析生成机制假说。

结果不仅复现了原文发现的炎症相关成纤维细胞（IAF），还揭示了TGF-β信号和IL-11介导的基质重塑——这一机制在原文中未被强调，但与纤维化研究的其他证据高度吻合。更值得一提的是，系统生成了一份7000字的分析报告，包含可验证的分子靶点和治疗建议，展现了AI驱动发现的潜力。

从实验室到临床：前列腺癌案例

为验证实用性，团队将SpatialAgent接入真实湿实验。在针对前列腺癌小鼠模型的Xenium 5K基因面板优化任务中，系统从参考单细胞数据中筛选出100个补充基因。新增基因显著提升了基质-免疫互作信号的解析能力：

标准面板仅检测到Jag1-Notch2等常见通路；

优化面板新增层粘连蛋白-整合素信号网络，揭示了基底上皮细胞与成纤维细胞的全新交互模式；

聚类指标（Silhouette score）提升32%，关键通路富集度提高4倍。

这一案例证明，AI智能体不仅能加速分析，还能优化实验设计，缩短“数据-洞见-验证”的闭环周期。

图 4. 设计100个定制基因和Xenium 5K组织面板，形成各种治疗下的前列腺癌小鼠模型。(a)实验工作流程概述。（b,c）利用Xenium+SpatialAgentpanel改进的细胞类型区分。(b)使用不同基因子集的细胞图谱的UMAP嵌入，用细胞类型注释着色。Xenium：标准5k泛组织面板；Xenium + Random: 5k面板结合100个随机选择的额外基因；Xenium + SpatialAgent: 5k面板，由SpatialAgent选择100个基因；全套：来自参考scRNA-seq数据集的完整配置文件。(c)每种方法的聚类度量和细胞类型精度（y轴）（x轴）。Xenium + Random结果在三个独立的随机基因选择中平均。(d)为关键过程富集空间代理选择的基因（方法）。spatialagent选择的基因与不同途径（文本框）基因的富集（节点大小，-log（P值））和重叠（边宽，Jaccard索引），以及具体重叠的基因名称。(e)使用Xenium+SpatialAgentpanel增强细胞-细胞相互作用评分。利用Xenium（左）或Xenium + SpatialA- gentgenes（右），从基底细胞和成纤维细胞群体到免疫细胞预测细胞间相互作用的强度（来自CellPhoneDB）。

挑战与未来：AI智能体的科学边界

尽管成果显著，SpatialAgent仍有局限：首先，领域知识深度不足，对于罕见细胞类型或新兴生物过程（如新型细胞死亡方式）的识别较弱；其次，大模型存在幻觉风险，与人类类似，LLM可能生成不合理推论，需引入不确定性量化；最后，未来需开发“专家智能体”分工架构，例如专攻信号通路的子模块等，开展多智能体协作。

SpatialAgent的诞生标志着空间生物学进入“自动化2.0”时代。它不仅是工具的效率升级，更重新定义了人机协作的边界——科学家得以从重复劳动中解放，专注于创造性假设；而AI智能体凭借不知疲倦的推理能力，将隐藏在海量数据中的规律转化为可行动的知识。下一代AI智能体可能成为“主动合作者”：不仅回答问题，还能提出反事实实验、设计验证方案，甚至撰写基金申请书。结合实时成像和临床数据，这类系统有望重塑生物医学研究的范式。

AI驱动的计算医学前沿研讨会

生命科学与医学领域正经历着深刻的智能革命。大语言模型与多智能体技术快速发展，正在推动形成计算医学（Computational Medicine）新范式，为精准医疗、疾病诊断和健康管理开辟全新路径。AI驱动的计算医学在自主探索、跨尺度数据融合、个体建模与数字孪生等方面快速发展，然而跨学科合作与方法论整合仍是重要挑战。

为此，DAMO开发者矩阵（由阿里巴巴达摩院和中国互联网协会联合发起）与集智俱乐部共同主办“AI驱动的计算医学前沿：从科学发现到数字孪生”系列研讨会，邀请多位国内外前沿学者与业界专家分享交流。系列研讨会将系统梳理计算医学与AI交叉领域的最新进展，自2025年7月6日（周日）开始，共5大议题分享与讨论。欢迎相关研究、应用领域的朋友报名参加，共同推动生命科学与医疗健康的智能未来！

本活动免费报名，实行审核入群制，请填写信息后入群参与交流并获得每期活动信息。