智源社区 07月23日 12:19
数据降噪/生物信号强化/缓解dropout,深度学习模型SUICA实现空间转录组切片中任一位置基因表达的预测
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

东京大学与麦吉尔大学联合提出了一种名为SUICA的深度学习模型,旨在解决空间转录组数据的建模挑战。SUICA结合了隐式神经表征(INR)和图自编码器(Graph-Autoencoder),能够对高维稀疏的空间转录组数据进行降维,并精确建模基因表达与空间坐标的关系。该模型在实验中展现出显著优势,能有效提升数据质量、降低噪声、增强生物信号,并缓解dropout现象,为空间转录组数据的分析和应用提供了更强大的工具。

🔬 SUICA模型融合了隐式神经表征(INR)和图自编码器(Graph-Autoencoder),是一种针对空间转录组数据建模的深度学习方法。它利用图自编码器对高维、稀疏、噪声大的空间转录组数据进行降维,同时保留空间邻近关系,然后通过INR将空间坐标与基因表达进行映射,实现对任一位置基因表达的精准预测,从而提高数据质量和生物信号强度。

📉 空间转录组数据面临分辨率-成本矛盾、信号稀疏与噪声、以及跨平台异质性等三大瓶颈。SUICA通过计算增强方法,如超分辨重建、深度去噪和缺失值填补,可以在不显著增加实验成本的情况下,预测未测序点位的基因表达,恢复被技术限制未能检测到的真实基因表达,提升检测灵敏度,并生成可在不同平台间共享的标准化特征表示,极大释放其在基础研究和临床转化中的潜力。

💡 SUICA在实验验证中表现出色,使用stereo-seq和Slide-seq数据集进行对比,其在未知点位预测(超分辨率)任务上显著优于FFN和SIREN等模型。SUICA不仅能准确复原基因表达模式,还能增强关键基因(如SEPT3)的表达信号,并生成更接近真实细胞类型的预测结果,保留更精细的器官和组织结构,有效增强生物信号并识别细微的细胞状态差异。

📈 SUICA还具备显著的去噪能力和缓解dropout现象的能力。通过对空间转录组数据人为添加高斯噪声或将基因表达随机设为零(模拟dropout),实验结果表明SUICA在多项指标上优于现有方法,证明了其能够有效降低数据噪声并从测序技术限制导致的读数为零的结果中恢复真实的基因表达,为后续分析提供更可靠的数据基础。

作者:Yumin

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源

东京大学郑银强老师组,麦吉尔大学丁俊老师组共同提出了一种针对空间转录组数据建模的方法 SUICA。

东京大学郑银强老师组,麦吉尔大学丁俊老师组共同提出了一种针对空间转录组数据建模的方法 SUICA。SUICA 是一个基于隐式神经表征(implicit neural representations, INR)和图自编码器(Graph-Autoencoder)的深度学习模型。SUICA 使用图自编码器对高维的空间转录组数据进行降维,然后使用隐式神经表征对空间转录组数据坐标和其对应的基因表达进行建模,从而实现空间转录组切片中任一位置基因表达的预测。结果证明,通过 SUICA 处理的空间转录组数据能够有更高的质量,更低的噪声和更强的生物信号。

相关成果以「SUICA: Learning Super-high Dimensional Sparse Implicit Neural Representations for Spatial Transcriptomics」为题,入选 ICML 2025。

论文地址:
https://go.hyper.ai/C6Zcl

关注公众号,后台回复「SUICA」获取完整 PDF

更多 AI 前沿论文:
https://go.hyper.ai/owxf6

什么是空间转录组数据?

空间转录组(Spatial Transcriptomics, ST)数据是在同一张组织切片上同步记录「基因表达量」和「空间坐标」的高维信息矩阵。与传统的只能呈现形态学结构的全景组织影像(WSI)或只能量化基因表达但丢失方位的常规转录组测序(Transcriptomics)相比,空间转录组把「表达了哪些基因」与「位于组织的哪一处」绑定在一起,绘制出组织内细胞状态与微环境相互作用的功能地图,因而成为连接组织学和分子组学的新型数据形态。

为什么需要增强空间转录组数据?

尽管空间转录组带来了前所未有的空间分辨分子视角,但现实数据仍受到三大瓶颈限制:

① 分辨率–成本矛盾:探针越密、测序深度越高,实验费用(如 stereo-seq 的测序实验成本大于$4,000 /cm²)和样本通量迅速攀升;
② 信号稀疏与噪声:每个探测点捕获的 mRNA 数量有限,零膨胀严重,导致低丰度或关键调控基因易被漏检;
③ 跨平台异质性:不同平台在探针物理排布、测序深度和背景噪声上差异显著,直接阻碍多样本或多实验整合。

计算增强方法包括超分辨重建、深度去噪与缺失值填补等,可以在不增加(或仅小幅增加)实验成本的前提下:
(a) 预测未测序到点位的基因表达;
(b) 恢复因为技术限制未能检测到的真实基因表达,提升差异基因与空间可变基因检测灵敏度;
(c) 生成在不同平台之间可比、可共享的标准化特征表征。

由此为细胞通讯解析、疾病分区注释、药物靶点发现、多组学联合建模和 AI 病理辅助诊断提供更加精准、丰富且可扩展的数据基础,极大释放空间转录组技术在基础研究和临床转化中的潜力

SUICA:基于隐式神经表征和图自编码器的统一模型

利用隐式神经表征对空间转录组数据建模的挑战

空间转录组数据的建模面临多重挑战:

首先,原始数据在空间维度上呈网格状分布,而在基因维度上则高达数千到上万,形成「超高维、极稀疏、噪声大」的矩阵;高 dropout 率导致生物学关键信号被弱化,加剧了统计功效不足。

其次,现有空间转录组平台在「分辨率—成本」之间存在根本权衡——探针越密、测序越深,成本便成倍攀升,因而难以同时获得细胞级分辨率和大规模样本量。

再次,尝试用隐式神经表示将离散空间转录组点插值为连续表达场时,需同时解决两大技术难点:一是基因表达空间的维度远超传统视觉信号,单纯扩宽或加深网络难以摆脱维度灾难;二是零膨胀导致输入信号分布高度不均,常规 INRs 难以捕捉复杂且非线性的空间表达模式。

图自编码器:将高维空间转录组数据降维

相较于传统自编码器,我们先把每个空间转录组中的数据点视为图节点、以空间邻近关系构建邻接矩阵,然后在编码器中采用图卷积对原始高维基因表达进行卷积,将局部空间上下文融入表示并压缩到低维表征;以此学习高维空间转录组数据的低维表征,而图卷积的加入可以加强稀疏、大噪声的空间转录组数据信号。

隐式神经表征:建立测序点坐标与基因表达间的映射

在获得低维表征后,隐式神经表征网络接收检测点的坐标为输入,学习「点」与其对应低维表征的映射。并且将学习后的,模型预测的低维表征送入图自编码器中的解码器部分,从而实现将坐标映射到高维基因表达的作用。

SUICA 模型架构图

实验验证:SUICA 能生成更精准和具有更强生物相关性的预测结果

我们利用 stereo-seq 的老鼠胚胎数据和 Slide-seq 老鼠脑部切片数据进行基准对比,在未知点位预测(超分辨率)的任务上 SUICA 在多个关键指标上显著优于现有的模型和传统的隐式神经表征模型,包括 FFN,SIREN。我们可视化了每种方法的预测效果,结果显示 SUICA 的预测不仅能够准确的复原出基因的表达模式,甚至能够增强基因的表达信号。如 SEPT3,该基因在老鼠胚胎的神经系统发育中扮演着重要的作用,尽管在 groundtruth 中的信号并不明显,但 SUICA 的预测结果成功地捕捉到了这一信号。

通过对各种方法生成的结果进行聚类与标注,我们直观地发现 SUICA 生成的细胞类型最接近于真实的细胞类型。并且 SUICA 生成的细胞类型中在空间上保留了更为细节的器官和组织结构。这些结果说明 SUICA 有能力增强生物信号,并且能够识别不同器官、组织之间的细微细胞状态区别。

SUICA 生成细胞实验数据

实验验证:SUICA 能够减少空间转录组数据的噪声并且缓解 dropout 现象

为了验证 SUICA 的去噪能力(denosing)和其从 dropout (因为测序技术限制导致的读数为 0 的结果)中恢复真实基因表达的能力(gene imputation),我们人为地对空间转录组数据加入高斯噪声或随机将基因表达设为 0。在 gene imputation 实验中,我们随机的将数据中百分之 70 的基因表达设为 0。 在基因表达在去噪实验中,为了保证加噪后的基因表达分布仍然与原始基因表达分布相似,我们将所有的负值归零。实验结果表明 SUICA 在多项指标上强于现有的方法,证明了 SUICA 能对空间转录组数据降噪并且缓解 dropout 现象的能力。

 往期推荐 


“阅读原文”,免费获取海量数据集资源!

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SUICA 空间转录组 深度学习 隐式神经表征 图自编码器
相关文章