DRUGAI

RNA在细胞生命活动中发挥着重要作用,例如转录调控、翻译调控、剪接等过程。其功能不仅取决于核苷酸序列,更取决于其层级的二级和三级结构。然而,现有RNA语言模型多基于大规模序列数据进行训练,未充分利用结构信息,导致对结构相关功能的预测能力有限。 已有方法尝试引入结构特征,但往往依赖噪声较大的结构注释数据,或在训练过程中引入任务特定的监督信号,从而牺牲了模型的泛化性和通用性。这一局限性在RNA结构预测、结构导向的功能推断等领域尤为突出。

基于此,本文提出了structRFM,一种完全开源的结构引导 RNA 基础模型,基于结构引导掩码语言建模(SgMLM)策略进行预训练,通过整合序列和结构层面的掩码,隐式地编码碱基配对互作,联合建模结构和序列依赖。structRFM有效利用结构先验,同时保持任务无关的预训练方式,实现对包括零样本预测、二级、三级结构预测及多项功能推断在内的广泛下游任务的强泛化能力 (图 1a)。

方法

图 1 structRFM 整体框架

核心设计:

    2100万条 RNA 序列–二级结构配对数据;

    结构引导掩码语言建模(SgMLM):通过创新的 配对匹配机制(PairMatch),优先掩码二级结构中碱基配对位点,引导模型直接建模配对模式;

    动态掩码比例策略:训练初期降低结构掩码比例,后期逐渐提高,平衡序列与结构信息的学习;

    多层次表征:同时输出分类级、序列级、配对矩阵级特征,支持多种下游任务。

SgMLM 结构引导预训练策略(图 1c),包含两大核心组成:结构引导掩码和动态掩码比例策略。结构引导掩码选择性地掩盖局部结构上下文中的经典碱基对对应的输入 token,促使模型根据邻近的环区恢复碱基配对,从而隐式引导 structRFM 捕捉 RNA 的序列模式及层级结构规律,无需依赖特定任务目标,挖掘多样的核苷酸间关系,促进序列和结构知识向下游结构及功能预测任务的迁移。动态掩码比例策略则在预训练过程中逐步提升结构引导掩码在整体掩码中的比例,使模型焦点从序列级别转向结构信息表示,最终在核苷酸和结构掩码之间达到平衡。

实验结果

表格 1整体实验结果

    零样本同源分类:15个生物语言模型中排名领先;

    二级结构预测:ArchiveII600 F1=0.873,bpRNA-TS0 F1=0.641,均为当前最佳;

    三级结构预测(Zfold):在 RNA Puzzles 数据集上 RMSD 比 AlphaFold3 提升 19%;

    功能预测:IRES 识别任务 F1 比 IRESfinder 高 49%;

    在剪切位点预测、ncRNA 分类等任务中表现同样领先。

零样本测试

图 2 零样本测试

a 使用 t-SNE 在 RNAcentral 子集(23,994 条 RNA)上可视化 structRFM 与随机基线模型的 RNA 嵌入,显示structRFM 能清晰区分 RNA 家族。并展示了 structRFM 提取的矩阵特征与对应接触图的两个示例。b 在 Rfam(24,523 条 RNA)和 ArchiveII600(3,611 条RNA)数据集上,不同模型同源和非同源 RNA 序列对的余弦相似度分布,及 c两个分布的重叠率(OR),展示 structRFM 出色的同源分类能力。各方法和数据集的均值标注。d structRFM 的零样本二级结构预测,展示阈值从 0 到 1(步长0.001)间的 F1 分数及示例热图。

结构预测

图 3 structRFM 用于结构预测

a, b 二级和三级结构预测的神经网络架构。c, d structRFM 及其他模型在 ArchiveII600(3,611 条 RNA)和 bpRNA-TS0(1,305条 RNA)数据集上的二级结构预测 F1 分数。小提琴图中白线为中位数,均值显示于上方。e structRFM 与 structRFM− 在 ArchiveII600 九个家族上的 F1 分数对比。各家族样本数显示于图顶端。f, g 在 CASP15(12 条 RNA)和 RNA Puzzles(20 条 RNA)数据集上,基于预测三级结构提取的二级结构头对头比较。圆圈大小依差值大小而定。h, i CASP15、CASP15-natural 和 RNA Puzzles 三级结构预测的 RMSD 和 F1 分数比较,灰色误差线为 95% 置信区间。j, k CASP15 和RNA Puzzles 上预测三级结构示例,原生结构以粉色展示。

图 4结构预测可视化

structRFM预测结构与 CASP15 数据集原生结构的可视化。列出三级结构 RMSD 及由三级结构提取的二级结构 F1 分数。二级结构中,茎结构为绿色,多重环为红色,内环为黄色,发夹环为蓝色,5’ 和 3’ 非配对区为橙色。总体来看,structRFM 在自然靶标上的表现优于含密集长程交互的合成靶标,但有时未能预测局部短茎(绿色),导致大而错误的多重环(红色)。

功能预测

图 5 structRFM 用于功能预测

a, b 用于剪接位点预测、IRES 识别和 RNA序列分类的神经网络结构示意图。c structRFM、其变体及 SpliceBERT 在剪接位点预测任务(16,505 条 RNA)上的 top-k 准确率比较。d, e IRES 识别(1,164 条RNA)的精确率-召回率曲线(PR 曲线)和受试者工作特征曲线(ROC 曲线)。f,g IRES 识别(1,164 条 RNA)及 nRC 数据集(2,600 条 RNA)上的 ncRNA 分类任务七项指标雷达图,展示 structRFM 性能。h nRC 数据集 13 类 ncRNA 上七个模型的 F1 分数比较。structRFM 和 RNA-FM 达到最新的最优性能,明显领先其他模型。

局限性

structRFM 存在下面的局限性

    最大输入长度为 512 nt。因此,为了处理长序列,简单而有效的方法是冻结编码器主体部分,重新微调一个合适的位置编码。否则需要在长链数据上重新进行预训练。不过,对于序列层面而非碱基层面的任务,可以将长链 RNA 分段处理,然后再汇总。

    结构标注来自 BPfold,比较单一,未来可引入热力学和非经典配对信息等信息,集成多种可信的结构信息输入,提高结构信息的准确性和模型的鲁棒性。

    动态掩码比例策略可针对不同任务优化。

创新点

    首次将结构引导掩码策略规模化应用于 RNA 基础模型自监督预训练;

    构建迄今最大规模的 RNA 序列–结构配对数据集;

    模型、数据、代码全部开源,推动多模态生物基础模型发展;

    多任务性能领先,实现跨域泛化。

总结

structRFM 作为一个完全开源的 RNA 基础模型,在下游任务适应上展现出高效与多样性。更重要的是,本文提出的 SgMLM 预训练策略及收集的序列-结构数据集具有良好的扩展性,可无缝整合进其他预训练框架,标志着在赋能RNA 基础模型多模态结构知识、推动更广泛生物学研究方面迈出了重要一步。

参考资料

A fully-open structure-guided RNA foundation model for robust structural and functional inference. Heqin Zhu, Ruifeng Li, Feng Zhang, Fenghe Tang, Tong Ye, Xin Li, Yunjie Gu, Peng Xiong, S. Kevin Zhou. bioRxiv 2025.08.06.668731; 

doi: https://doi.org/10.1101/2025.08.06.668731

代码

github.com/heqin-zhu/structRFM

内容中包含的图片若涉及版权问题,请及时与我们联系删除