Nature Methods专刊评论：序列-功能模型探究基因调控机制

原创董弘禹 2024-08-20 18:47 浙江

我们正在进入前所未有的时代，以可解释、强因果的方式理解细胞生物学机制。

（此图由DALLE3生成：一把金色的钥匙正在打开一把复杂的基因锁，锁链上环绕着代表 DNA 双螺旋结构的元素。背景中，可以隐约看到复杂的基因序列和数据流动的图形，象征着模型在解读基因调控中的作用。）

导语：2024年8月，Nature Methods 发表主题特刊，探讨人工智能如何在生物学中广泛使用并为生物学家带来巨大帮助（《Nature Methods主题特刊：关注 AI 在生物学中的应用》）。今天的文章重点对其中的一篇评论文章“Unlocking gene regulation with sequence-to-function models”进行解读。

关键词：AI for Biology，人工智能，基因调控，序列到功能映射模型，基因组语言模型

董弘禹 | 编译

文章标题：Unlocking gene regulation with sequence-to-function models
文章来源：Nature Methods
文章链接：https://www.nature.com/articles/s41592-024-02331-5

现代生物学的一个基本目标是构建从基因型推断表型的模型。这类模型对于理解疾病异质性的机制并实施精准医疗至关重要。在当今复杂疾病的背景下，研发这种模型刻不容缓。尽管研究表明，复杂疾病是遗传和环境因素共同作用的结果，遗传成分甚至可能占比相对较小，但遗传分析提供了一个独特的视角，以本质方式对生命过程提供深层次理解。

基因型对表型的影响可以通过突变蛋白质结构本身或通过改变蛋白质的时空动态表达水平这两种方式实现（图1a）。在这篇评论中，我们专注于调节蛋白质的时空动态表达水平。更具体地说，我们专注于mRNA丰度的调控——这是衡量蛋白质水平的一个重要的决定因素。

图1a：解读基因组需要对不同层次的基因调控及其中间过程（染色质组织、表观基因组修饰、转录调控、转录后调控等）如何受到遗传变异影响进行详细探究。

要从基因调控角度对基因组进行建模并且揭示疾病机制，需要用到什么方法呢？从历史上看，这个问题已经通过统计遗传学关联（GWAS）方法解决[1]。然而，一种完全不同的解决方案正出现在功能基因组学和深度学习的交叉领域，研发序列到功能的映射模型成为这个交叉领域的研究热点（图1a）。序列到功能模型使用深度卷积神经网络（CNN）来学习DNA序列和分子信息（如染色质可及性、组蛋白修饰、基因表达等）在一种或几种细胞状态下的对应关系[2]（图1b）。此类模型将基因型-表型问题表述为机器学习领域常见的预测问题，使计算模型能够在一个统一的框架中整合大量多模态分子信息（如表观信息，基因表达信息等等）并实现精准预测。

图1b：序列到功能模型以基因组DNA序列为输入，并学习预测其分子功能信息，如细胞类型特异的基因表达量。

在实践中，这类模型是在由诸如ENCODE（DNA元素百科全书）[3]等大量功能基因组数据集上训练的。大多数最先进的模型使用相同的训练和评估策略。它们以基因组参考数据集中的亚特定长度序列（从数千个碱基对到数十万碱基变化，均为ATGC组成的字符串）为输入，预测分子功能信息，包括来自特定细胞类型的基因表达情况[4-6]。在训练期间，模型会在基因组上随机屏蔽（mask）一些信息，并使用模型预测这一空白，通过对预测值和真实值进行对比，从而对模型泛化性进行评估。许多实验表明，这类模型在未见过的基因组DNA上也可以保持很好的泛化能力，这揭示了它们可以学习基因组序列中特有的“语法”，也即，蛋白质与DNA之间的相互作用规则，还有更高阶的基因调控规则。研究表明，对于各种序列-功能模型，学习到的序列语法和许多年来分子生物学家通过实验获得的生物学机制知识保持一致。例如，模型发现了转录因子结合基序（transcription factor binding motifs）[5]、转录因子复合物[5] 、CTCF位点与染色体三维结构之间的关系[7]。

Enformer模型：通过输入DNA序列预测mRNA表达情况，进而揭示调控机制

https://www.nature.com/articles/s41592-021-01252-x

重要的是，因为序列-功能模型在DNA层面上进行运算，它们可以实现预测任意遗传变异对输出信息（分子表达量）的影响（图1b）。这个过程被称为计算机模拟突变，其最直接的应用是预测人群中等位基因的基因表达量（或其他调控过程）差异。在某些情况下，这些模型已经能够准确预测变异效应，准确率堪比实验手段[4]。然而，将序列-功能模型用于解释全基因组范围内由于遗传变异造成的基因表达差异，并尝试将发现的结论与疾病机制相关联，现有模型效果不甚理想，需要提高它们的预测准确率，从而达到目标[8-9]。

提高模型分辨率最简单的做法是增加训练数据，这牵涉到哪种训练数据质量最高的问题。以下几种策略值得研究：

首先，现有模型已经在一系列表观基因组和基因表达数据集上进行了训练，但仍然缺少结合所有调控过程阶段（特别是转录后调控）的模型，可适当地打通全过程，增加全过程数据，而非仅在一个阶段研究。例如，遗传变异可能影响异构体（isoform，同一基因的不同转录本版本，通常是由于可变剪接产生）的丰度或影响转录后过程（如聚腺苷酸化、翻译或mRNA稳定性），导致稳态基因表达的变化，但不会影响转录速率，在设计模型时建议考虑上述过程。

其次，更多的序列和基因表达的配对数据将增强模型效果。这可以通过几种方式实现：队列研究（对同一个人进行全基因组测序和基因表达测量）提供了大量的训练数据，因为每个人都贡献了他们所有的等位基因。然而，需要注意的是，模型应该更关注个体之间的细微差异，不应因为跨基因的数据变异信息较强而产生偏见。这需要对模型的架构进行增强和重构。另一种提高序列多样性的方法是通过纳入进化信息[10]。例如，许多基因调控机制在进化树上是保守的，因此通过在来自多个物种的数据上联合训练序列-功能模型能够充分融入进化信息，使模型性能得到很好的提升。此外，非人类模式生物为研究人员提供了进行额外实验（如各种类型的干扰）的机会。

考虑人和鼠的序列信息预测表达量，同时揭示同源性

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1008050

受大型语言模型（如ChatGPT）启发，基因组语言模型（genomic language models，GLM）或许能够成为一种新兴的解决办法。模型使用自监督学习的方式，利用不同物种的大量未标记基因组DNA进行预训练，来自我学习DNA序列在基因组内部和不同基因组间的统计关系。随后，基因组语言模型可进行各种下游应用，包括预测功能元件、基因表达和序列设计[12]。它们已经在各种功能性非编码元件的分类任务上进行了广泛的基准测试；然而，最近的研究表明，这种表示缺乏细胞类型特异性信息，预训练步骤并未使得预测细胞类型特异性功能元件的性能达到显著提高[13]。

顺式调控元件进化迅速，而且它们在不同细胞类型中的功能各不相同。当前的基因组语言模型从几百到几千个基因组中学习它们的表示，而像ChatGPT这样的大型语言模型使用的数据语料库比上面提到的数据集大几个数量级。目前尚不清楚是否可以从现在已有公开测序的基因组数据中学习到这种复杂的细胞类型特异性表示。因此，需要进一步的研究来确定如何结合基因组语言模型与生物背景信息（如细胞类型信息）对模型性能进行改进[13]。

通过不同的测评任务，对基因组大语言模型（GLM）进行评估

https://www.biorxiv.org/content/10.1101/2024.02.29.582810v1

总结而言，随着序列-功能模型的成熟和持续改进，我们正在进入前所未有的时代，以可解释、强因果的方式理解细胞生物学机制。这类模型能够捕获不同调控层次之间的因果关系。然而，在这个领域还有很多改进要做，例如如何更多地考虑生物背景信息、如何加入进化关系、如何融入调控全过程，使得模型能够解密生命这个复杂系统，为临床和疾病研究做出贡献。

参考文献

Ufelmann, E. et al. Nat. Rev. Methods Primers 1, 59 (2021).

Li, Z. et al. Cell Rep. Methods 3, 100384 (2023).

Luo, Y. et al. Nucleic Acids Res 48, D882–D889 (2020).

Avsec, Ž. et al. Nat. Methods 18, 1196–1203 (2021).

Avsec, Ž. et al. Nat. Genet. 53, 354–366 (2021).

Zhou, J. et al. Nat. Genet. 50, 1171–1179 (2018).

Zhou, J. Nat. Genet 54, 725–734 (2022).

Sasse, A. et al. Nat. Genet. 55, 2060–2064 (2023).

Huang, C. et al. Nat. Genet. 55, 2056–2059 (2023).

Kelley, D. R. PLOS Comput. Biol. 16, e1008050 (2020).

de Boer, C. G. & Taipale, J. Nature 625, 41–50 (2024).

Dalla-Torre, H. et al. Preprint at bioRxiv https://doi.org/10.1101/2023.01.11.523679 (2023).

Tang, Z. & Koo, P. K. Preprint at bioRxiv https://doi.org/10.1101/2024.02.29.582810 (2024).

大模型与生物医学：

AI + Science第二季读书会

生物医学是一个复杂且富有挑战性的领域，涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入，使得我们能够从前所未有的角度去观察和理解这个领域的问题，加速科学研究的步伐，提高医疗服务的效率和效果。这种交叉领域的合作，标志着我们正在向科技与生物医学深度融合的新时代迈进，对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。

集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩，华盛顿大学博士研究生屠鑫明，共同发起以“大模型与生物医学”为主题的读书会，共学共研相关文献，探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会已完结，现在报名可加入社群并解锁回放视频权限。

详情请见：

大模型与生物医学：AI + Science第二季读书会启动

生命复杂性读书会：

生命复杂系统的构成原理

在生物学中心法则的起点，基因作为生命复杂系统的遗传信息载体，在生命周期内稳定存在；而位于中心法则末端的蛋白质，其组织构成和时空变化的复杂性呈指数式增长。随着分子生物学数十年来的突飞猛进，尤其是生命组学（基因组学、转录组学、蛋白质组学和代谢组学等的集合）等领域的日新月异，当代生命科学临近爆发的边缘。如此海量的数据如何帮助我们揭示宇宙中最复杂的物质系统——“人体”的构成原理和设计原理？阐释人类发育、衰老和重大疾病的发生机制？

集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰，国家蛋白质科学中心（北京）副研究员常乘、李杨，香港浸会大学助理教授唐乾元，北京大学前沿交叉学科研究院研究员林一瀚，中国科学院分子细胞科学卓越创新中心博士后唐诗婕，共同发起「生命复杂性：生命复杂系统的构成原理」读书会，从微观细胞尺度、介观组织器官尺度到宏观人体尺度，梳理生命科学领域中的重要问题及重要数据，由生物学家提问，希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流，建立跨学科合作关系，激发新的研究思路和合作项目。读书会从2024年8月6日开始，每周二晚19:00-21:00进行，持续时间预计10-12周。欢迎对这个生命科学、物理学、计算机科学、复杂系统科学深度交叉的前沿领域感兴趣的朋友加入！

详情请见：

生命复杂性读书会：从微观到宏观，多尺度视角探索生命复杂系统的构成原理

2. 斯坦福大学教授 Jure Leskovec：基础模型在全科医学人工智能中的应用潜力｜集智俱乐部20周年年会回顾

3. Yoshua Bengio领衔跨学科团队，Nature刊文综述人工智能时代的科学发现

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

阅读原文

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签