掘金 人工智能 5小时前
英伟达实现原子级蛋白质设计突破,高精度生成多达800个残基的蛋白质
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

NVIDIA与Mila联合提出的La-Proteina是一种基于部分潜在流匹配的原子级蛋白质设计方法,有效解决了传统蛋白质设计中序列与结构联合建模的难题。该模型通过结合显式主链建模和固定大小的残基潜在表示,能够捕捉序列和原子侧链信息,并成功生成长达800个残基的蛋白质。实验证明,La-Proteina在无条件蛋白质生成及原子基序支架设计任务上均达到SOTA性能,生成结构更优,为药物研发和生物工程等领域带来新机遇。

✨ La-Proteina采用部分隐式流匹配框架,能够联合生成蛋白质序列和完全原子级结构。它通过结合明确的主链建模和每个残基的固定大小潜在表示,有效捕捉了蛋白质的序列和原子侧链信息,解决了传统方法在处理可变维度侧链表示时的关键挑战。

🚀 该模型在无条件蛋白质生成方面取得了SOTA(State-of-the-Art)性能,能够生成多样化、可共同设计且结构有效的、长达800个残基的完全原子级蛋白质。在生物物理分析中,La-Proteina生成的蛋白质结构质量更高,更接近真实蛋白质。

💡 La-Proteina成功应用于原子基序支架设计任务,包括索引和非索引场景。实验结果显示,该模型在该任务上显著优于现有全原子生成器,能够依据预定义基序的原子结构生成精确支撑该基序的蛋白质结构,为功能性蛋白质的设计提供了更精准的工具。

📈 La-Proteina的架构设计允许对主链和原子级细节设置不同的生成时间表,提高了可扩展性,能处理更长的蛋白质序列。其两阶段训练策略(VAE和流匹配)也确保了模型能够高效学习蛋白质序列与全原子结构的联合分布。

众所周知,设计具有特定结构和功能的新型蛋白质,在药物研发、生物工程等众多领域都有着巨大的应用潜力。然而,要实现这一目标并非易事,尤其是在捕捉蛋白质序列和结构之间的关系方面,一直是从头设计蛋白质的一大难题。

以往大多数方法往往将蛋白质序列和结构的设计分开进行, 例如先生成序列再进行折叠,或者先设计 backbone 再确定序列。但要精确建模蛋白质序列和全原子结构的联合分布,从而实现对功能位点的精细控制,以及完成关键的蛋白质设计任务,如原子基序支架设计,仍然是一个极具挑战性的问题。这不仅需要处理离散的序列和连续的坐标,还需要应对侧链维度随序列变化的问题。

在这样的背景下,NVIDIA 的研究团队联合加拿大魁北克人工智能研究所 Mila 提出了 La-Proteina, 这是一种基于部分潜在流匹配的原子级蛋白质设计方法。它能够有效结合显式的 backbone 建模和固定大小的每个残基潜在表示,以捕捉序列和原子侧链信息,解决了蛋白质生成过程中显式侧链表示的维度可变性这一关键挑战,为蛋白质设计领域带来了新的突破。

相关研究成果以「La-Proteina: Atomistic Protein Generation via Partially Latent Flow Matching」为题,发表在 arXiv 。

研究亮点:

论文地址:

https://go.hyper.ai/3csT5

更多 AI 前沿论文:
https://go.hyper.ai/owxf6

数据集:用于训练无条件模型,以及蛋白质数据特征与作用

该研究使用了 2 个训练无条件模型的数据集:

其一为经 Foldseek 聚类的 AFDB 数据集,它源自 AlphaFold 数据库(AFDB)的筛选与聚类, 聚类时结合了序列和结构信息,初始约有 300 万个独特样本,经多重标准优化 —— 平均 pLDDT 分数不低于 80 、蛋白质长度在 32 到 512 个残基范围内、卷曲比例低于 50% 且连续卷曲残基不超 20 个,还特别要求存在 β-折叠以纠正模型生成蛋白质中 β- 折叠含量低的问题,最终得到约 55 万个蛋白质样本, 该数据集经过精心筛选,能让模型生成的蛋白质在结构特征上更均衡,尤其是提升了 β-折叠含量。

其二是用于长序列训练的定制 AFDB 子集, 研究人员从 AFDB 中筛选出平均 pLDDT 至少 70 且长度在 384 到 896 之间的样本,经聚类后得到超 400 万个聚类用于训练, 专注于更长的蛋白质样本,满足了长序列训练的需求。

此外,蛋白质数据本身包含序列(20 种残基类型)和 3D 结构信息,借助 Atom37 表示法统一存储,Atom37 表示法定义了每个残基 37 个潜在原子的标准化超集,可将一个 L 残基的蛋白质结构存储为形状为 [L, 37, 3] 的张量,并根据每个残基的类型选择相关的坐标子集。

这种标准化方式的特点是为不同残基的结构信息提供了统一的存储和表示方法,作用是为模型统一处理不同残基的结构信息奠定了基础,而 AFDB 的大规模数据特点则为模型提供了丰富样本,作用是助力其学习更广泛的蛋白质序列和结构特征,提升性能与泛化能力,通过这些数据的训练和实验,相关模型能更好捕捉蛋白质序列与结构的关系,实现更精确的设计。

La-Proteina:原子级蛋白质设计模型的创新架构与训练机制

La-Proteina 是一种针对原子级蛋白质设计的创新模型,其核心设计围绕「部分隐式表示」展开,旨在解决完全原子级结构生成中的复杂挑战。

在设计层面,考虑到全原子结构生成需同时兼顾大规模 backbone 、氨基酸类型及侧链(侧链维度随氨基酸变化)的挑战,La-Proteina 提出将每个残基的原子级细节和残基类型编码到固定长度的连续隐空间,同时通过 α-碳坐标保持明确的主链建模。

这一设计带来多重优势——既规避了模型主生成组件中混合连续-分类建模的难题,让全连续流匹配方法可高效生成隐变量,又能基于高性能主链建模的进步拓展;同时,明确的主链建模允许为全局 α-碳主链与残基原子级细节设置不同生成时间表,这是高性能的关键,也提升了可扩展性,能将模型扩展到多达 800 个残基的大型蛋白质生成,而这一混合方法正是其优于完全隐式建模框架的核心原因。

从组成结构来看,如下图所示,La-Proteina 核心由编码器(encoder)、解码器(decoder)和去噪器(denoiser)3 个神经网络构成, 三者共享基于对偏置注意力机制的 Transformer 核心架构。

其中,编码器负责将输入的蛋白质(包含序列和结构信息)映射到潜在变量,其初始序列表示涵盖原始原子坐标、侧链和 backbone 扭转角及残基类型,初始对表示则包含残基间的相对序列分离、成对距离和相对方向;解码器的作用是从潜在变量和 α-碳原子坐标中重建完整蛋白质,处理 8 维的每个残基潜在变量和 α-碳原子坐标;去噪器网络则用于预测将样本从标准高斯参考分布传输到目标数据分布的速度场,且在其 Transformer 块中直接对插值时间进行条件处理。

La-Proteina 的组成

训练方式上,La-Proteina 采用两阶段训练策略。

第一阶段训练条件变分自编码器(VAE):编码器将输入蛋白质映射到潜在变量,解码器基于潜在变量和 α-碳原子坐标重建蛋白质,整个 VAE 通过最大化 β 加权的证据下界(ELBO)进行优化,针对上述建模选择,重建项可简化为序列的交叉熵损失和结构的平方 L2 损失。

第二阶段则优化流匹配模型以近似目标分布,去噪器网络通过最小化条件流匹配(CFM)目标完成训练,而使用两个单独的插值时间 tx 和 tz 是此阶段的关键设计——这一设置使得推理过程中能对 α-碳原子坐标和潜在变量采用不同的积分调度,有效增强了模型性能。

通过这样的设计与训练,La-Proteina 得以高效学习蛋白质序列与全原子结构的联合分布,为原子级蛋白质设计提供了强有力的技术支撑。

实验结果:La-Proteina 在 4 种实验下均大幅领先

为验证 La-Proteina 的性能,研究团队围绕无条件原子级蛋白质生成和原子基序支架设计两大方向展开了一系列实验,全面考量模型在不同场景下的表现。

在无条件原子级蛋白质生成实验中, 如下图所示,研究团队将 La-Proteina 的两个变体(有无三角乘法层)与 P (all-atom) 、 APM 、 PLAID 等多个公开可用的全原子生成基线方法进行对比,评估指标涵盖全原子协同设计能力、多样性、新颖性和标准设计能力等。

结果显示,La-Proteina 的两个变体在全原子协同设计能力、设计能力和多样性方面均优于所有基线方法,在新颖性上也具备很强的竞争力。

La-Proteina 生成无条件长链的性能

值得注意的是,不使用三角乘法层的 La-Proteina 在达到最先进性能水平的同时,还拥有较高的可扩展性,而性能次之的 P (all-atom) 由于依赖计算成本高昂的三角更新层,仅能处理短蛋白质。

此外,研究团队还展示了 La-Proteina 在生成大型全原子结构时的可扩展性, 通过在包含约 4,600 万个样本的 AFDB 数据集上训练,该模型在长度超过 500 个残基的蛋白质生成任务中表现最佳,而其他全原子基线方法在这一长度范围内往往难以生成有效样本。

在生物物理分析中,借助 MolProbity 工具对结构有效性进行评估,结果表明 La-Proteina 生成的结构质量更高, 得分显著优于所有基线方法,其生成的结构在物理层面更真实,与真实蛋白质更为相似;同时,通过可视化侧链二面角分布并与 PDB 和 AFDB 参考进行比较发现 ,La-Proteina 能够准确模拟氨基酸旋转异构体的构象空间, 而基线方法则常常偏离参考,出现错过模式或填充不现实角度区域的情况。

La-Proteina 比现有的全原子生成 baseline

具有更高的结构有效性

在原子基序支架设计实验中, 研究团队针对该模型在原子基序支架设计任务上的表现进行评估,该任务要求模型依据预定义基序的原子结构,生成能够准确支撑该基序的蛋白质结构。实验在 4 种评估设置下开展,包括全原子和尖端原子支架设计,以及索引和非索引版本。

结果显示,在所有四种设置下,La-Proteina 都大幅优于唯一可比的全原子基线方法 Protpardelle,能够成功解决大多数基准任务。 尤其对于由 3 个或更多不同残基段组成的基序,非索引版本的 La-Proteina 表现优于索引版本,这可能是因为固定多个段的位置会限制模型探索不同结构解决方案的灵活性。

原子级蛋白质设计领域的科研突破和创新实践

在蛋白质设计领域,La-Proteina 所代表的原子级蛋白质设计研究方向引起了学术界和企业界的广泛关注,许多高校和企业都在该领域取得了重要的科研突破和创新实践。

在学术界,一些研究团队致力于改进蛋白质生成模型的性能和可扩展性。例如,NVIDIA 联合魁北克人工智能研究所 Mila 、蒙特利尔大学、麻省理工学院的研究团队,开发出的 Proteina 通过在大规模的 AlphaFold 数据库(AFDB)上进行训练, 展示了基于流的蛋白质结构生成模型的可扩展性。

还有一些研究利用扩散模型在蛋白质设计中的应用,如 RFDiffusion 和 Chroma 等早期基于扩散的蛋白质生成器,专注于 backbone 生成,后续的研究进一步拓展了扩散模型在蛋白质设计中的应用范围,如在 SO(3) 流形上的扩散以及欧几里得流匹配等方法。

一些研究团队还关注蛋白质序列和结构的联合建模。例如,英伟达联合麻省理工学院推出的 ProtComposer 使用辅助统计模型和 3D 基元来生成蛋白质结构,而一些工作则通过联合建模蛋白质 backbone 和序列或使用潜在变量模型来处理全原子结构。此外,语言模型也被应用于蛋白质设计,一些方法专注于蛋白质序列,而另一些方法则将结构信息进行标记化并联合建模序列和结构。

在企业界,荷兰生物技术公司 Cradle,专注运用人工智能简化蛋白质设计流程,通过建立湿实验室积累数十亿蛋白质序列和数据来训练专有生成式人工智能模型,使得蛋白质设计和优化工作更便捷。美国 AI 制药服务商 Xaira Therapeutics 凭借在先进机器学习研究、大规模数据生成及疗法开发方面的优势,致力于为特定适应症打造适配分子。一些企业还致力于将蛋白质设计技术与人工智能和机器学习相结合,提高蛋白质设计的效率和准确性。

这些高校的科研突破和企业的创新实践为蛋白质设计领域的发展提供了丰富的经验和技术支持,推动了该领域不断向前发展。随着技术的不断进步,相信未来蛋白质设计将在更多领域发挥重要作用。

参考文章:
1.mp.weixin.qq.com/s/7r69S3XpN…
2.mp.weixin.qq.com/s/DrZEdsb1S…

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

La-Proteina 蛋白质设计 AI 生物工程 深度学习
相关文章