DRUGAI
今天为大家介绍的是来自中国科学技术大学的刘淇教授与哈佛医学院的Marinka Zitnik联合发表的一篇论文。设计蛋白质结合蛋白对于药物发现至关重要。然而,基于人工智能设计此类蛋白面临诸多挑战,包括蛋白–配体相互作用的复杂性、配体分子和氨基酸侧链的灵活性,以及序列与结构之间的依赖性。作者提出了一种名为PocketGen的深度生成模型,用于生成配体相互作用发生的蛋白质区域的残基序列和原子结构。PocketGen通过使用图变换器进行结构编码以及基于蛋白语言模型的序列精炼模块,促进蛋白序列与结构之间的一致性。图变换器可以捕捉多个尺度上的相互作用,包括原子、残基和配体级别。在序列精炼过程中,PocketGen将结构适配器集成到蛋白语言模型中,从而确保基于结构的预测与基于序列的预测保持一致。PocketGen能够生成高保真度的蛋白结合位点(蛋白口袋),并具有更高的结合亲和力和结构有效性。它的运行速度比基于物理的方法快10倍,并且在生成的蛋白口袋结合亲和力高于参考口袋的情况下,成功率达到97%。此外,它的氨基酸恢复率超过了63%。

蛋白质功能的调控通常涉及蛋白质与小分子配体间的相互作用建模,这对酶催化、信号传导和细胞调节等生物过程至关重要。小分子结合到特定蛋白位点可引发构象变化,调节蛋白活性并改变功能特性。这种机制广泛应用于设计特定配体结合蛋白,如用于环境监测、临床诊断和药物递送的生物传感器。传统的蛋白结合位点设计方法主要依赖于基于物理模型或模板匹配。例如,PocketOptimizer基于物理能量函数预测蛋白结合位点的突变以增强结合亲和力,而模板匹配方法通过组装蛋白基序并筛选最佳结合配体组合。尽管有效,但这些方法耗时较长,并受限于特定蛋白结构类型。
近年来,基于深度学习的方法显著推动了蛋白结合位点设计的发展。例如,RFdiffusion结合扩散模型与RoseTTAFold生成蛋白结构,但在模拟复杂的蛋白-配体相互作用方面仍存在不足。改进版本RFAA通过迭代去噪生成结合蛋白,但其后处理步骤容易导致序列与结构间不一致。而FAIR通过两阶段精炼方法同时设计原子结构和序列,但阶段间的不稳定性限制了性能。这些问题表明需要一种端到端生成方法来提高设计效率和一致性。混合方法结合了深度学习与传统技术,例如通过trRosetta生成骨架结构,结合ProteinMPNN和AlphaFold进行序列设计和筛选。这些方法尽管取得了一定进展,但在实现序列与结构一致性及模拟复杂相互作用方面仍面临挑战。
PocketGen是一种用于高效生成蛋白口袋的深度生成方法。其核心架构包括两个关键模块:双层图变换器和序列精炼模块。

图 1
工作机制(图1a):
PocketGen采用协同设计方案,根据配体分子及其周围的蛋白支架(不包括口袋区域)同时预测蛋白口袋的序列和结构。
它将蛋白–配体复合物表示为几何图块,以适应残基和配体中原子数量的差异,并通过初始化14个原子最大化处理灵活性。
图变换器模块(图1b):
通过双层注意力机制捕捉原子、残基和配体级别的多尺度交互,涵盖蛋白内部及蛋白–配体间的相互作用。
在精炼过程中,配体结构也会更新,以反映结合位点的潜在变化。
序列精炼模块(图1c):
通过在蛋白语言模型(pLM)中引入结构适配器,确保序列与结构预测的一致性。
训练时仅对适配器进行微调,而保持其他模型层不变。
PocketGen性能基准测试
研究团队在CrossDocked和Binding MOAD两个数据集上对PocketGen进行了测试。CrossDocked数据集由通过交叉对接生成的蛋白–配体对组成,按30%的序列相似性划分为训练集、验证集和测试集。Binding MOAD数据集包括实验测定的蛋白–配体复合物,并根据酶编号进行划分。实验中,蛋白口袋定义为距离配体结合原子3.5 Å范围内的残基,平均每个口袋包含约8个残基,同时探讨了半径扩展到5.5 Å的设计能力(图3c)。
测试中使用了三类指标:1. 结合亲和力(AutoDock Vina分数、MM-GBSA和GlideSP);2. 结构有效性(scRMSD、scTM和pLDDT);3. 序列准确性(AAR)。这些指标用于评估生成蛋白口袋在结构和功能上的质量。

图 2
PocketGen在多项指标中表现优异(图2)。在CrossDocked数据集上,其设计性得分比RFdiffusion和RFAA分别提高3%和2%,Vina分数分别提升了0.199和0.123。此外,PocketGen在AAR上的表现显著,得分比RFAA高出13.95%。这一优势主要得益于其整合了蛋白语言模型,实现了序列和结构的一致性。
表 1

表1显示,PocketGen生成的顶级蛋白口袋在结合亲和力上始终领先,其Vina分数较RFAA降低了0.476。同时,MM-GBSA和GlideSP分数分别减少了4.287和0.376,进一步验证了其生成高亲和力口袋的能力。此外,PocketGen在pLDDT和scRMSD等结构一致性指标上表现出色,成功率达到97%,超过RFAA的93%。子结构分析表明,PocketGen在残基主链键长和二面角几何特征的精度上优于其他方法,充分展示了其在生成高质量蛋白口袋方面的潜力。
探索 PocketGen 的生成能力
PocketGen不仅能够高效生成高质量蛋白口袋,还在计算效率和实验成功率上表现突出。图3a显示,传统方法(PocketOpt和DEPACT)生成100个口袋需1000秒以上,基于扩散的RFdiffusion和RFAA更耗时,而 PocketGen仅需44.2秒,大幅降低时间成本。除了亲和力,蛋白口袋的多样性也很重要。图3b表明,PocketGen 在维持相同多样性水平时,其生成的蛋白口袋亲和力优于RFAA。多样性由“1-平均残基序列相似度”衡量,并通过调整采样参数τ控制。

图 3
图 3c研究了口袋大小对性能的影响。设计区域扩大至5.5 Å时,AAR和Vina分数稍有下降,但较大的口袋展现出更高的亲和力潜力,说明其在复杂设计任务中的优势。PocketGen的性能得益于蛋白语言模型的集成(图3d)。随着 pLM 参数规模从8M增至15B,模型表现从54.58%提升至66.61%。PocketGen通过适配器层实现高效训练,仅需7.9M可训练参数,而 RFAA 需 82.9M。配体分子特性对性能也有影响。图3e显示,PocketGen在较大配体分子上生成了更高亲和力的口袋,这与更大的交互表面积和更多功能基团有关。通过IFG方法,图3f确认了关键基团(如氢键供体/受体和芳香环)对提升亲和力的重要作用。
此外,PocketGen在生成口袋时会更新配体结构。PoseBusters测试验证,生成配体的结构有效性超过95%。进一步分析发现,较低的RMSD通常伴随更高的亲和力。消融实验和超参数分析显示,PocketGen的双层图变换器和pLM集成对性能至关重要,其结果在不同参数设置下均表现出稳定性和竞争力。
为小分子治疗设计蛋白结合口袋
PocketGen展现了为抗体、酶和生物传感器重新设计结合位点的能力,适用于特定小分子配体。测试分子包括:皮质醇(HCY, 压力标志物)、抗凝药物Apixaban(APX, 靶向凝血酶原激活酶Factor Xa)以及芬太尼(7V7, 滥用物检测传感器)。图4对比了重新设计的蛋白结合口袋与原始结合模式的相互作用。

图 4
PocketGen在HCY的结合口袋中复现了重要的疏水相互作用(如TRP47和TYR104)和氢键(TYR59),并新增两个氢键。在APX和7V7的设计中,PocketGen保留了疏水接触、氢键和π-π堆叠等关键模式,并引入新相互作用,如LYS192的π-阳离子相互作用和ASN35的氢键。这些新模式显著增强了配体结合亲和力。图4d–f显示,PocketGen生成的蛋白口袋中,亲和力高于参考口袋的比例分别为11%、40%和45%,远超RFAA的0%、10%和18%。在稳定性预测中(ΔΔG),PocketGen生成的口袋保持了良好的结构稳定性,例如HCY为0.09,APX为0.92。
为了验证其泛化能力,PocketGen在未见蛋白(如PiB21和luxsit8)及其配体(如rucaparib 和DTZ)上表现出色(图4g–j),生成的高亲和力口袋持续优于其他方法。即使是原始设计经过饱和突变优化的DTZ,PocketGen仍表现出强适应性。此外,案例研究显示,PocketGen能灵活调整相互作用模式,包括氢键、疏水接触和卤键,从而针对不同分子片段设计高亲和力口袋。
解读PocketGen的蛋白–配体相互作用
作者分析了PocketGen针对APX配体生成的蛋白结合口袋中的注意力分布,揭示其识别关键相互作用的能力。图5a使用 Schrödinger Maestro工具生成了蛋白–配体二维相互作用图。为进一步研究,作者绘制了神经网络最后一层的注意力热图,图5b展示了两种注意力头的分布,其中行代表蛋白残基,列代表配体原子。

图 5
PocketGen采用稀疏注意力机制,其注意力分布呈现稀疏特性,不同注意力头专注于不同的交互模式。例如,第一种注意力头主要捕捉氢键,显著关注残基THR146和ASP220与配体原子7的结合;第二种注意力头则关注π–π堆叠和π–阳离子相互作用,涉及残基TYR99与配体原子15、21、23、25、29和33,以及残基LYS192与配体原子1、14、17、19和20的交互模式。这些结果表明,尽管PocketGen是基于数据驱动的模型,它已经能够识别生化分子间的关键相互作用模式,为生成高效结合口袋奠定了基础。
讨论
理解蛋白质与配体的结合机制对于酶催化、免疫识别、细胞信号传导和基因表达调控等过程至关重要。现有模型如Lingo3DMol和NeuralPLexer专注于配体生成或复合物建模,但无法直接生成结合配体的蛋白口袋。PocketGen是一种深度生成方法,可生成蛋白口袋的残基序列和全原子结构,通过双层图变换器和蛋白语言模型实现序列与结构一致性。测试表明,PocketGen在生成高亲和力、高保真度口袋方面性能卓越,同时兼具多样性和计算效率。
未来研究方向包括:
扩展至蛋白口袋以外的更大区域设计;
引入生化先验知识和交互模板,提升模型的泛化能力;
通过湿实验验证设计有效性,进一步确认其实用价值。
编译|于洲
审稿|王梓旭
参考资料
Zhang Z, Shen W X, Liu Q, et al. Efficient generation of protein pockets with PocketGen[J]. Nature Machine Intelligence, 2024: 1-14.
内容中包含的图片若涉及版权问题,请及时与我们联系删除