DRUGAI

蛋白–蛋白相互作用(PPIs)在众多生化和生物学过程中扮演着至关重要的角色。尽管已有多种基于结构的分子生成模型问世,PPI界面及其靶向化合物相较于传统的结合位点和小分子药物却表现出独特的物理化学性质。因此,针对PPI界面,特别是考虑PPI复合物或界面热点残基设计有效的靶向化合物,依然是一项重大挑战。2024年12月20日发表在Journal of Cheminformatics的研究论文《Interface-aware molecular generative framework for protein–protein interaction modulators》提出了一种全新的基于结构的分子生成框架,专门用于靶向PPI界面的分子设计。这项研究中,研究人员构建了一个涵盖活性和非活性化合物与PPI界面数据对的综合数据集。基于此数据集,提出了面向PPI界面的分子生成框架,命名为 GENiPPI。研究结果显示,GENiPPI 能够捕捉PPI界面与活性分子之间的潜在关系,并生成新颖且能够靶向这些界面的化合物。同时,GENiPPI 在有限的PPI界面调节剂条件下,依然能够生成结构多样性丰富的化合物。值得注意的是,这是首个专注于PPI界面的基于结构的分子生成模型,其设计思路有望显著推动PPI调节剂的研发。这一基于PPI界面的分子生成框架不仅拓宽了现有基于结构(结合位点/界面)分子生成模型,也为靶向PPI界面的药物开发提供了新思路。

基因之间通过蛋白-蛋白相互作用(PPIs)构成了一个庞大的网络,这些相互作用是几乎所有生物过程中不可或缺的组成部分,广泛存在于各种生物体和生物路径中。调控PPIs不仅扩大了药物靶点的范围,还在药物研发中展现了巨大潜力。在人类中,交互体的规模估计在几十万到几百万对二元PPIs之间。尽管付出了巨大努力,开发针对PPI靶点,尤其是PPI界面的调节剂仍面临巨大挑战。

基于结构的理性设计在识别药物发现中的先导化合物方面起着至关重要的作用。然而,传统药物靶点与PPI靶点在生化特性上表现出显著差异,常规药物与PPI调节剂在物理化学和类药性质上也存在显著不同(表1)。鉴于这些差异,为不同药物靶点开发适配的分子生成模型成为设计针对不同靶点药物的关键。

表1. PPI 界面与蛋白结合位点之间的比较

生成式人工智能(AI)能够模拟训练样本的分布,并生成具有新颖性的样本。在药物发现领域,生成式AI通过生成具有理想特性的分子,加速了药物研发的进程。药物设计中的分子生成模型大致分为三类:基于配体的分子生成模型(LBMG)、基于结构的分子生成模型(SBMG,聚焦于结合口袋或结合位点)和基于片段的分子生成模型(FBMG)。其中,SBMG模型因其针对性的特点受到了广泛关注。然而,尽管基于结构的分子生成模型已有许多研究,但针对PPI结构或界面的分子生成模型仍鲜有报道。

在本研究中,研究人员开发了GENiPPI,一种基于结构的条件分子生成框架,用于生成靶向蛋白-蛋白相互作用界面的调节剂。该框架首先利用图注意力网络(GATs)捕捉蛋白复合物界面中微妙的原子级相互作用特征;然后,通过卷积神经网络(CNNs)提取化合物在体素和电子密度空间中的表示。接着,条件Wasserstein生成对抗网络(cWGAN)将这些特征整合,用于训练能够生成靶向PPI界面化合物表示的模型。最后,CNN模块与LSTM网络将分子嵌入解码为SMILES字符串。该框架旨在捕捉PPI界面与活性/非活性化合物之间的关系,从而训练出特定于PPI界面的条件分子生成模型。条件模型的评估结果显示,GENiPPI框架能够有效捕捉PPI界面与活性化合物之间的隐含关系,生成具有类药性质且与特定PPI靶点活性化合物相似的化合物。在性能方面,GENiPPI在生成分子的创新性、多样性和有效性上均优于其他生成模型。此外,在少样本分子生成实验中,GENiPPI成功生成了靶向Hsp90-Cdc37相互作用的化合物,其化学特性与已知的干扰剂相似,即使在有限的标注数据条件下依然表现出色。总之,GENiPPI为基于结构的PPI调节剂设计提供了有效的解决方案。

图 1. 靶向 PPI 界面的分子生成框架GENiPPI

结果和讨论

靶向PPI界面的分子生成

本研究提出了GENiPPI,一种模块化深度学习框架,用于基于结构的PPI调节剂设计(图1)。GENiPPI包含四个主要模块:

    图注意力网络(Graph Attention Networks, GATs)模块:用于对蛋白复合物界面进行表示学习,生成条件向量;

    卷积神经网络(Convolutional Neural Networks, CNNs)模块:用于捕捉调节剂的分子特征,作为主要输入;

    条件Wasserstein生成对抗网络(Conditional Wasserstein GAN, cWGAN)模块:利用条件向量和主要输入进行条件分子生成;

    分子字幕网络模块:将分子嵌入解码为SMILES字符串。

框架的分子生成流程包括以下四个步骤:

    PPI界面特征提取:GATs模块从蛋白复合物界面区域提取原子级相互作用特征,精准捕捉交互中至关重要的细微结构特性。

    分子特征编码:CNN模块在三维空间中对分子特征进行编码,结合体素和电子密度信息,确保分子结构的表示能够满足生成任务的需求。

    条件生成:cWGAN模块通过调控输入的蛋白复合物界面特征生成靶向PPI界面的化合物。cWGAN模块由三个核心部分组成:生成器:接受高斯随机噪声向量和蛋白复合物界面特征,生成分子嵌入空间中的向量;判别器:判断生成的分子嵌入是否对应于真实分子或生成分子;条件网络:评估分子嵌入是否与蛋白复合物界面特征相匹配。

    分子解码:分子字幕网络将分子嵌入解码为SMILES字符串。该网络包含一个处理分子嵌入的3D CNN和一个逐步解码嵌入为有效分子结构的LSTM(长短时记忆网络)。该步骤确保生成的分子设计可应用于后续药物设计研究中。

GENiPPI通过模块化设计,不仅能够生成靶向PPI界面的新型分子,还能提高分子生成的有效性和多样性,为PPI调节剂的药物开发提供了强有力的工具支持。

条件评估

为全面评估条件输入在面向蛋白复合物界面的条件分子生成模型中的有效性,我们对三个具有代表性的PPI靶点进行了详细分析:MDM2/p53、Bcl-2/Bax以及BAZ2B/H4。这些靶点因其高质量的标注数据以及在癌症生物学中的重要性而被选中。

对于每个PPI靶点,研究人员利用GENiPPI框架生成了10,000个有效分子,并计算了生成化合物的关键类药性指标,包括QED、QEPPI和Fsp³。这些指标分别是评估类药性、靶向PPI的类药性和分子复杂性的重要标准。分析的目标是确定生成分子与已知活性化合物的类药性特征匹配程度,并评估条件输入对生成过程的影响。

随后,研究人员比较了针对MDM2/p53、Bcl-2/Bax和BAZ2B/H4的活性化合物与生成化合物的QED、QEPPI和Fsp³分布(图2)。结果表明,生成化合物的类药性分布与所有三个PPI界面靶点的活性化合物高度相似。这表明源自PPI界面特征的条件输入在引导生成过程向生物学相关化合物方向发展方面起到了关键作用。

图 2. 条件评估结果

有趣的是,不同PPI靶点生成化合物的类药性分布表现出了差异。例如,MDM2/p53和Bcl-2/Bax在界面结构和结合热点上存在显著差异,这可能导致生成化合物在QEPPI和Fsp³特征上的不同分布。这些结果强调了条件生成框架的特异性,它能够根据目标PPI界面的独特特征调整分子生成过程,确保生成的分子与各个PPI靶点的独特特征相匹配。

通过独立t检验,研究人员比较了每个PPI靶点的活性化合物与生成化合物在QED、QEPPI和Fsp³指标上的均值差异(图3)。结果显示,在不同指标上,活性化合物与生成化合物之间存在统计学显著性差异。例如,对于MDM2/p53和Bcl-2/Bax,在QED和QEPPI指标上观察到显著差异,表明活性化合物在类药性和靶向PPI的类药性方面更优,而Fsp³分布则较为相似。然而,在BAZ2B/H4的案例中,活性化合物和生成化合物在QED和QEPPI值上表现出相似性,仅在Fsp³指标上存在显著差异。这些结果表明,尽管生成化合物在类药性指标(尤其是QED和QEPPI)上能够接近活性化合物,但分子复杂性(Fsp³)可能因PPI靶点的不同而有所变化。

图 3. 在三个 PPI 靶点上,生成化合物和活性化合物的 QED、QEPP 和 Fsp³ 值的独立 t 检验比较。

此外,与训练数据集相比,生成化合物的类药性特征发生了显著的分布变化,表明GENiPPI框架不仅仅是复制已知分子的分布,而是生成了在保持类药性的同时探索新化学空间的化合物。这种在已知类药性特性范围内创新的能力是成功生成模型的重要特征,能够为发现潜在更有效或更优化的PPI调节剂提供可能性。

化学空间探索

为了更全面地评估模型生成分子与训练数据集中活性化合物在化学空间中的分布,研究人员通过计算MACCS指纹的t-SNE图对生成化合物的化学类药性空间进行了分析。t-SNE是一种常用的降维方法,通过将高维数据映射到低维空间来可视化数据点分布。该方法能够聚类相似化合物,从而清晰展示生成化合物与已知活性化合物在化学空间中的占据情况。

通过t-SNE可视化生成化合物与活性化合物在化学类药性空间中的分布,研究发现生成的类药性化合物不仅与活性化合物共享化学空间,还在二维空间中均匀分布(图4)。这表明,GENiPPI框架能够生成占据与已知活性调节剂相同类药性空间的分子,进一步验证了模型生成可行药物候选物的能力。此外,在二维拓扑指纹下,生成化合物展现出与活性化合物类似的化学类药性空间,表明生成模型能够有效捕捉分子关键的拓扑特征,这些特征对类药性至关重要。

然而,仅依赖二维表示可能不足以全面评估类药性,尤其是对于PPI调节剂而言,往往需要更复杂的三维特征来实现有效结合。为此,研究人员对生成化合物进行了主惯性矩(PMI)形状分析,并与DrugBank和iPPI-DB中的类药性化合物进行比较(图4d)。分析结果显示,许多已批准的化合物呈现出棒状或盘状形状,而生成的类药性化合物在三维形状分布上与已知化合物相似。这些形状特征通常对靶向PPI界面的空间互补性至关重要。此外,PMI形状分析表明,模型能够生成具有合理三维特征的化合物,这些特征与已知类药性分子的形状一致,进一步验证了生成过程的稳健性。

研究人员还评估了生成化合物的最佳拟合平面(PBF)得分,这一参数描述了分子骨架偏离平面的程度。生成库的PBF分布范围为0~2 Å(图4e),表明许多生成的类药性化合物源于相对平面的分子骨架。

图 4. 化学空间探索。

此外,研究人员通过化学空间图评估了模型生成PPI靶点特异性化合物的能力。利用Tree MAP(TMAP)生成二维投影(图4f),其中每个点表示一个化合物,不同颜色对应不同靶点标签,深色和浅色分别代表生成化合物和活性化合物。结果显示,GENiPPI模型不仅能生成与训练集中活性化合物相似的分子,还能引入新颖结构。总体而言,该框架丰富并扩展了PPI靶向类药性化合物的化学空间。

小样本分子生成

由于数据采集成本高昂,生物医学领域通常仅能获得少量标注数据,这对药物设计与优化带来了挑战。数据稀缺往往会削弱深度学习框架在药物设计中的实际表现,因此解决有限标注数据下的分子生成问题成为少样本生成研究的重点。少样本学习旨在通过少量样本进行模型训练,同时能够有效泛化到新任务,这在新PPI靶点的药物发现中尤为重要,因为实验验证的分子数量通常有限。

GENiPPI框架被用于生成靶向Hsp90-Cdc37相互作用界面的虚拟化合物库。以Hsp90-Cdc37的PPI结构(PDB ID: 1US7)为基础,并使用7种已知破坏剂的数据对模型进行训练,成功生成了500个有效化合物。通过t-SNE投影图可视化Hsp90-Cdc37活性破坏剂与生成化合物的化学空间相似性,发现生成分子主要聚集在活性破坏剂的化学空间周围。这表明,即使在有限的训练数据下,少样本学习能够有效探索靶向化学空间,并生成与已知活性破坏剂结构相似的分子。

为了进一步评估生成化合物的化学相关性,研究人员以一种新型三嗪衍生物DCZ3112为基础进行基于药效团的匹配分析。结果显示,生成的前5个化合物在药效团和形状特征上与DCZ3112相似,表明模型成功学习了破坏Hsp90-Cdc37相互作用所需的关键特征,即使输入数据有限。

随后,通过分子对接进一步验证模型性能。参考已有研究中识别的PPI界面关键热点残基(PDB ID: 1US7),对DCZ3112与Hsp90-Cdc37复合物的结合位点进行了分子对接模拟,并分析了氢键、盐桥等关键蛋白-配体相互作用模式。对GENiPPI生成化合物的对接结果显示,这些化合物不仅获得了比活性化合物更高的对接评分,还再现了与关键残基的核心相互作用。此外,生成分子还形成了额外的卤键、盐桥和π-阳离子相互作用,这些新型相互作用可能进一步增强了与目标PPI界面的结合亲和力。

图 5. 小样本分子生成分析。

结论

本研究中,研究人员开发了GENiPPI框架,该框架结合PPI界面特征与条件分子生成模型,生成了靶向PPI界面的新型调节剂。通过广泛的条件评估实验,研究人员验证了GENiPPI框架学习PPI界面与活性分子之间隐含关系的能力,并展示了其生成化学多样性高且具有生物学相关性的分子的能力。GENiPPI的核心创新之一在于利用图注意力网络(GATs)从PPI界面中提取细粒度的原子级相互作用特征,使模型能够聚焦于传统药物设计方法难以靶向的关键“热点”区域。此外,通过引入条件Wasserstein生成对抗网络,模型能够在分子生成中施加特定约束,确保生成的分子不仅具有结构新颖性,还符合PPI靶点的类药性要求。研究人员的对比基准测试和多种实验表明,GENiPPI在合理设计PPI药物方面具有实际应用潜力。

尽管结果令人鼓舞,但该框架仍存在一些限制,需要加以改进以提升其性能和适用性:

    泛化能力的测试不足:模型尚未在大量PPI受体-配体对中进行广泛测试,这可能限制其泛化能力。这一局限性源于与传统药物靶点数据集相比,药物-PPI靶点复合物数据较为稀缺。

    缺乏3D结构信息:当前框架未充分纳入配体-受体相互作用的三维结构信息。

    表示学习与生成多样性:在表示学习、平衡训练速度和提升生成分子多样性方面仍有改进空间。

潜在改进方向

为了进一步改进GENiPPI及其在PPI靶向药物发现中的应用,可以从以下几个方向展开:

    数据质量与多样性:收集和清洗更多高质量的PPI受体-配体复合物数据对,提高数据的多样性和准确性,从而增强模型对新靶点的泛化能力。

    结合化学语言模型:整合分子化学语言模型和蛋白-蛋白结构特征的预训练模型,对PPI受体-配体数据集进行微调,从而提升模型生成分子的创新性与多样性。

    整合三维结构信息:将基于片段的分子生成模型与三维结构信息相结合,以增强对PPI界面复杂三维特征的捕捉能力。

    深度强化学习优化:通过修改模型架构或结合深度强化学习优化生成分子。定义如最大化结合亲和力或改善药代动力学特性等具体目标,让强化学习代理逐步优化生成分子以实现更理想的药物特性。

未来,研究人员将聚焦于将先进的表示学习方法与深度生成模型相结合,进一步增强GENiPPI框架的性能和适用性。

整理 | WJM

参考资料

Wang, J., Mao, J., Li, C. et al. Interface-aware molecular generative framework for protein–protein interaction modulators. J Cheminform 16, 142 (2024). 

https://doi.org/10.1186/s13321-024-00930-0

内容中包含的图片若涉及版权问题,请及时与我们联系删除