隐秘口袋(cryptic pockets)在药物发现和蛋白-配体相互作用中具有重要意义。这类口袋通常在蛋白质中不存在或被遮蔽,只有在特定条件下或通过构象变化时才会暴露出来。当蛋白的主要功能位点缺乏足够的效力或靶向特异性时,隐秘口袋可提供可成药的替代位点。隐秘口袋能增强药物的选择性,并优化药物的结合能力。因此,对隐秘口袋的研究对推动药物研发具有深远影响。

近日,贵州大学药学院的董雅雯研究团队以及精细化工研究开发中心郝格非研究团队在《Drug Discovery Today》上发表综述文章。该文章系统总结并分析了当前用于隐秘口袋识别的先进计算方法。为展示这些方法的实际应用价值,还以TEM-1 β-内酰胺酶为案例进行了研究。

背景

在药物发现与设计过程中,识别隐秘口袋至关重要。可通过多种方法识别蛋白结构中的隐秘口袋,包括结构生物学技术计算方法实验方法如半胱氨酸捕获、X射线衍射和核磁共振(NMR)已被用于检测隐秘口袋。然而,这些方法存在局限性,包括假阴性结果、分子量限制以及高昂的成本。相比之下,计算方法如分子动力学模拟、支持向量机以及图神经网络提供了快速而高效的隐秘口袋检测手段。此外,人工智能的迅速发展进一步提升了计算方法在识别隐秘口袋方面的精度、效率和性价比,从而使研究人员更容易且更高效地发现隐秘口袋。

本综述全面介绍了用于识别隐秘口袋的前沿计算策略及其在药物发现中的应用。探讨了隐秘口袋的结构特征、动态形成过程及其生物学功能,接着系统评估了现有的计算检测方法,分析各自的能力与局限性。为体现其现实应用价值,以TEM-1 β-内酰胺酶为案例,详细展示了这些方法在隐秘结合位点识别中的成功实践,并对不同方法的性能进行了对比。目标是为研究人员提供可操作的见解,帮助其利用这些计算工具推进隐秘口袋在药物开发中的探索与应用。

隐秘口袋

隐秘口袋具有以下三种特征(图1a):(1)隐藏性(Hidden):这类口袋在蛋白质无配体(apo)状态下通常难以被发现。(2)瞬态性(Transient):隐秘口袋的形成与蛋白质在短时间尺度内发生的构象变化密切相关,使得这些口袋在特定条件下短暂存在,随后迅速闭合。(3)柔性(Flexible):能根据环境或功能需求动态调整其形状和大小,其中部分口袋在进化过程中保持保守。这些特性使得隐秘口袋在蛋白功能调控中具有重要作用,同时为药物设计提供潜在结合位点,尽管它们的识别仍然具有挑战性。

图1 隐秘口袋特性、形成机制及功能

隐秘口袋的形成涉及蛋白质构象的变化,主要通过以下四种机制实现(图1b):(1)侧链移动机制(Side-chain movement)中,结合位点附近的主链保持不变,但一个或多个侧链在未结合结构中向结合位点突出,导致口袋闭合。(2)环区重排机制(Loop rearrangement)则是在未结合状态下的环区伸入结合位点,阻碍配体结合,进而导致隐秘口袋的闭合。(3)二级结构位移机制(Secondary structure displacement)表现为二级结构与结合位点之间距离过近或过远,导致隐秘口袋闭合或形成效果不佳。(4)结构域运动机制(domain motions)是指蛋白质不同结构域之间的相对运动,隐秘口袋位于两个结构域之间,其形成或闭合受结构域运动的影响。上述四种机制共同促成了隐秘口袋的产生,对其识别和药物设计具有重要意义。

隐秘口袋可以用于通过别构机制调节蛋白活性,提供可成药口袋,并帮助克服耐药性(图1c)。当小分子与这些远离蛋白主功能位点的口袋结合时,能够以别构方式调节蛋白功能,实现抑制或增强作用。此外,当蛋白质本身难以作为药物靶点时,隐秘口袋可作为潜在成药位点,扩展了可靶向蛋白的范围。利用隐秘口袋理论上可将人类蛋白组中的可成药靶点数量扩大近一倍。同时,隐秘口袋的靶向也可用于应对耐药性问题。当靶蛋白的活性位点发生突变导致耐药性时,隐秘口袋可作为替代靶点实现理性药物设计。综上,隐秘口袋在药物设计中具有关键作用,为药物研发提供了创新路径。

方法比较

基于分子动力学方法

由于时间尺度限制(通常为皮秒至纳秒级),在常规分子动力学(MD)模拟中检测隐秘口袋具有挑战性。为此,研究者发展了多种先进的MD计算方法:

(1)MixMD:利用少量有机溶剂分子作为探针分布在蛋白表面,用于识别和绘制隐秘口袋。这些探针不仅能识别蛋白构象,还能诱导其变化,从而在apo状态下发现并稳定原本不可见的隐秘口袋。例如,Gerard等人提出了一种基于MixMD的新策略,使用苯作为疏水性探针来揭示隐秘口袋。此外,配体竞争饱和位点识别法(SILCS)将探针扩展为八种不同的小分子,在MD模拟过程中,这些探针竞争性地结合蛋白,通过生成三维概率图来反映不同官能团与蛋白表面的相互作用,从而识别隐秘口袋。

(2)增强采样模拟(Enhanced sampling simulation):通过多种策略提高模拟效率以识别隐秘口袋。该方法可分为依赖集体变量(CV-dependent)和非依赖集体变量(CV-independent)两类。依赖CV方法如:偏势动力学(metadynamics)、umbrella sampling、牵引式MD(steered MD),它们通过定义系统坐标的函数(如蛋白折叠或配体结合过程)来描述感兴趣的物理过程。非依赖CV方法则采用其他机制提升采样效率,不依赖预定义的变量,如并行回火(parallel tempering)、构象诱导扰动(RIP)、以及基于缩放哈密顿量的水界面采样方法(SWISH)。

(3)马尔可夫状态模型(MSM):将蛋白构象空间划分为多个离散状态(即微观状态,microstates),这些状态由原子间距离或角度等特征定义。该方法通过分析MD模拟轨迹并计算状态间的转移概率矩阵,从而揭示蛋白的自由能景观。通过识别低能态中特定构象特征的状态,MSM能够检测隐秘口袋的形成和开启。例如,Bowman等人利用MSM识别出了TEM-1 β-内酰胺酶的多个隐秘口袋。

图2 识别隐秘口袋方法图

基于AI方法

基于AI的方法利用多种机器学习算法构建预测模型,用于定位隐秘口袋的位置。

(1)SVM模型:通过分析蛋白的序列、结构和动态特征进行训练,利用已知隐秘口袋的信息预测蛋白中的潜在隐秘位点。特征提取过程中会评估残基的进化保守性、表面性质和蛋白柔性,并整合MD模拟数据以捕捉构象变化。最终,SVM模型通过区分隐秘口袋区域和非口袋区域,实现对新蛋白中隐秘口袋的预测。例如,CryptoSite是一种自动化的SVM预测模型,具有较高的准确性(ROC-AUC=0.83),可识别超过96%的隐秘结合位点。该模型结合了MD模拟以揭示蛋白的动态特征,通常可在约1天内识别出隐秘口袋。另一种方法,SILCS-Hotspots同样基于SVM模型,对蛋白表面和内部的潜在结合位点进行打分与排序。该方法通过预测能够容纳类药物分子的区域,有效识别隐秘口袋。

(2)图神经网络(GNN)模型:将蛋白质结构表示为图数据,并采用几何向量感知层以捕捉残基间复杂的空间关系。该模型从MD模拟中提取的训练数据中学习,基于节点特征和边特征预测可能形成隐秘口袋的关键残基。例如,PocketMiner是一个用于预测蛋白结构中隐秘口袋位置的GNN模型。它可在保持较高准确性的同时(ROC-AUC=0.87),实现比传统方法快1000倍的预测速度。

(3)深度等变生成模型:利用深度学习技术与等变几何扩散网络来识别隐秘口袋。这些模型构建了一个平滑的能量景观,以促进蛋白在不同平衡态之间的高效转换。系统以无配体蛋白结构为初始输入,迭代调整蛋白和配体的构象,优化结合位点,同时适应蛋白结构的动态变化。例如,DynamicBind是一个面向动态对接的几何深度生成模型,能够处理蛋白发生大构象变化的情形,同时精确识别新靶点中的隐秘口袋。

两类方法比较

在隐秘口袋识别中,基于MD的方法与基于AI的方法在原理和表现方面各有优势与限制(表1)。两者的关键差异在于其识别隐秘口袋的原理:MD方法通过分子动力学模拟观察蛋白质构象变化,以识别隐秘口袋;AI方法则通过收集隐秘口袋数据并训练预测模型来进行预测。

表1 方法比较

MD方法在识别隐秘口袋方面具有高准确性和可靠性,可提供详尽的口袋形成机制及动态行为信息。然而,其也存在诸如:时间尺度有限、采样困难、计算成本高、操作复杂及需处理复杂数据等问题,这些因素限制了其在大规模、快速筛选中的应用能力。

相较之下,AI方法在识别隐秘口袋方面的优势包括计算成本低、处理速度快、操作简便,更适合进行大规模蛋白的快速筛选。然而,AI方法同样存在高度依赖训练数据、泛化能力有限等问题,这可能导致其在预测与训练数据差异较大的蛋白时准确性下降。

在实际应用中,MD与AI方法可形成互补:可首先通过AI方法进行大规模快速筛选,识别潜在的隐秘口袋候选位点;随后,再采用MD方法对这些候选进行深入验证,探究其形成机制与动态行为。无论是MD方法还是AI方法,在识别隐秘口袋方面各有所长。通过策略性地结合使用这两类方法,研究者能够更高效地识别与利用隐秘口袋,为药物发现和生物分子研究提供坚实支撑。

应用实例

TEM-1 β-内酰胺酶广泛存在于革兰氏阴性菌中,是抗生素耐药的关键酶类。实验研究已揭示该蛋白中存在两个隐秘口袋:一个位于螺旋H10和H11之间,另一个位于Ω-loop区域。作为隐秘口袋研究的经典模型,TEM-1 β-内酰胺酶被广泛用于前沿研究中以表征这些口袋。为更直观地展示上述方法在预测隐秘口袋方面的优劣,以TEM-1 β-内酰胺酶为模型,测试了六种预测策略。对这些方法的比较分析为未来隐秘口袋预测方法的开发提供了重要指导。

图3 识别隐秘口袋方法比较及案例分析

(1)MixMD方法。CrypticScout为代表性案例进行分析。识别出了四个高概率热点区域(图3a(1)),这些区域靠近TEM-1 β-内酰胺酶的已知隐秘口袋。尽管该方法在隐秘口袋预测中表现出较高准确性,但由于苯分子在靶点之外的强结合,仍可能导致假阳性。不过,在TEM-1 β-内酰胺酶的案例中未观察到假阳性结果。

(2)增强采样模拟方法。SWISH为例进行分析。研究结果表明,位于螺旋H10和H11之间的隐秘口袋被准确映射,并与实验验证位点一致(图3a(2))。此外,该方法还精准定位了埋藏的隐秘口袋(L286),以及其他实验验证位点,如靠近残基A232、S203、关键催化位点S70,以及此前预测的F151和T266等位点。SWISH方法在隐秘口袋的识别中表现出极高的准确性,并可通过与已知信息对比及探针密度图的差异分析,有效区分假阳性结果。

(3)MSM方法。采用了Bowman等人提出的策略进行分子动力学模拟,随后使用MSMBuilder构建了MSM,用于阐明蛋白在各构象状态间的动态转换过程。最终成功发现了TEM-1 β-内酰胺酶中的三个隐秘口袋:其中一个与已知口袋重叠,另外两个为新识别位点(图3a(3))。该方法能够有效捕捉蛋白的构象变化,并用于隐秘口袋的识别。

(4)SVM方法。选用了CryptoSite作为案例研究。该模型成功预测出TEM-1 β-内酰胺酶apo构象中一个不可被溶剂接触的隐秘口袋(图3a(4)),该口袋与已知的隐秘口袋(位于H10与H11螺旋之间)高度一致。结果表明,该方法在提高隐秘口袋预测准确率的同时,亦降低了计算成本。

(5)GNN方法。PocketMiner为例探讨GNN模型的应用。预测结果表明,TEM-1 β-内酰胺酶最可能存在隐秘口袋的区域包括螺旋H10、螺旋H11和Ω环区域,这与实验确认的隐秘口袋位置一致(图3a(5))。这一结果说明,PocketMiner能够快速准确地预测蛋白质apo态中隐秘口袋的位置。

(6)深度等变生成方法。DynamicBind为例,该模型专为蛋白-小分子复合物结构的高效采样与打分而设计。在TEM-1 β-内酰胺酶的动态对接实验中,该小分子与已验证的TEM-1 β-内酰胺酶别构配体CBT表现出类似的相互作用,对接位置和姿态也高度相似(图3a(6))。结果表明,DynamicBind能够有效识别TEM-1 β-内酰胺酶中的隐秘口袋,并给出相对理想的对接结果。

尽管上述方法均能有效识别TEM-1 β-内酰胺酶的隐秘口袋,但在时间效率、计算成本、操作便捷性和准确性方面存在显著差异(图3b)。基于MD的方法通常需要较长时间来完成动力学模拟,且对计算资源的依赖较高,从而降低了操作的便利性。相比之下,基于AI的方法在时间和计算资源消耗以及操作简便性方面具有明显优势。AI方法通常配套提供在线平台或开源代码与预训练模型,计算资源需求较低,提升了可操作性。在准确性方面,AI方法不仅可以预测潜在的隐秘口袋区域,还能对这些区域进行优先级排序;而MD方法通常只能预测隐秘口袋的大致位置,且可能出现假阳性结果。尽管如此,MD方法是通过模拟蛋白质构象变化进行预测,因此更适用于研究隐秘口袋的形成机制。总之,AI方法更适合对大量蛋白靶标进行初步筛选,而MD方法则更适用于候选靶标的验证及形成机制研究。然而,选取TEM-1 β-内酰胺酶作为案例蛋白来评估不同方法识别隐秘口袋的效果也存在一定局限性,因为该蛋白未必具有代表性,该研究结果尚不能推广至更广泛的蛋白家族。

展望

未来研究可进一步探索将AI技术应用于MD方法中,以减少模拟所需时间与计算资源投入。例如,AI可用于优化MD的采样过程,以及分析其产生的大量数据。AI与MD的融合将显著加快隐秘口袋识别速度、降低计算成本,并保持预测的准确性。一旦隐秘口袋被识别,可进一步借助基于结构的药物设计方法(如虚拟筛选)基于片段的药物设计对其进行开发与应用。具体而言,虚拟筛选能够从化合物库中迅速筛选出对隐秘口袋具有高亲和力的配体。通过初步实验验证后,可对活性更高的分子进行结构优化和作用机制研究。同时,借助高通量筛选技术,可从大规模的小分子片段库中筛选出能结合隐秘口袋的片段,并进一步优化其结合能力,或通过片段拼接策略将多个片段组合,构建出具有更高亲和力的化合物。通过上述方法的综合应用,有望实现对隐秘口袋的理性开发与有效利用,进而发现具有潜在药用价值的新型分子。

参考链接:

https://doi.org/10.1016/j.drudis.2025.104430

--------- End ---------

内容中包含的图片若涉及版权问题,请及时与我们联系删除