DRUGAI
本文介绍一篇浙江大学侯廷军教授团队和碳硅智慧联合在化学领域权威期刊Chemical Science上发表的论文《Unlocking comprehensive molecular design across all scenarios with large language model and unordered chemical language》,提出了一种基于片段的无序简化分子输入行输入系统(FU-SMILES),并构建了全场景分子生成大模型FragGPT。实验结果表明,FragGPT可以有效地应用于药物设计的不同场景,有助于药物化学家进行药物从头设计和结构优化。

基于深度学习的分子生成方法可以利用先进的计算技术针对蛋白靶标产生具有全新结构的候选苗头分子或对已有的苗头分子进行结构优化。近年来,大规模通用自然语言模型的发展取得了显著进展,这些模型通过预训练和微调方法,在不同领域中表现出显著的效果。传统的基于自回归语言模型的分子生成方法通常使用SMILES或SELFIES进行逐字生成,遵循从左到右的顺序。然而,这类方法经常会遇到曝光偏差,即后续原子生成的精确性与前面的片段紧密相关,导致潜在的误差累积。此外,它缺乏处理诸如Linker设计等分子设计任务的能力。为应对这一挑战,本研究引入了一种名为FU-SMILES(unordered simplified molecular-input line-entry system based on fragments)的新型分子表示法,它能够捕捉分子片段之间的断点,促进它们无缝整合成完整的分子。FU-SMILES摆脱了传统的从左到右的顺序表示,使上下文能够结合分子任何部分的片段细节。以FU-SMILES为基础,作者提出了FragGPT,一种创新性且全面的基于片段的药物设计大语言模型。通过使用FU-SMILES,FragGPT能够巧妙地解决涉及分子补全的任务,并有效减轻了逐原子生成所固有的误差累积问题,从而提高了分子构建的效率。同时为了应对实际药物挑战,作者利用近端策略优化算法来指导模型在特定案例研究中进行微调。实验结果表明,FragGPT在分子的全新设计、Linker设计、R基团设计、PROTAC设计、侧链优化和骨架跃迁等任务中有着优异的表现。
FragGPT模型框架
图1中详细描述了FragGPT的整体工作流程。首先,将分子转化为FU-SMILES格式。具体而言,通过使用BRICS算法,将SMILES格式的分子表示进行分段,并加入标记以定义连接点。在分段完成后,进行数据增强,然后对每个片段进行拼接。在不同的下游任务中,采用低秩适配(LoRA)技术进行微调以降低计算资源的消耗。最终,在特定的药物设计场景中,模型使用PPO算法来优化生成分子的各种属性。

图1. FragGPT框架
FragGTP在从头设计的表现
从头设计是药物设计的基本任务之一。为此任务,作者在MOSES基准测试上与现有方法进行了评测。结果如表1所示,FragGPT在所有其他模型中在唯一性、新颖性和多样性方面表现尤为突出。这种表现可能源于其广泛的数据驱动训练,以及对全面且多样的分子表示和属性的充分利用。FragGPT在新颖性、IntDiv和SNN方面优于其他模型,进一步展示了其在生成新颖分子方面的有效性。相比之下,VAE和AAE在所有模型中表现出较弱的新颖性,这可能是由于其设计策略降低了潜在空间的维数,导致其与训练数据集的相似性较高但新颖性较低。
表 1. 各模型在分子从头设计任务中的表现。

FragGTP在Linker设计中的表现
对于Linker设计,作者系统地评估了FragGPT在三个基准数据集上的表现:ZINC、CASF和PDBbind,并采用了多种评价指标,包括有效性(validity)、唯一性(uniqueness)、新颖性(novelty)、合成可达性(SA)、惩罚的对数P(plogP)、药物相似性定量估计(QED)和恢复率。详细结果如表2所示。在有效性方面,FragGPT整体表现良好。在预训练和微调阶段均未进行价态检查的情况下,FragGPT通过自回归片段生成实现了超过90%的有效率。同时,FragGPT在所有数据集上生成的分子的新颖性都超过98%,在ZINC、CASF和PDBbind数据集上分别比第二好的模型高出了约50%、42%和9%,展示了其生成新颖分子和探索更广阔化学空间的卓越能力。然而,FragGPT在恢复率指标上表现相对较弱,与其他模型相比部分是由于片段标记和测试分子的特定连接之间的不匹配。然而,FragGPT即便在没有进行微调的情况下仍然实现了显著的恢复率,其恢复性能仅略低于PDBbind上的DEVELOP,表明了在恢复率和合理的训练数据分割策略之间的平衡。FragGPT在所有数据集上药物相似性属性表现优异,取得了最佳的SA、QED和plogP得分。这一成功归因于作者逐片段自回归生成分子的策略,避免了生成在化学上难以实现的结构,特别是在环状系统中。FragGPT在SA、QED和plogP得分方面的优异表现超过了所有其他逐原子生成模型,在所有测试集中体现了其在生成具有期望属性的分子方面的有效性。
表 2. 各模型在分子Linker设计任务中的表现。

FragGTP在R基团探索中的表现
作者使用CASF和PDBbind基准对FragGPT进行了评估,并将其性能与DeLinker和DEVELOP进行了比较。结果表明,由于R基团探索任务中的修改空间较小且使用的构建块相对较大,作者在CASF上的唯一性表现介于DeLinker和DEVELOP之间,而在PDBbind上略微落后于它们。在新颖性方面,FragGPT展示了强大的能力,生成的新颖分子超过95%,并在两个测试数据集中均超越了其他模型。特别值得注意的是,FragGPT的预训练模型在CASF测试数据集上达到了98.18%的新颖性,比排名第二的DeLinker高出43.08%。在恢复率方面,FragGPT的表现与其他模型相当。在CASF测试数据集上,FragGPT在R基团探索任务中的表现优于Linker设计任务(25.42%)。这种差异可能源于两种任务之间不同的链接方法。Linker设计需要考虑两个断点之间的连接,然后用生成的链接子片段将它们连接起来,而R基团探索只需要考虑一个断点的连接。即使提供相同的链接子片段,不同连接点生成的分子的不确定性可能导致在链接子设计任务中观察到较低的恢复率。
FragGTP在骨架跃迁的表现
作者在PDBbind测试数据集上对预训练模型FragGPT进行了评估,并将其与DiffHopp进行了比较。结果显示,DiffHopp在分子有效性方面表现最佳,达到91.4%,而FragGPT的分子有效性为85.30%,略低于DiffHopp,但明显优于DiffHopp-EGNN、GVP-inpainting和EGNN-inpainting。此外,FragGPT在唯一性和新颖性方面表现显著高于所有其他模型。
FragGTP在真实场景中的应用
作者结合强化学习应用FragGPT以解决四种现实场景中的具体分子设计挑战,包括Linker设计、R基团探索、骨架跃迁和PROTAC设计。主要目标是生成具有更高对接评分、QED和SA的分子,从而展示FragGPT的泛化能力。对于每个设计任务,作者设定了不同的目标,并使用四个真实参考分子进行比较分析。
图2展示了RL优化步骤的进展及每一步生成分子的对接评分、QED和SA的平均值。在所有任务中,随着FragGPT下的RL迭代,这三类分子性质均表现出一致的改进。在每个子图中,红色虚线代表参考分子的数值。在Linker设计任务中,RL被用来优化参考分子的Linker结构,以提升它们的三项性质。如图2(a)所示,通过RL,平均分子性质不断改善,最终达到与参考分子相当的性能。R基团探索任务涉及优化参考分子的R基团结构,以提升它们的三种性质。如图2(b)所示,通过RL,三种分子性质均持续增强,最终超过参考分子的数值。在骨架跃迁和PROTAC设计任务中,FragGPT表现出上佳性能。如图2(c-d)所示,模型生成的分子在对接评分和QED评分方面的提升比参考分子更为显著。考虑到PROTAC相比普通分子显著更长,在PROTAC设计案例中生成分子和参考分子的平均SA评分较其他三个案例均高。因此,SA评分的变化范围较小,在优化过程中占比相对较少。

图2. 平均分子性质与RL优化步骤进展的相关性。(a) Linker设计 (b) R基团探索 (c) 骨架跃迁 (d) PROTAC设计。曲线分别表示对接评分(红色)、QED(蓝色)和SA(绿色)的平均值。红色虚线表示参考分子的对应值。
基于上述结果,作者推测性能差异可能归因于每个任务与相应目标的相关性。如图3所示,在Linker设计和R基团探索案例中需修改的片段较小,因此,FragGPT生成的分子与参考分子在对接构象上非常相似,未改变的片段构象几乎相同。这一特性不仅与作者的初始设计保持一致,而且降低了分子性质优化的难度,从图2(a-b)中FragGPT在这两种情况下的RL表现可以看出这一点。在骨架跃迁案例中,生成的分子仍然占据着与参考分子相同的蛋白质口袋。但由于切割片段的方向不固定,生成分子结构之间的差异显著高于其他三种情况。这可能是此案例中分子性质更难预测或优化的原因。

图3. 参考分子和生成分子的对接构象。(a) Linker设计 (b) R基团探索 (c) 骨架跃迁 (d) PROTAC设计。浅蓝色构象为参考分子,而另外两种深蓝色构象为生成的分子。
讨论
本研究中,作者提出了一种新型分子表征 FU-SMILES,以及基于此表征的开创性药物设计综合大型语言模型 FragGPT。通过涵盖多种药物设计场景的测试实验,FragGPT 表现出卓越的功效、独特性和创新性。值得注意的是,FragGPT 生成的分子的 SA 和 QED 指标优于所有其他 SOTA 模型,凸显了其捕捉基本药物特征的能力。此外,作者模拟了现实世界的药物设计场景,并采用 RL 优化来设计与参考分子相比具有更优异性能的分子。这些发现凸显了 FragGPT 在生成具有化学上合理结构和所需特性的分子方面的能力,与预定义的优化目标一致。因此,FragGPT 成为一个统一而强大的分子生成框架,在各种应用中具有显著的实用性。
参考资料
J. Yue, B. Peng, Y. Chen, J. Jin, X. Zhao, C. Shen, X. Ji, C. Hsieh, J. Song, T. Hou, Y. Deng and J. Wang, Chemical Science, 2024, DOI: 10.1039/D4SC03744H.