研究人员通过实验比较了 PRIME 与当前最先进模型在热稳定性上的 zero-shot 预测能力,其中包括了深度学习模型 ESM-1v、ESM-2、MSA-transformer、Tranception-EVE、CARP 、MIF-ST、SaProt、Stability Oracle,以及传统计算方法 GEMME 和 Rosetta。
研究人员使用了来自 MPTherm、FireProtDB 和 ProThermDB 的数据集,其中包含了在相同 pH 环境下收集的熔解温度变化 (ΔTm),并确保每个蛋白质至少有 10 个数据点,共有 66 项检测。同时,该研究还纳入了深度突变扫描 (DMS) 的检测方法,将 ProteinGym 用作测试基准。
结果如下图所示,PRIME 在预测蛋白质可用性和稳定性方面的表现均优于所有其他方法。
在 ProteinGym 基准测试中(下图中黄色),PRIME 的得分为 0.486,排名第二的 SaProt 得分为 0.457。在 ΔTm 数据集中(下图中深紫色),PRIME 仍然以 0.437 的得分位居榜首,第二名的得分为 0.412。此外,研究人员还在 ProteinGym 的子数据集 ProteinGym-stability 中(下图浅紫色)将 PRIME 与其他方法进行了比较,PRIME 仍然优于所有其他方法。
ΔTm 和 ProteinGym 数据集上的无监督模型基准测试
值得关注的是,为了检测 PRIME 在蛋白质工程实际应用中的有效性及效果,研究人员还进行了湿实验,选择了 5 种蛋白质进行验证,包括 LbCas12a、T7 RNA 聚合酶、肌酸酶、人工核酸聚合酶,以及一个特异性纳米抗体的重链可变区。
在 top 30-45 个单位点突变的实验检验中,超过 30% 的 AI 推荐单点突变体在关键性能,如热稳定性、酶促活性、抗原-抗体结合亲和力、非天然核酸聚合能力或者极端碱性条件下的耐受性等方面明显优于野生型蛋白,个别蛋白质的阳性率超过 50%。
PRIME 预测的 5 种蛋白质单位点突变体的结构和实验结果
值得一提的是,团队还基于 PRIME 还展示了一种高效的方法,可快速获得具备增强活性和稳定性的多位点突变体。通过这种小样本微调方法,在不到 100 个湿实验样本下,2-4 轮进化就能产生非常优异的蛋白质突变体。
例如 T7 RNA 聚合酶经过 4 轮干湿迭代,成功获得了具有高活性和高稳定性的多点突变体,最高的多点突变体 Tm 高出野生型 12.8℃,活性是野生的近 4 倍,且部分产品性能超越国际领先的生物科技公司 (New England Biolabs) 统治市场10年之久的同类产品。并且,在 LbCas12a、T7 RNA 聚合酶的实验中,Pro-PRIME 能将阴性单点突变叠加得到阳性多点突变。
这表明 PRIME 能够从序列数据中学习到蛋白质突变的上位效应,这对传统蛋白质工程意义重大。
在蛋白质工程领域,蛋白质的表达、纯化和功能测试通常需要昂贵的试剂、仪器,且实验耗时较长,这极大限制了可生成的样本数量。在蛋白质功能研究中,测试蛋白质突变对功能(如催化活性、热稳定性、结合亲和力等)的影响更加需要精确且复杂的实验,很难通过一次性高通量测量所有可能突变的性能。
这就使得机器学习模型难以在有限样本上获得足够的训练,导致模型在预测新突变时表现不佳,加之小样本数据中,实验误差或噪声可能对模型训练造成更大的干扰。可以说,小样本数据的挑战在一定程度上限制了蛋白质工程领域的研究效率及准确性。功过相伴,这也极大推动了研究人员探索创新技术,结合机器学习、实验技术和多模态数据分析等突破小样本的限制。
本文所述的研究团队便在这方面表现突出,除了上文提到的 PRIME 外,洪亮教授团队联合谈攀博士还曾面向小样本学习发布多项成果。
此前,该团队综合利用元迁移学习 (meta-transfer learning, MTL)、排序学习 (learning to rank, LTR) 和参数高效微调 (parameter-efficient fine-tuning, PEFT),开发了一种能在数据极度匮乏的情况下,有效优化蛋白质语言模型的训练策略 FSFP,可用于蛋白质适配性的小样本学习,在使用极少湿实验数据的情况下,极大地提高传统蛋白质预训练大模型在突变-性质预测的效果,在实际应用中也显示出了巨大的潜力。
相关研究以「Enhancing efficiency of protein language models with minimal wet-lab data through few-shot learning」为题,发表在 Nature 旗下 Nature Communications。
此外,洪亮教授也曾分享过相关观点,他认为「未来 3 年,在蛋白设计、药物研发、疾病诊断、新靶点发现、化学合成路径设计以及材料设计等领域,专业领域的通用人工智能将带来明确的范式变革,将过去依靠人脑零星试错的科学发现模式,转变为 AI 大模型自动化标准设计模式」。
具体变革包括了构建零样本或者小样本学习方法,以及构建预训练技术模型,在没有数据的情况下,则通过物理模拟器产生精度略低的大量假数据来做预训练,再用真实珍贵的数据进行微调,完成强化学习。
洪教授强调,「假数据指非真实世界的数据,但有一定的可靠度,它可以是 AI 生成的,也可以是物理计算模拟得来进行数据增强,最后真实的湿实验数据最为宝贵,用于模型的最终微调」。
诚然,数据稀缺挑战其实不仅存在于蛋白质工程领域,小样本、甚至是零样本学习方法至关重要,期待洪亮教授团队及谈攀博士围绕这一痛点带来更多高质量成果。