

交叉学科
Interdisciplinary


2025年4月11日,西北大学束东与新泽西理工学院杜梦楠教授,以及多所顶尖高校的研究团队合作,在Cell Press细胞出版社旗下期刊 Patterns 在线发表题为“Aligning Large Language Models and Geometric Deep Models for Protein Representation”的研究论文。本研究首次系统性地探讨了大型语言模型(LLMs)与几何深度模型(GDMs)在蛋白质领域的表示对齐问题,提出了一系列可复制、可拓展的对齐优化策略,为构建高性能的蛋白质多模态建模系统奠定了坚实基础。

▲长按图片识别二维码阅读原文
研究背景
随着多模态大型语言模型(MLLM)在自然语言处理和计算生物学领域的迅猛发展,越来越多融合蛋白质序列与结构信息的多模态模型相继问世。而不同模态间的表征对齐(representation alignment)质量,直接决定了这些模型在下游任务中的表现。
本研究从模型架构和蛋白质特性两个角度出发,系统探索了影响表征对齐的关键因素。基于实证分析与发现,研究团队进一步提出多项有效的对齐优化方案。最后构建蛋白质多模态模型,在实际下游任务中验证所提出的理论框架与策略的有效性。

主要成果
本研究系统评估了三种主流LLMs(Gemma2-2B, LLaMa3.1-8B, LLaMa3.1-70B)与四种GDMs(GearNet, ScanNet, GAT, GVP)的对齐表现,从模型角度、蛋白质角度进行了深入分析,取得了如下重要发现:
融合图结构与3D结构信息的GDM(如ScanNet与GearNet)与LLM对齐效果最佳。
更大规模的LLM(如LLaMa3.1-70B)具有更强的对齐能力。
高对齐性能的模型组合之间表现出较强的相关性(correlation)。
蛋白质的“稀有性”与“同质性”显著影响对齐效果,成为当前对齐性能的主要瓶颈。

基于上述发现,研究团队提出并实证了一系列优化对齐的有效策略:
提升GDM的表征维度,可增强与LLM的对齐效果。
采用两层线性投影头可以显著提升对齐质量,相比单层结构效果更优。
对LLM进行蛋白质领域微调,可增强其对结构信息的理解,从而提高对齐效果。
对稀有蛋白引入“重加权”机制,缓解样本不均问题,提高对齐质量。

研究团队构建了基于不同LLM-GDM组合的蛋白质多模态模型,并在蛋白质描述生成任务中进行性能评估,验证了对齐质量对实际任务的重要影响:
对齐性能越高的模型组合,在ROUGE与BLEU指标上的表现也越优。
对齐质量高的模型生成内容的幻觉现象显著减少,更加可靠。
通过检索增强(RAG)机制辅助稀有蛋白,进一步提升了模型在此类蛋白上的表现。

作者简介

该研究由 Northwestern University(西北大学)、University of Pittsburgh(匹兹堡大学)、Michigan State University(密歇根州立大学)、North Carolina State University(北卡罗来纳州立大学)以及 New Jersey Institute of Technology(新泽西理工学院)联合团队共同完成。
论文作者包括:Dong Shu(第一作者,西北大学)、Bingbing Duan(匹兹堡大学)、Kai Guo(密歇根州立大学)、Kaixiong Zhou(北卡州立大学)、Jiliang Tang(密歇根州立大学)、Mengnan Du(通讯作者,新泽西理工学院)。

相关论文信息

相关论文发表在CellPress细胞出版社旗下期刊Patterns上,点击“阅读原文”或扫描下方二维码查看论文

▌论文标题:
Aligning Large Language Models and Geometric Deep Models for Protein Representation
▌论文网址:
https://www.sciencedirect.com/science/article/pii/S2666389925000753
▌开源代码发布:
https://github.com/Tizzzzy/LLM-GDM-alignment
▌arXiv网址网址:
https://arxiv.org/pdf/2411.05316
▌DOI:
https://doi.org/10.1016/j.patter.2025.101227
▲长按图片识别二维码阅读原文

Patterns现已加入Cell Press MJS多刊审稿!Cell Press Multi-Journal Submission(点击查看)的前身Cell Press Community Review模式于2021年推出。对于通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的作者,我们将提供稿件被多本期刊同时考虑的机会。超过80%通过Cell Press Multi-Journal Submission“多刊审稿”模式投稿的文章获得了至少一个或多个期刊的评审。
CellPress细胞出版社
内容中包含的图片若涉及版权问题,请及时与我们联系删除