三愿 2024-10-12 08:30 浙江
2024年10月9日,国际三大顶刊CNS(Cell、Nature、Science)之一《Cell》杂志发表了阿里云与中山大学合作取得的重大科研成果《Using Artificial Intelligence to Document.....
这是2024年的第77篇文章
( 本文阅读时间:5分钟 )
2024年10月9日,国际三大顶刊CNS(Cell、Nature、Science)之一《Cell》杂志发表了阿里云与中山大学合作取得的重大科研成果《Using Artificial Intelligence to Document the Hidden RNA Virosphere》。不仅是阿里集团的第一篇CNS正刊文章,也是中国互联网科技公司第一篇《Cell》正刊文章。《Cell》代表着生命科学领域的最高水平之一,国内每年入选《Cell》的论文数量仅有数十篇。基于阿里云的云计算与AI大模型技术能力,我们提出了一种基于深度学习的RNA病毒鉴定与发现方法LucaProt,是深度学习算法在病毒发现领域的里程碑式进展。
图1 Cell Online
本研究,中山大学-侯新博士、阿里云-贺勇为共同第一作者,阿里云-方攀、阿里云-许赞等深度参与。中山大学-施莽教授、阿里云-李兆融、悉尼大学-Edward Holmes教授为共同通讯作者。
LucaProt(https://github.com/alibaba/LucaProt)用于对RNA病毒的鉴定与新的RNA病毒的发现。
使用LucaProt对大规模生物环境样本进行预测,发现了:
1)180个RNA病毒超群;
2)16万余种全新RNA病毒,相当于已知病毒种类的近30倍;
3)有史以来最长的RNA病毒,其长度为47,250核苷酸。
对结果进一步分析发现了超出以往认知的病毒基因组结构,展示了RNA病毒基因组进化的灵活性。LucaProt不仅能够覆盖传统方法的发现,更为可贵的是还包括传统研究方法未能发现的病毒“暗物质”,极大扩展了全球RNA病毒的多样性。这一突破标志着深度学习算法在病毒发现领域的里程碑式进展,为病毒学研究开创了全新范式。
图2 LucaProt Workflow
病毒是地球生态系统的重要组成部分,与人类的健康密切相关。本世纪发生的几次大流行背后的主角都是RNA病毒,包括2002年SARS病毒与2020年的新冠病毒等,严重影响了人类的健康与生活。
到目前为止,我们对病毒知之甚少,目前已知的病毒种类只是病毒圈的冰山一角。致力于构建更精准与更高效病毒鉴定与发现的新方法,一直是病毒学基础性研究工作,能够极大的促进人类对自然的认识,帮助人类更好的适应自然并与之和谐共处。
图3 与人类密切相关的一些病毒形态
传统的RNA病毒鉴定方法高度依赖于序列同源性比对,即通过将未知核酸序列与已知病毒的核酸序列进行序列比对,当相似度超过经验化的阈值则判断是。然而,RNA病毒由于生命体构造简单而种类繁多且高度分化,这种方法难以捕捉那些缺乏序列同源性的“暗物质”病毒,因此难以突破已有的“已知”框架束缚。
众所周知,基于数据驱动的AI能力能够高效而精准地对数据隐含的深层的知识与特征进行挖掘,从而能够带来从“已知”中寻找“未知”的突破。LucaProt便是基于目前最流行的Transformer框架与大模型表征技术,从已知的病毒数据中进行学习,利用Transformer学习其病毒特定信息与利用大模型技术提取其通用特征,将这两种特征进行结合来进行RNA病毒的模型构建与识别。在独立测试数据集上表现优异,具有极高的准确性(假阳性率仅为0.014%)和特异性(假阴性率为1.72%)。
图4 LucaProt 模型架构
图5 LucaProt效果对比
使用“LucaProt”对来自全球各种生物环境(包括多个极端环境,如南极底泥、深海热泉、活性污泥和盐碱滩等)的10,487份采样样本的数据进行病毒大规模RNA病毒挖掘,共发现了513,134个病毒基因组,代表161,979个潜在病毒种及180个RNA病毒超群(相当于物种分类树的门或纲的分类级别)。
该结果将RNA病毒超群数量扩容约9倍,病毒种类增加约30倍。其中23个超群无法通过多种传统方法发现,被称为病毒圈的“暗物质”。对于不同的环境中,在落叶层、湿地、淡水和废水环境的病毒多样性最高;而在极端环境中的RNA病毒多样性和丰度并不低,甚至在高温的深海热泉等对RNA不利的环境中,RNA病毒仍然在活跃复制。进一步,针对LucaProt新发现的“暗物质”,我们从多个角度验证了它们的可靠性,包括多种生信数据分析技术与实验方法。
图6 LucaProt 新发现
图7 LucaProt发现的RNA病毒无处不在
总之,基于AI + 病毒学为框架的新研究方法,极大促进与刷新了人们对病毒圈的认知。不仅有助于人类更好地对未来可能的大流行进行预警;同时随着人类对病毒认识的完善,进一步帮助人类进行病毒疫苗研发。科学偏向于认识世界以及对自然现象进行解释,技术偏向于改造世界以及对实际问题进行解决。科学与技术深入融合,创造无限可能。
从小的来说,LucaProt是以后RNA病毒发现非常重要的一个工具,并且随着病毒数据积累的越来越多,可以在此基础上增量训练,进一步发现更多缺乏序列同源性的“暗物质”病毒。
从大的来说,AI已经逐渐成为生命科学领域,甚至其他自然科学领域非常重要的研究方法与手段。今年诺贝尔物理学奖颁给两位人工智能领域的先驱与大拿Geoffrey Hinton与John Hopfield。说明AI逐渐成为了自然科学中一种主流方法,AI(我们) for(云计算) Science(科学问题)正当其时。
该项研究,得到了现任的阿里云的多位总裁与几位前阿里云资深算法专家的鼎力相助,包括:现任阿里云智能集团副总裁-叶杰平;现任阿里云智能副总裁-曾震宇;前阿里云资深算法专家-李楠;前阿里云资深算法专家-张顺等;同时也得到了多位院士与研究专家的大力支持,包括:中国工程院院士、阿里云创始人、之江实验室主任-王坚院士;中国工程院院士、中国疾控中心传染病溯源预警与智能决策全国重点实验室主任-徐建国院士;上海生物信息技术研究中心主任、广州国家实验室-李亦学研究员等。
关于我们
隶属于阿里云智能-飞天实验室-AI4Science团队(Luca Team),团队拥有多位资深的生物、计算机等专业人才。我们以构建“生物基础大模型”为目标,基于生物基础大模型与多个顶级研究团队进行合作解决生物科学领域的实际问题。在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne、RNA病毒发现-LucaProt、磷循环蛋白家族识别-LucaPCycle等研究成果。
[01] Cell Online
https://www.cell.com/cell/fulltext/S0092-8674(24)01085-7
[02] LucaProt开源
https://github.com/alibaba/LucaProt
[03] 与人类密切相关的一些病毒形态
https://www.news-medical.net/health/What-is-a-Virus.aspx
[04] 阿里云智能-飞天实验室-AI4Science团队主页
欢迎留言一起参与讨论~