IT之家 04月14日 11:58
我国团队研发,全球首个基因挖掘大模型 SYMPLEX 问世
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国科学院深圳先进技术研究院团队开发了全球首个面向合成生物学元件挖掘的大语言模型——SYMPLEX。该模型通过融合领域大语言模型训练、专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件,并精准评估其工程化应用潜力。研究团队将SYMPLEX应用于mRNA疫苗生物制造关键酶——加帽酶的挖掘,成功获得多种高性能新型加帽酶,其催化效率超越国际头部企业商业化加帽酶2倍以上,显著提升了mRNA疫苗生产率和成本效益。SYMPLEX在线交互式平台已上线供研究人员免费使用。

🧬 SYMPLEX模型的核心在于其结合了领域大语言模型训练、合成生物专家知识对齐和大规模生物信息分析。这种融合使它能够从海量文献中自动化挖掘功能基因元件,并精准评估其工程化应用潜力。

🔬 研究团队将SYMPLEX应用于mRNA疫苗生物制造关键酶——加帽酶的挖掘。结果表明,该模型成功获得了多种高性能新型加帽酶,这些酶的催化效率超越了国际头部企业New England Biolabs(NEB)商业化加帽酶2倍以上。

💡 SYMPLEX智能基因挖掘平台创造性地将大型语言模型(LLM)与结构化生物知识库深度融合,能够自动化阅读和理解千万级体量的生物学文献,并与专家数据库进行概念对齐、交互和基于先进生物信息技术的统计模式生成,从而提供高质量候选基因集合。

🌐 SYMPLEX平台提供三个核心功能:文献智能提取引擎PubEngine,支持高通量的文献智能检索分析与可视化交互;基因功能标注系统GeneTagger,实现细粒度自动化基因与功能提取;标准化知识中枢GeneNorm,实现与专家知识库的概念对齐与标准化,支持知识树构建和功能模式识别。

IT之家 4 月 14 日消息,随着生物测序技术突破,全球天然基因库已积累数十亿量级序列,其中蕴藏海量高价值功能基因。然而,当前仅有少数明星基因被深度挖掘,绝大多数仍处于“沉睡”状态。

4 月 9 日,中国科学院深圳先进技术研究院定量合成生物学全国重点实验室、合成生物学研究所娄春波团队与北京大学定量生物学中心钱珑团队合作在国际学术期刊 Science Advances 上发表研究论文,报道了全球首个面向合成生物学元件挖掘与生物制造应用的大语言模型 ——“SYMPLEX”,并将 SYMPLEX 模型应用于 mRNA 加帽酶基因的挖掘,展示了大语言模型赋能生物制造的巨大潜力。

该模型通过融合领域大语言模型训练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件,并精准评估其工程化应用潜力

研究团队将 SYMPLEX 应用于 mRNA 疫苗生物制造关键酶 —— 加帽酶的挖掘,成功获得多种高性能新型加帽酶。第三方公司实验验证显示,这些酶在催化效率上超越国际头部企业 New England Biolabs(NEB)商业化加帽酶 2 倍以上,显著提升了 mRNA 疫苗生产率和成本效益。

研究团队创造性地将大型语言模型(LLM)与结构化生物知识库深度融合,开发出 SYMPLEX 智能基因挖掘平台。

SYMPLEX 是强大的功能基因搜索引擎,通过自动化阅读和理解千万级体量的生物学文献,在基因、功能和知识水平上提取分析文献内容,并与专家数据库进行概念对齐、交互和基于先进生物信息技术的统计模式生成,从而提供证据链完整的高质量候选基因集合。

SYMPLEX 不仅有效规避了大语言模型幻觉,还能自动生成基因功能相关的细粒度知识树,引导科学家探索广泛的生物机制和分子过程。

▲ SYMPLEX 大模型的技术路线及其与传统基因挖掘流程对比

对比结果表明,SYMPLEX 大模型在挖掘基因的深度、数量和多样性上均显著优于传统生物信息学方法,其挖掘的基因多样性也超越了现有蛋白质功能预测模型的边界。

▲ SYMPLEX 挖掘结果多样性对比和细粒度知识树生成

目前,SYMPLEX 在线交互式平台已上线供研究人员免费使用。平台采用模块化设计,提供三个核心功能:

IT之家附论文链接:

https://www.science.org/doi/full/10.1126/sciadv.adt0402

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SYMPLEX 大语言模型 生物制造 基因挖掘
相关文章