Cnbeta 07月09日 16:06
浙大推出“女娲”AI模型 破解基因组密码 全球领先
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

浙江大学郭国骥教授团队在《细胞》杂志上发表了关于基因组AI的重大突破。他们开发了多任务深度学习模型“女娲CE”(NvwaCE),该模型能够从基因组序列直接预测单细胞水平的调控序列图谱,为解读基因组信息提供了新途径。通过学习高质量的UUATAC-seq数据,该模型掌握了脊椎动物调控序列编码规则,并具备高泛化能力,能够预测未经训练物种的染色质可及性图谱。实验结果表明,“女娲CE”在预测合成突变对调控序列功能的影响和设计疾病治疗位点方面表现出色,为生命科学、医学和农学等领域带来了新的应用前景。

🧬“女娲CE”模型基于自主研发的超高通量超灵敏单核ATAC测序技术(UUATAC-seq)产生的高质量数据进行训练。UUATAC-seq技术为基因组AI模型提供了高质量的“教材”,从而提升了模型的预测准确性。

🔬“女娲CE”能够基于一维DNA序列预测单细胞中的染色质可及性水平,且具备高泛化能力。这意味着该模型不仅可以应用于训练数据所属的物种,还可以预测其他物种的染色质可及性图谱,拓展了应用范围。

💡“女娲CE”在实际应用中表现出色,超越现有基因组AI模型。它能够精准预测合成突变对谱系特异性调控序列功能的影响,并结合疾病表型设计治疗位点。例如,该模型成功预测了镰刀型贫血症的治疗性基因位点HBG1-68:A>G,并通过基因编辑实验验证了其有效性。

✅与其他同类模型相比,“女娲CE”基于高质量单细胞图谱数据,对几乎所有细胞类型实现了AUROC>0.90的预测准确率。这一高准确率表明了该模型在基因组预测方面的优越性。

浙江大学郭国骥教授团队在《细胞》杂志发表重要成果。他们开发多任务深度学习模型女娲CE(NvwaCE),实现从基因组序列到单细胞水平调控序列图谱的直接预测,在基因组AI领域取得重大突破。

基因组由DNA构成,包含编码蛋白质的序列及大量调控序列,二者共同决定生物体的复杂特征。自2003年人类基因组计划绘制出基因图谱后,对其中遗传信息的破译却不足10%。

AI的出现为解读基因序列提供了新途径,但基因组AI模型受数据质量制约。

郭国骥团队基于自主研发的超高通量超灵敏单核ATAC测序技术(UUATAC-seq),为基因组AI模型训练打造了高质量“教材”。

通过学习UUATAC-seq产生的高质量数据,该模型掌握了脊椎动物调控序列编码规则,可基于一维DNA序列预测单细胞中的染色质可及性水平,且具备高泛化能力,能预测未经训练物种的染色质可及性图谱,其对人类调控元件可及性的预测与实验测量相关性良好。

在实际应用中,“女娲CE”表现出色,超越现有基因组AI模型,可精准预测合成突变对谱系特异性调控序列功能的影响,还能结合疾病表型设计治疗位点。

团队通过基因编辑实验,验证了“女娲CE”预测的镰刀型贫血症治疗性基因位点HBG1-68:A>G,经基因治疗后胎儿血红蛋白表达量显著提升,这是世界首例由人工智能设计的人类疾病治疗位点。

相比国外同类模型,“女娲CE”基于高质量单细胞图谱数据,对几乎所有细胞类型实现了AUROC>0.90的预测准确率。

未来,“女娲CE”将在生命科学、医学和农学等领域发挥重要作用,助力全面解读基因组语言、建立数字生命模型。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

女娲CE 基因组AI UUATAC-seq 单细胞 基因编辑
相关文章