浙江大学郭国骥教授团队在《细胞》杂志上发布重要成果,开发了多任务深度学习模型女娲CE(NvwaCE),实现了从基因组序列到单细胞水平调控序列图谱的直接预测,在基因组AI领域取得重大突破。该模型基于自主研发的超高通量超灵敏单核ATAC测序技术(UUATAC-seq)产生的高质量数据进行训练,掌握了脊椎动物调控序列编码规则,具备高泛化能力,可预测未经训练物种的染色质可及性图谱。女娲CE超越现有基因组AI模型,可精准预测合成突变对谱系特异性调控序列功能的影响,并结合疾病表型设计治疗位点,为镰刀型贫血症提供了治疗方案。
🧬 女娲CE模型的核心在于其强大的预测能力。该模型能够基于一维DNA序列预测单细胞中的染色质可及性水平,并且具备高泛化能力,即使是未经训练的物种,也能准确预测其染色质可及性图谱。这意味着该模型在不同物种间的应用具有广泛的潜力。
🔬 女娲CE模型依赖于高质量的数据。郭国骥团队基于自主研发的超高通量超灵敏单核ATAC测序技术(UUATAC-seq),为模型训练提供了高质量的数据基础。这些高质量数据使得模型能够更准确地学习基因组调控序列的编码规则。
💡 女娲CE模型在疾病治疗方面展现出巨大潜力。该模型可以精准预测合成突变对谱系特异性调控序列功能的影响,并结合疾病表型设计治疗位点。例如,通过基因编辑实验,验证了“女娲CE”预测的镰刀型贫血症治疗性基因位点,基因治疗后胎儿血红蛋白表达量显著提升,这是世界首例由人工智能设计的人类疾病治疗位点。
🌟 女娲CE模型在预测准确率上表现优异。相比国外同类模型,“女娲CE”基于高质量单细胞图谱数据,对几乎所有细胞类型实现了AUROC>0.90的预测准确率。这表明该模型在解读基因组语言方面具有显著优势。
快科技7月9日消息,浙江大学郭国骥教授团队在《细胞》杂志发表重要成果。
他们开发多任务深度学习模型女娲CE(NvwaCE),实现从基因组序列到单细胞水平调控序列图谱的直接预测,在基因组AI领域取得重大突破。
基因组由DNA构成,包含编码蛋白质的序列及大量调控序列,二者共同决定生物体的复杂特征。自2003年人类基因组计划绘制出基因图谱后,对其中遗传信息的破译却不足10%。
AI的出现为解读基因序列提供了新途径,但基因组AI模型受数据质量制约。
郭国骥团队基于自主研发的超高通量超灵敏单核ATAC测序技术(UUATAC-seq),为基因组AI模型训练打造了高质量“教材”。

通过学习UUATAC-seq产生的高质量数据,该模型掌握了脊椎动物调控序列编码规则,可基于一维DNA序列预测单细胞中的染色质可及性水平,且具备高泛化能力,能预测未经训练物种的染色质可及性图谱,其对人类调控元件可及性的预测与实验测量相关性良好。
在实际应用中,“女娲CE”表现出色,超越现有基因组AI模型,可精准预测合成突变对谱系特异性调控序列功能的影响,还能结合疾病表型设计治疗位点。
团队通过基因编辑实验,验证了“女娲CE”预测的镰刀型贫血症治疗性基因位点HBG1-68:A>G,经基因治疗后胎儿血红蛋白表达量显著提升,这是世界首例由人工智能设计的人类疾病治疗位点。
相比国外同类模型,“女娲CE”基于高质量单细胞图谱数据,对几乎所有细胞类型实现了AUROC>0.90的预测准确率。
未来,“女娲CE”将在生命科学、医学和农学等领域发挥重要作用,助力全面解读基因组语言、建立数字生命模型。