中山大学团队联合多家机构,基于国产智算芯片,成功研发出全球规模最大的单细胞基础大模型CellFM。该模型整合了超过1亿人类单细胞数据,构建了8亿参数的深度学习框架,在生物表征学习和跨数据集泛化能力上取得显著突破。CellFM的发布为生命科学研究提供了新的范式,尤其是在精准医疗和药物研发方面,展现出巨大的潜力,是国产芯片训练大模型的成功案例,相关研究成果已发表于《Nature Communications》。
🧬 CellFM模型依托国家超算广州中心“天河星逸”超算系统的计算能力,基于国产智算芯片构建。
🔬 该模型整合了超过1亿人类单细胞数据,数据规模是同类模型的2倍以上。
🧠 CellFM拥有8亿参数的深度学习框架,参数量是同类模型的8倍以上,在生物表征学习和跨数据集泛化能力上取得重大突破。
💡 CellFM为精准医疗和药物研发提供了智能化新引擎,是国产芯片训练大模型的一个成功案例。
📚 相关研究成果已发表于国际顶尖学术期刊《Nature Communications》。
IT之家 5 月 22 日消息,单细胞大语言模型通过解码细胞的“分子语言”,为揭示生命奥秘和疾病机制提供了全新范式。然而,现有模型受限于数据规模与算力瓶颈,性能难以实现质的飞跃。
针对这一挑战,中山大学杨跃东教授团队联合重庆大学、华为、新格元生物科技,依托国家超算广州中心“天河星逸”超算系统的计算能力,基于国产智算芯片成功研发出全球规模最大的单细胞基础大模型 CellFM。

该模型创新性地整合了超 1 亿人类单细胞数据(规模达同类 2 倍以上),构建了 8 亿参数的深度学习框架(参数量超同类 8 倍),在生物表征学习和跨数据集泛化能力上取得重大突破。
5 月 20 日,相关成果成功发表于国际顶尖学术期刊《Nature Communications》,CellFM 是国产芯片训练大模型的一个成功案例,也是我国生物智能计算领域的重要研究进展,为精准医疗和药物研发提供了智能化新引擎。

IT之家附论文和代码地址:
https://www.nature.com/articles/s41467-025-59926-5
https://github.com/biomed-AI/CellFM