IT之家 02月23日
中国科大突破图神经网络训练瓶颈,Capsule 系统性能提升 12 倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国科大苏州高等研究院DDL实验室在图神经网络(GNN)训练系统方面取得突破,其研究论文被SIGMOD 2025录用。针对现有GNN系统在大规模图数据上扩展性不足的挑战,团队提出了一种名为Capsule的核外GNN训练框架。该框架通过图划分和图裁剪策略,将训练子图结构及其特征完全放入GPU显存,消除了反向传播过程中CPU与GPU之间的I/O开销,显著提升了系统性能。Capsule还具备即插即用的特性,能够无缝集成至主流开源GNN训练框架中。实验表明,Capsule在内存占用更少的情况下,性能提升显著,为处理超大规模图数据的场景提供了新方案。

🚀DDL实验室针对现有GNN系统在大规模图数据上扩展性不足的挑战,创新性地提出了一种名为Capsule的核外GNN训练框架。

✂️Capsule框架的核心在于其图划分和图裁剪策略,该策略能够将训练子图结构及其特征完全放入GPU显存,有效消除了反向传播过程中CPU与GPU之间的I/O开销,从而显著提升系统性能。

🔗Capsule具备即插即用的特性,可以无缝集成到主流开源GNN训练框架中,方便研究人员和工程师快速应用和扩展。

📊实验结果表明,Capsule在仅使用22.24%内存的情况下,与现有最佳系统相比,性能提升高达12.02倍,为处理超大规模图数据的场景提供了全新的高效解决方案。

IT之家 2 月 23 日消息,2 月 11 日,中国科大苏州高等研究院医学影像智能与机器人研究中心 DDL 实验室宣布,团队在大规模图神经网络(GNN)训练系统方面的研究论文被国际知名学术会议 ACM International Conference on Management of Data(SIGMOD)2025 录用。

图神经网络(GNN)的主流训练框架,如 DGL 和 PyG,利用 GPU 的并行处理能力从图数据中提取结构信息,在推荐系统、自然语言处理、计算化学和生物信息学等领域展现出卓越性能。

尽管 GPU 在 GNN 训练中提供了强大的计算优势,但其有限的显存容量难以容纳庞大的图数据,因而现有 GNN 系统在大规模图数据上的扩展性方面仍面临挑战。

对此,DDL 实验室团队提出了一种新的核外(Out-of-Core)GNN 训练框架 ——Capsule,为大规模图神经网络训练提供了高效的解决方案。

与现有的核外 GNN 框架不同,该系统通过图划分和图裁剪策略将训练子图结构及其特征完全放入 GPU 显存之中从而消除了反向传播过程中 CPU 与 GPU 之间的 I/O 开销,进而显著提升了系统性能。

此外,Capsule 通过设计基于最短哈密顿回路的子图加载方式和流水线并行策略,进一步优化了性能。同时,Capsule 具备即插即用的特性,能够无缝集成至主流开源 GNN 训练框架中。在大规模真实图数据集上,Capsule 与现有最好的系统相比能够在仅使用 22.24% 的内存下带来最高 12.02 倍的性能提升,并提供了关于训练所得嵌入方差的理论上界。

这一成果标志着我国在图计算系统领域取得重要突破,为社交网络分析、生物医学图谱构建等需处理超大规模图数据的场景提供了全新解决方案。

IT之家附论文链接:
https://doi.org/10.1145/3709669

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

图神经网络 GNN Capsule 大规模图数据 中国科大
相关文章