机器之心 2024年12月02日
美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Prime Intellect团队通过去中心化方式,利用全球30位贡献者和112台H100 GPU,历时42天训练了一个100亿参数规模的大语言模型INTELLECT-1,并开源了模型、代码、数据等资源。这是首个以去中心化方式训练的10B大模型,证明了大规模模型训练不再是大型公司的专属。该模型基于Llama-3架构,在1万亿token数据集上训练,使用了PRIME去中心化训练框架,并经过监督微调和直接偏好优化等后训练步骤。尽管模型能力与Llama、Qwen等开源模型仍有差距,但其去中心化训练的创新性使其成为AI领域的一次重要尝试,也展现了未来AI发展的可能性。

🚀 **去中心化训练:**INTELLECT-1由30位贡献者、112台H100 GPU分布在全球5个国家进行训练,证明了大规模模型训练可以采用去中心化、社区驱动的方式进行,不再局限于大型公司。

📚 **模型架构与数据集:**基于Llama-3架构,拥有42层、4096隐藏维度等参数,在包含FineWeb-Edu、Stack v2等1万亿token的数据集上进行训练,训练过程持续了42天。

⚙️ **PRIME训练框架:**采用了Prime去中心化训练框架,该框架基于OpenDiLoCo,并进行了优化,支持容错训练、计算资源动态分配以及全球分布式GPU网络的通信和路由,显著提高了训练效率。

🔄 **后训练提升能力:**模型经过监督微调(SFT)、直接偏好优化(DPO)等后训练阶段,进一步提升了模型的整体能力和特定任务表现,例如文本理解和生成能力。

💡 **未来发展目标:**Prime Intellect计划继续扩大全球计算网络、激励社区参与,并优化PRIME框架,最终目标是实现开源AGI。

关注AI的 2024-12-02 12:19 北京

30 位贡献者,112 台 H100 GPU,用时 42 天。

机器之心报道

编辑:佳琪、Panda


11 月 22 日,Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。




Prime Intellect 表示,相比此前的研究,INTELLECT-1 实现了 10 倍的规模提升。这一突破证明,大规模模型训练已不再是大公司的专利,通过去中心化的、社区驱动的方式同样可以实现。


他们的下一步计划是将模型进一步扩展到前沿规模,最终目标是实现开源 AGI。这一点在其在线 Demo 的模型选项中已有暗示 —— 其中包含开放推理模型甚至 AGI 和 ASI 的潜在选项。看起来这确实是一个雄心勃勃的团队。



模型发布后,虽也有质疑声音,但 AI 社区总体上还是给出了非常积极的肯定。



机器之心也用几个经典问题简单尝试了其在线 Demo 版本的模型。


首先是经典的草莓问题,INTELLECT-1 一开始答对了,但继续提问就又变成了常见的错误答案。



该模型也具备还不错的文本理解能力,但总体而言和 Llama 和 Qwen 等前沿开源模型还有所差距。



下面我们看看它的汉语能力。从多次测试的结果来看,这个模型的汉语能力并不好,并且幻觉现象似乎也挺严重的,比如下图中,即使该模型暂时并不具备读取链接的能力,也会根据上下文强行作答。



不管怎样,INTELLECT-1 都是 AI 历史上一次颇具开创性的实验。下面我们就来看看这个系统是如何炼成的。


大规模去中心化训练


Prime Intellect 的这场去中心化训练的规模其实相当大,涉及到 3 个大洲的 5 个国家,同时运行了 112 台 H100 GPU。



全球 30 位贡献者的基本信息


该团队表示:「我们在各大洲实现了 83% 的总体计算利用率。当仅在分布于整个美国的节点上进行训练时,实现了 96% 的计算利用率。与中心化训练方法相比,开销极小。」


这样的结果表明 INTELLECT-1 在存在严重的带宽限制和节点波动的情况下,依然能维持训练收敛性和高计算利用率,这昭示了一种新的可能性:能够以去中心化、社区驱动的方式训练出前沿的基础模型!


一万亿 token 的训练过程,这里给出了训练过程中损失、困惑度、训练速度等信息


训练细节与数据集


INTELLECT-1 基于 Llama-3 架构,它包含:




模型在经过精心筛选的 1 万亿 token 数据集上训练,数据构成如下:


数据集 Huggingface 链接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu




模型训练持续了 42 天,采用了以下技术:




从训练过程的监控图表可以看出,PRIME 系统表现出色:即使参与训练的机器数量经常变化(从最少 4 台逐渐增加到最多 14 台),整个训练过程依然保持稳定,充分证明了系统的可靠性。


训练动态图展示了整个训练过程中模型困惑度和学习率的变化,包括预热阶段、稳定阶段和退火阶段。


Prime:一个去中心化训练框架


该团队使用的训练框架名为 Prime,这基于他们开发的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前开发的 Distributed Low-Communication(DiLoCo)方法。


项目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo


在此之前,Prime Intellect 已经在 1B 参数规模上实验了去中心化 AI 模型训练。该团队表示:「这让我们到达了我们的 masterplan 的第三步:合作训练用于语言、智能体和科学的开放式基础模型。」


Prime Intellect 的 masterplan


相比于之前开源的 OpenDiLoCo,Prime 有两大关键提升。


一是在算法方面,他们在 OpenDiLoCo 上执行了许多消融研究,发现还能进一步降低通信要求。值得注意的是,他们将伪梯度的 int8 量化与每 500 步进行一次的外部优化器同步相结合,从而将带宽要求降低了多达 2000 倍。这些结果不仅在较小规模下是有效的,该团队也将它们扩展到了更大的模型。


在具体的大规模扩展方面,我们知道,去中心化训练既是工程挑战,也是研究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示,Prime 这种全新的去中心化训练框架支持容错训练,支持计算资源的动态开启/关闭,还能优化全球分布式 GPU 网络中的通信和路由。


Prime 中用于容错训练的 ElasticDeviceMesh 的拓扑结构


该团队在博客中写道:「该框架构成了我们开源技术堆栈的基础,其目标是支持我们自己的算法以及 OpenDiLoCo 之外的其他去中心化训练算法。通过在此基础架构上构建,我们的目标是突破全球分布式 AI 训练的极限。」


具体来说,Prime 框架包含以下关键特性:



计算效率


虽然训练散作满天星,但计算效率仍保持「聚是一团火」的高水准:在美国境内集群部署时,计算资源利用率高达 96%(中位数同步延迟仅 103s);跨越大西洋的部署场景下依然维持在 85.6% 的优异水平(中位数同步延迟 382s);即便是在全球分布式节点配置下,计算利用率也能稳定保持在 83%(中位数同步延迟 469s)。



这一系列亮眼的数据充分证明了该去中心化训练框架的容错性和扩展性,不仅能够从容应对不同地理位置的网络延迟挑战,更在确保训练稳定性的同时实现了高效计算。


后训练


在完成分布在全球的预训练阶段后,Prime Intellect 与 Arcee AI 合作开展了一系列后训练,以提升 INTELLECT-1 的整体能力和特定任务表现。主要包含三个阶段:



更多信息请查看详细技术报告:



论文链接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf


未来计划:长期目标是 AGI


INTELLECT-1 的成功让我们看到了去中心化训练的巨大潜力。至于如何将开源的 PRIME 框架扩展到目前动辄 70B 的规模呢?Prime Intellect 提了三点规划:



在博客结尾,Prime Intellect 写道:「为了防止 AI 能力被少数组织垄断,我们诚邀全球 AI 社区通过 GitHub 或 Discord 加入我们。让我们携手共建一个更开放、更具协作性的 AI 发展未来。」



参考链接:

https://www.primeintellect.ai/blog/intellect-1-release

https://app.primeintellect.ai/intelligence

https://www.primeintellect.ai/blog/intellect-1


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

INTELLECT-1 去中心化训练 大语言模型 10B参数 开源AGI
相关文章