IT之家 2024年10月22日
英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达发布最新nGPT新架构,在保持模型稳定性和准确性的前提下,可将训练AI时间大幅缩短。该架构的秘诀是'超球面学习'概念,其通过将关键组件映射到超球面表面,确保模型各层平衡,还具有减少训练步骤、简化过程等优势。英伟达团队使用OpenWebText数据集测试,nGPT在速度和效率上均优于传统GPT模型,未来可能被整合进其他模型和架构。

🎈英伟达发布nGPT新架构,利用'超球面学习'概念,将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练中保持平衡,创造更稳定高效的学习过程。

💡nGPT不再直接对模型权重应用权重衰减,而是依赖学习到的缩放参数来优化模型在训练中的调整方式,减少了训练步骤。同时,此方法消除了对归一化技术的需求,使训练过程更为简单快速。

🚀英伟达团队用OpenWebText数据集进行测试,对于长达4000个tokens的文本输入,nGPT所需训练轮次远少于传统模型,显著缩短训练时间,且在速度和效率上均更优。

🌟nGPT将归一化和表示学习结合成统一框架,简化了模型架构,便于扩展和适应更复杂的混合系统,未来可能被整合进其他类型的模型和架构,开发更强大的AI系统。

IT之家 10 月 22 日消息,科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。

nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。

传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。

这种几何结构有助于创造更稳定高效的学习过程:

英伟达团队使用 OpenWebText 数据集进行测试,nGPT 在速度和效率上均优于传统的 GPT 模型。对于长达 4000 个 tokens 的文本输入,nGPT 所需的训练轮次远少于传统模型,显著缩短了训练时间。

nGPT 的一个关键优势是将归一化(normalization)和表示学习(representation learning)结合成一个统一框架,这种设计简化了模型架构,便于扩展和适应更复杂的混合系统。未来,nGPT 的方法可能被整合进其他类型的模型和架构,从而开发出更强大的 AI 系统。

IT之家附上参考地址

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

英伟达 nGPT 超球面学习 AI训练
相关文章