IT之家 5小时前
解锁任意模态 AI 模型训练,字节跳动 Seed 开源 VeOmni 框架
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动Seed团队开源了全模态PyTorch原生训练框架VeOmni,旨在解决大模型技术从单一文本向图像、语音、视频等多种模态演进过程中面临的系统性工程挑战。VeOmni采用模型为中心的分布式训练方案,将并行逻辑与模型计算解耦,使研究员能像搭积木一样高效组合全模态模型并进行训练,大幅降低工程开销,将开发时间从数周缩短至几天,工程耗时压缩达90%以上。实验证明,该框架可支持300亿参数的全模态MoE模型在128张卡上实现2800 tokens/sec/GPU的训练吞吐量,并支持超长上下文序列。

🌟 VeOmni是字节跳动Seed团队发布的全新全模态PyTorch原生训练框架,专注于解决大模型在融合图像、语音、视频等多模态信息时的工程化训练难题。该框架的核心优势在于其“模型为中心”的分布式训练设计,能够将复杂的分布式并行策略与模型计算本身清晰地分离,极大地简化了研究人员为全模态模型设计高效并行训练方案的过程,如同搭积木一般直观易用。

🚀 VeOmni显著提升了全模态模型的训练效率和扩展性,大幅缩短了工程开发周期。与传统的“系统为中心”框架(如Megatron-LM)相比,使用VeOmni训练全新架构的视觉-语言模型,工程研发时间可从通常需要一周以上缩短至一天,工程耗时压缩幅度高达90%以上。这使得研究团队能更快地进行模型迭代和优化,加速了全模态大模型的研究进展。

📈 框架的性能表现优异,能够支持大规模全模态模型的训练。例如,在VeOmni框架下,一个拥有300亿参数、支持文本、语音、图片、视频理解与生成能力的全模态MoE模型,能够在128张GPU卡上实现超过2800 tokens/sec/GPU的训练吞吐量,并且能够轻松扩展以处理长达160K的超长上下文序列,这为构建更强大、更通用的AI模型奠定了坚实基础。

💡 VeOmni已完全开源,包括其论文和代码仓库,并且在GitHub上获得了超过500个Star,表明其技术方案受到了社区的广泛关注和认可。研究人员和开发者可以自由地访问和使用这一框架,进一步推动全模态大模型技术的发展和应用。

🛠️ 该框架为研究员提供了极大的便利,使他们能够更专注于模型本身的设计和创新,而无需花费大量精力在底层的分布式训练系统搭建和优化上。这种“解耦”的设计理念,将工程实现的复杂性隐藏在框架内部,让全模态模型的研发门槛大大降低,加速了AI技术的落地和普及。

IT之家 8 月 14 日消息,字节跳动 Seed 团队今日发布并开源了全模态 PyTorch 原生训练框架 ——VeOmni

近年来,大模型技术正从单一文本模态,向包含图像、语音、视频等多种信息的“全模态”(Omni-Modal)理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型,依然面临着系统性的工程挑战。

字节跳动介绍称,VeOmni 采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天

此前,使用 Megatron-LM 等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于 Infra 工程团队的经验积累。而使用 VeOmni 只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩 90% 以上

实验结果表明,基于 VeOmni 框架,一个 300 亿参数的全模态 MoE 模型(支持文本、语音、图片、视频的理解和生成),在 128 张卡上训练吞吐量可超过 2800 tokens / sec / GPU,并能轻松扩展至 160K 超长上下文序列

目前,VeOmni 的相关论文和代码仓库均已对外公开,GitHub Star 数超过 500。IT之家附开源地址:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VeOmni 全模态 AI训练框架 字节跳动 大模型
相关文章