火山引擎AML 2025-05-14 18:02 重庆
DiT 模型与推理挑战
近年来,扩散模型(Diffusion Models)在生成式人工智能领域取得了突破性进展,尤其是在图像和视频生成方面表现卓越。基于 Transformer 的扩散模型(DiT, Diffusion Transformer)因其强大的建模能力和高质量输出,成为学术界和工业界的研究热点。DiT 模型通过逐步去噪的过程,从随机噪声生成逼真的图像或视频帧,结合 Transformer 架构的全局建模能力,能够捕捉复杂的语义特征和视觉细节,广泛应用于文本到图像、文本到视频、视频编辑等场景。
然而,DiT 模型在推理过程中面临诸多挑战,主要体现在计算效率、显存占用、模型架构复杂性及多模态融合等方面。这些痛点限制了 DiT 模型在实际场景中的部署和应用,尤其是在对实时性和资源效率有要求的生成任务中。
计算量大
模型多样
实时性需求
火山引擎 veFuser 推理框架解决方案
为应对 DiT 模型推理的挑战,字节跳动依托自身强大的技术研发实力,精心构建了基于扩散模型的图像与视频生成推理服务框架 VeFuser,旨在提供低延迟、低成本的高质量图片与视频生成体验。
图片生成:低端硬件上的高效推理
veFuser 针对硬件资源的优化极为出色,即使在配备 24GB 显存的低端 GPU 上,也能高效运行当前主流的图像生成模型,如 FLUX.1-dev(12B) 和 HiDream-I1-Full(17B)。与开源实现相比,veFuser 将推理时间缩减了 83%,极大提升了生成效率。在 FLUX.1-dev 模型上,出图时间只需 3 秒;在 HiDream-I1-Full 模型上,出图时间只需 13 秒。这一性能突破不仅显著提升了用户体验,还通过降低对高端硬件的依赖,减少了部署和运营成本,提供了更具性价比的生成式 AI 解决方案。
视频生成:实时体验的先锋
在视频生成任务中,veFuser 展现了无与伦比的实时性能。针对某 14B 开源视频生成模型,veFuser 在 32 卡集群上可实现 16 秒延迟生成 5 秒 480p 视频的极致体验。若扩展至百卡集群,veFuser 甚至能实现 5 秒生成 5 秒视频的实时生成效果,接近实时渲染的行业前沿水准。这种低延迟特性为短视频、直播、虚拟现实等高实时性场景提供了强大支持。
veFuser 核心优势降低计算复杂度与延迟
攻克模型架构异构性难题
突破实时性与扩展性限制
多 Lora 动态切换
Lora(Low Rank Adaptation)是内容生成任务中一个常用的插件能力,能够很好地控制生成内容的风格模式。然而,频繁地切换Lora往往会带来较高的开销。因此,veFuser 针对这一通用能力,实现了多 LoRA 动态切换功能,基于用户请求实现近乎无感的风格切换体验。
精度无损
通过严格的 GSB(Good - Same - Bad) 评测,veFuser 确保速度提升不会牺牲输出质量。无论是图像还是视频生成,veFuser 始终保持与传统框架相当或更优的生成效果,实现速度与品质的完美平衡。
图1 veFuser 产品架构
veFuser 性能优势
I2V (Image to Video,图生视频)性能相较于业内 SOTA 水平延时降低 50% 左右,480P 每 infer-steps 平均 1.8 秒,720P 每infer-steps 平均 5 秒。
T2V (Text to Video,文生视频)性能相较于业内 SOTA 水平延时降低 60% 左右,480P 每 infer-steps 平均 1.5 秒,720P 每 infer-steps 平均 4 秒。
图2 I2V 延时分布(D卡)
图3 T2V 延时分布(D卡)
A800图4 I2V 和 T2V 延时分布(A800)
H20图5 I2V 和 T2V 延时分布(H20)
L20借助 veFuser 对 CFG 并行的支持,即便 D 卡不具备 RDMA 网络,也能够达成近乎 TCO 无损的 16 卡并行效果,为计算任务提供高效且稳定的运行环境。
图6 T2V 延时分布(D卡)
多机延迟 - A100图7 T2V 延时分布(A100)
多机扩展加速比如图8所示,从 8 卡到 32 卡可以实现近乎线性的加速比,在极大减少延迟的前提下,TCO 基本不变。
图8 VeFuser 扩展性评估(on A800x8)
按照当前的理论拓展性,当推理卡数增加到 128 张 A800 后,实际生图速度(蓝线)与实时生图所需速度(黑线)重合,如图9所示。表示在这个设置下,理论上可以实现视频生成时间小于等于视频的时间,达到实时生视频的效果。
图9 VeFuser 扩展性评估 - 视频生成任务 - 480P(on A800)
FLUX.1 & HiDream 文生图任务-单机性能图10 模型生图速度(D卡)
L20图11 模型生图速度(L20)
veFuser 生成效果:速度与质量兼得
火山引擎 veFuser 推理框架在加速 DiT 模型推理的同时,始终以高质量生成效果为核心目标,为用户提供高效且高质量的图像和视频生成体验。以下分别展示了使用开源模型原版与通过 veFuser 生成的视频和图像示例,在生成速度更快的情况下,veFuser 所生成的效果与原版一致。
图12 开源实现生成视频 VS veFuser生成视频
图13 开源实现生成图片 VS veFuser生成图片
总结与展望:veFuser 的持续创新与生态拓展
随着生成式人工智能领域的高速发展,新模型,新架构层出不穷。更多元的模型选择,更丰富的社区插件生态也共同推动了整个行业的蓬勃发展。在未来,veFuser 仍会持续迭代,在通用性,易用性,高效性等各个方面持续提升。
灵活兼容,快速迭代:持续适配新模型针对未来 DiT 系列模型的多样化创新,veFuser 将持续构造更加通用化的模型服务框架以及模型推理框架,抽象模型结构,实现对各种不同模型结构的“即插即用”支持,避免过多重复的开发成本。
生态开放,功能拓展:支持更加丰富的插件生态除了目前的 LoRA 支持外,veFuser 将结合社区需求,持续支持各类文生图/文生视频插件生态,允许用户自定义各种不同的插件模式,以实现生成效果的精准控制。
更极致的性能实现:推理速度,显存开销全面突破通过低精度量化/模型蒸馏等方式,进一步减少推理过程的显存开销。同时充分结合不同算力卡型的硬件架构,定制化实现更高性能的推理算子,以实现更加极致的推理速度。
快速使用 veFuser
针对不同类型用户对视频生成的使用需求,火山引擎提供了两种便捷的接入方式:火山引擎机器学习平台(veMLP)和 火山方舟,分别适用于具备模型训练能力的专业用户和追求开箱即用体验的开发者。
veMLP:灵活定制,高效部署体验链接:https://www.volcengine.com/product/ml-platform
对于有定制化训练和推理需求的用户,可以在 veMLP 上免费使用 veFuser。用户可以在平台中选择快速入门镜像,结合主流的开源模型进行快速部署,也可以将自己训练好的模型与推理框架集成,通过 veFuser 实现高效推理。
火山方舟:开箱即用,轻松生成高质量视频体验链接:https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?projectName=default
如果用户更倾向于开箱即用的体验,火山方舟提供了基于 veFuser 推理加速的视频生成开源模型以及字节跳动自主研发的 Seedance 模型,可以直接登录方舟平台在模型广场中体验。同时,Seedance 模型还支持 API 接口调用,便于快速集成到业务系统中,适合短视频生成、内容创作、营销工具等场景的快速接入和规模化应用。
点击【阅读原文】登录火山引擎机器学习平台,立即体验。