2025-03-05 10:30 江苏

关注公众号，发现CV技术之美

国际可重构计算领域顶级会议——FPGA 2025在落幕之时传来消息，今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理IP工作FlightVGM，这是FPGA会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作，同时也是亚太国家团队首次获此殊荣。

这项工作首次在FPGA上实现了视频生成模型（Video Generation Models, VGMs）的高效推理，也是该团队继去年在FPGA上加速大语言模型FlightLLM（FPGA’24）后的最新系列工作。与NVIDIA 3090 GPU相比，FlightVGM 在AMD V80 FPGA上实现了1.30倍的性能提升与4.49倍的能效提升（峰值算力差距超过21倍）。

论文链接：https://dl.acm.org/doi/10.1145/3706628.3708864

论文第一作者刘军是上海交通大学博士生，共同一作曾书霖是清华大学博士后，通讯作者是汪玉和戴国浩。汪玉是IEEE Fellow、清华大学电子工程系教授、系主任和无问芯穹发起人，戴国浩是上海交通大学副教授、无问芯穹联合创始人兼首席科学家。

上一轮清华电子系相关工作被 FPGA 国际会议收录应追溯到 2016 年的 Going Deeper with Embedded FPGA Platform for Convolutional Neural Network 与 2017 年 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA。前者催化了深鉴科技的创立，后者被 FPGA 国际会议评为当年唯一的最佳论文，随后深鉴科技于2018年被可编程芯片厂商赛灵思以3亿美元收购。

在大模型部署成本争议甚嚣尘上的产业背景下，以FPGA、ASIC等灵活可编程硬件和专用任务集成电路来提升硬件运行效率，或将成为大模型落地效率提升与成本降低的最关键一环。

2024年，无问芯穹曾以大语言模型定制推理IP FlightLLM 被FPGA高评价录取，今年再次以VGM模型定制推理IP FlightVGM 拿下最佳论文奖，都是在通过创新硬件架构提升效率。

据悉，这一系列研究成果现已被集成到无问芯穹自研大模型推理IP LPU（Large-model Processing Unit）之中，并已与合作伙伴开展合作验证。下面是论文的核心内容解读，与各位读者共同饕览。

背景

在视频生成领域，扩散Transformer（DiT）逐渐成为一种重要的框架。DiT模型通过一个扩散过程生成视频，它将噪声图像逐步恢复为清晰的视频帧，从而展现了强大的生成能力。

最初，DiT被提出是为了探索在大规模数据处理中的可扩展性，随着技术的不断发展，DiT的架构也不断被优化，逐步提高了生成视频的质量和分辨率，使得生成的视频更加清晰、精细。

尽管如此，这种方法的计算需求非常高，尤其是在生成高分辨率和较长时长的视频时，所需的计算量和内存消耗大幅增加，因此如何提升生成效率并优化计算过程，成为该领域的关键问题之一。

核心见解：从视频压缩到视频生成

视频压缩技术（如H.264、H.265）通过离散余弦变换（DCT）等技术，识别并消除视频帧间和帧内的冗余信息，从而实现高达1000倍的压缩率。这一思想的核心在于，视频数据在时间和空间维度上存在大量重复模式，例如相邻帧之间的背景几乎不变，或同一帧内的纹理具有高度相似性。通过检测并跳过这些冗余信息，压缩算法能够显著减少数据量，同时保持视频质量。

FlightVGM创新性地将这一思想引入视频生成模型的加速中。视频生成模型（VGMs）在推理过程中同样表现出显著的时空冗余性。例如，相邻帧之间的Token在语义上高度相似，而同一帧内的不同区域也可能共享相同的视觉特征。然而，现有GPU架构无法充分利用这种冗余性。FPGA虽然具备稀疏计算的优势，但其峰值算力远低于GPU，且其计算单元（例如V80的DSP58）的传统设计无法动态适配混合精度需求，限制了其在视频生成加速中的应用。FlightVGM通过以下三项技术，解决上述挑战：

“时间-空间”激活值在线稀疏化方法：基于视频压缩中的相似性检测思想，FlightVGM设计了帧间和帧内的冗余激活稀疏机制。通过余弦相似度计算，动态跳过相似部分计算，显著降低了计算负载。

“浮点-定点”混合精度DSP58拓展架构：借鉴视频压缩中的分块处理思想，FlightVGM对视频生成模型的不同模块进行精度分层处理。关键模块（如注意力机制）保留FP16精度，非关键模块（如线性层）量化至INT8，最大化硬件利用率。

“动态-静态”自适应调度策略：针对激活值在线稀疏化导致的负载不均衡问题，FlightVGM针对实际工作负载自适应调整不同操作负载的执行顺序，从而提高计算利用率。

技术要点

“时间-空间”激活值在线稀疏方法

我们提出了一种“时间-空间”激活值在线稀疏化方法，同时考虑了帧间和帧内的相似性。激活稀疏化的核心思想是：如果两个token之间具有高度相似性，则可以只计算其中一个token，并将结果共享给另一个token。具体来说，输入激活是一个3维张量，由tokenizer从噪声视频中处理得到。因此，输入激活可以表示为，其中表示帧数，表示每帧的token数，表示隐藏维度。为了简便起见，我们用()来表示第1帧的第1个token。对于输入激活，我们使用和来表示参考向量和输入向量。我们使用余弦相似度作为度量标准。

激活稀疏化包含两个步骤：帧间稀疏化和帧内稀疏化。

帧间稀疏化：我们将输入激活分为G个连续的组，并选择中间帧作为参考帧。剩余帧的token与参考帧的token逐一计算相似度，若超过阈值，则使用参考帧的token计算结果替代当前token。

帧内稀疏化：我们将每帧的token分为K个块，选择中间token作为参考token，计算其他token与参考token的相似度，若超过阈值则用参考token替代计算。如果某token已在帧间稀疏化中被裁剪，其相似度为0。

从计算角度来看，相似度计算需要进行一次内积和两次模长计算，因此其计算量为3d，其中d为隐藏维度。以一个线性操作为例，假设输入激活的大小为，权重矩阵W的大小为，则原始操作的计算量为。对于稀疏操作，考虑帧间和帧内稀疏化带来的额外计算，假设稀疏度为s，则稀疏操作的总计算量为：

由于原始计算量包含了d的二次项，而稀疏化带来的额外计算只是d的线性项（典型值d=1152），因此稀疏化引入的额外开销几乎可以忽略不计。

“浮点-定点”混合精度DSP58拓展架构

AMD V80 FPGA配备了硬件IP DSP58，支持多种计算模式，如标量、向量和浮点配置。然而，由于这些配置之间无法在运行时进行动态切换，这与视频生成模型对数据的混合精度的需求存在冲突，导致我们无法充分利用DSP58的计算潜力。

为了解决这一问题，我们提出了基于DSP58的创新性FP16-INT8混合精度硬件架构——DSP-Expansion (DSP-E)。该架构允许在运行时配置，支持两个FP16乘加单元（MAC）或四个INT8乘加单元。

我们的核心思路是通过引入额外的乘法器来解决当一个DSP58执行两个FP16分数乘法时的数据混淆问题，这些乘法器在INT8模式下也可以复用。在FP16模式下，DSP58执行两个MAC的分数乘法，并通过减去INT8乘法器的结果来获得正确的中间计算结果。中间结果的指数部分通过INT加法器计算，并通过指数对齐和调整单元对齐小数点位置，最终通过加法、归一化和四舍五入得到最终结果。

在INT8模式下，DSP-E通过复用DSP58、两个INT8乘法器和两个INT加法器，最大化计算性能。通过将相关数据输入到不同的端口，额外的逻辑单元可以复用硬件资源，从而有效地提高了计算吞吐量。

为了在计算精度和硬件资源的约束下实现最大吞吐量，我们提出了一个异构的DSP58阵列设计，以适应不同的计算需求。我们根据不同设计的资源消耗（包括DSP、LUT、REG、RAM等）进行评估，并通过资源约束来确保最优计算性能。此外，我们还考虑了INT8与FP16计算性能的比值，以衡量计算能力的提升。

实验结果

算法评估

与基准模型相比，FlightVGM对于模型精度的影响几乎可以忽略（仅平均损失为0.008），而使用全INT8量化时，平均损失为0.042。同时，在实际视频生成效果上，FlightVGM生成的视频与原始模型仍有较好的保持。

性能评估

对于NVIDIA 3090 GPU，在FP16精度下，AMD V80 FPGA的峰值算力差距超过了21倍。然而，基于V80 FPGA实现的FlightVGM仍在性能和能效上超过了GPU。

这是因为FlightVGM充分利用了VGM固有的稀疏相似性和混合精度数据分布特性，并通过软硬件协同开辟了“算法-软件-硬件”的全新优化空间并成功在其中找到了一个足够好的解。而GPU由于硬件架构的限制，难以达到相同的加速效果，且缺乏稀疏化和定制化计算数据流优化的支持。

展望和未来工作

随着VGM计算需求的增长，FlightVGM展示了如何通过FPGA的软硬件协同创新，实现更高能效的文生视频大模型推理。未来，通过探索AIE（AI Engine）+ HBM（High Bandwidth Memory）的全新FPGA架构，FPGA有望为视频生成任务提供更高效的计算支持，成为未来计算平台的重要选择。

最新 AI 进展报道
请联系：amos@52cv.net