相较于 Open AI 的 Agent 模式,我觉得昨晚最重要的发布是这个
DecartAI 发布了 MirageLSD:世界上首个实时直播视频模型,可以将摄像头的画面实时转换为其他风格和内容的视频。
延迟只有 40 毫秒,而且支持无限长度视频生成!
这里尝试:https://about.decart.ai/
技术报告中最重要的两个部分:
(1)无限生成
问题:传统自回归视频模型因误差累积,生成时长受限,质量迅速下降。
解决方案:
Diffusion Forcing:每帧独立去噪,提升逐帧生成能力。
历史增强(History Augmentation):模型在训练时引入带有伪影的历史帧,学会预期并纠正输入中的缺陷,从而增强对误差漂移的鲁棒性。
效果:首次实现了无限时长、稳定、可控的自动回归视频生成。
(2)实时性能
问题:高质量扩散模型计算量大,传统 GPU 架构难以满足每帧 40 毫秒内生成的低延迟要求。
解决方案:
定制 CUDA Mega Kernels:为 NVIDIA Hopper 架构优化,减少每层延迟并集成 GPU 间通信。
架构感知剪枝:结合模型结构与系统优化,减少每次推理所需的 FLOPs,并利用硬件稀疏性提升效率。
捷径蒸馏(Shortcut Distillation):用小模型学习大模型的去噪轨迹,减少每帧所需的扩散步骤,保证质量和一致性。
效果:响应速度提升 16 倍,实现 24FPS 实时视频生成。