相较于 Open AI 的 Agent 模式，我觉得昨晚最重要的发布是这个 DecartAI 发布了 MirageLSD：世界上首个实时直播视频模型，可以将摄像头的画面实时转换为其他风格...

即刻AI圈子 07月18日 11:30

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

DecartAI 发布了 MirageLSD，世界上首个实时直播视频模型，能将摄像头画面实时转换为其他风格和内容，延迟仅 40 毫秒，支持无限长度视频生成。技术核心包括 Diffusion Forcing 和历史增强解决无限生成问题，以及定制 CUDA Mega Kernels 和架构感知剪枝提升实时性能，实现 24FPS 实时视频。

🎥 MirageLSD 是首个实时直播视频模型，能将摄像头画面实时转换为其他风格和内容，延迟仅 40 毫秒，支持无限长度视频生成。

🔄 采用 Diffusion Forcing 和历史增强技术，每帧独立去噪并引入伪影历史帧，解决传统自回归视频模型误差累积问题，实现无限时长稳定生成。

⚡ 通过定制 CUDA Mega Kernels 和架构感知剪枝，大幅减少计算量，将响应速度提升 16 倍，满足实时 24FPS 视频生成需求。

🚀 支持无限长度视频生成，通过预期并纠正输入缺陷，增强模型对误差漂移的鲁棒性，保证长时长的视频质量。

🔗 结合捷径蒸馏技术，用小模型学习大模型去噪轨迹，减少扩散步骤，在保证质量一致性的同时提升效率。

相较于 Open AI 的 Agent 模式，我觉得昨晚最重要的发布是这个

DecartAI 发布了 MirageLSD：世界上首个实时直播视频模型，可以将摄像头的画面实时转换为其他风格和内容的视频。

延迟只有 40 毫秒，而且支持无限长度视频生成！

这里尝试：https://about.decart.ai/

技术报告中最重要的两个部分：

（1）无限生成

问题：传统自回归视频模型因误差累积，生成时长受限，质量迅速下降。

解决方案：
Diffusion Forcing：每帧独立去噪，提升逐帧生成能力。
历史增强（History Augmentation）：模型在训练时引入带有伪影的历史帧，学会预期并纠正输入中的缺陷，从而增强对误差漂移的鲁棒性。

效果：首次实现了无限时长、稳定、可控的自动回归视频生成。

（2）实时性能

问题：高质量扩散模型计算量大，传统 GPU 架构难以满足每帧 40 毫秒内生成的低延迟要求。

解决方案：
定制 CUDA Mega Kernels：为 NVIDIA Hopper 架构优化，减少每层延迟并集成 GPU 间通信。
架构感知剪枝：结合模型结构与系统优化，减少每次推理所需的 FLOPs，并利用硬件稀疏性提升效率。
捷径蒸馏（Shortcut Distillation）：用小模型学习大模型的去噪轨迹，减少每帧所需的扩散步骤，保证质量和一致性。

效果：响应速度提升 16 倍，实现 24FPS 实时视频生成。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签