世界首个「实时、无限」扩散视频生成模型，Karpathy投资站台

机器之心报道

编辑：冷猫

一觉起来世界已经进化成这样了?
每个人都能懂点魔法，能够随意穿梭在各个平行时空和幻想世界里。

读者朋友们看到这说不定撇撇嘴，「这不就是 AI 视频吗？」

但如果加上两个关键词，这将成为 AI 视频生成领域革命性的突破！

就在昨天，Decart 发布了世界上首个「实时的」「无时长限制的」并且支持「任意视频流」的扩散视频模型 MirageLSD！

输入任何视频流，无论是相机或视频聊天、电脑屏幕还是游戏，MirageLSD 都能在 40 毫秒延迟以内将其转化为你想要的任何世界。

这一切都看上去不可思议，AI 视频已经能够实现和滤镜一样的应用方式，实时智能调整画面风格和画面内容，并且能够通过文本提示任意地进行控制。

实时视频魔法解锁全新应用可能
前特斯拉 AI 总监，OpenAI 的创始团队成员 Andrej Karpathy 为此技术展开了广泛的想象：

将摄像头画面变为 “另一个世界”。

自导自演实时电影：拿起道具、演绎场景，AI 负责实时布景和风格化，秒看回放，边演边剪。

游戏开发轻松起步：用简单的球体 / 方块编码游戏机制，再用实时扩散模型为游戏生成精美贴图。

任意视频流的风格迁移：例如：只需一句提示词就能让《上古卷轴》看起来 “更史诗”，让《毁灭战士 2》拥有现代虚幻引擎画质。

视频会议背景和实时虚拟试衣。

AR 眼镜升级：实时将现实世界卡通化。

哈利波特的「厄里斯魔镜」：现实中看似普通的镜子，实际上会显示出 AI 根据你 “深层欲望” 生成的理想自己或世界。

Karpathy 表示自己已经成为了这个 MirageLSD 项目的天使投资人，在他看来这项技术通用且强大。

也许这些都只是开始，真正的 “杀手级应用” 还没被发现 —— 这个领域值得无限想象！

这一切让我想起了「刀剑神域」，似乎覆盖现实世界的幻想画面真的要实现了？

Decart 也展示了一些构想的演示，充分满足了各种可能：

比如在沙漠里滑雪？

比如可以花上 30 分钟写个游戏代码，然后让 Mirage 处理图形？

Decart 推文中笑称，使用 Mirage「从提示词制作 GTA VII，比 GTA VI 发售还快。」

目前 Mirage 已正式上线，与其观看屏幕上的魔法，不如亲手创造魔法。

Decart 将持续发布模型升级和新功能，包括面部一致性、语音控制和精确物体操控等。与此同时，平台还将上线一系列新特性 —— 如流媒体支持（以任意角色进行直播）、游戏集成、视频通话等功能。

体验链接：https://mirage.decart.ai/

魔法背后MirageLSD技术原理
MirageLSD 主要在视频生成的时长和延迟两大角度产生了突破，基于定制的模型 —— 实时流扩散（Live Stream Diffusion，LSD），该模型能够逐帧生成并保持时间连贯性。

在视频时长方面，先前的视频模型在生成 20-30 秒后就会因错误累积而严重降低质量。

在生成延时方面，它们往往需要几分钟的处理时间才能输出几秒钟的视频。即使是今天最接近实时速度的系统，通常也是分块生成视频，从而引入不可避免的延迟，完全无法实现交互应用。

无限长视频生成

MirageLSD 是第一个能够生成无限长视频的视频生成模型。
由于模型的自回归特性，会导致误差逐步累积，从而限制输出的长度。

为了实现无限自回归生成：

MirageLSD 基于 Diffusion Forcing 技术，实现逐帧去噪；

我们引入历史增强方法，在训练中对输入历史帧进行扰动，使模型学会预判并纠正输入中的伪影，从而增强其对自回归生成中常见偏移的鲁棒性；

这两者结合，使 LSD 成为第一个能够无限生成视频而不会崩溃的模型 —— 稳定、可提示，并始终与场景和用户输入保持一致。

零延时视频生成

响应性是指最坏情况下的响应延迟，即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上，导致实时交互无法实现。
实时生成要求每帧的生成时间控制在 40 毫秒以内，以避免被人眼察觉。我们通过以下方式实现这一目标：

设计定制的 CUDA mega kernels，以最小化开销并最大化吞吐；

基于 shortcut distillation 和模型剪枝技术，减少每帧所需的计算量；

优化模型架构，使其与 GPU 硬件高度对齐，实现效率最大化。

通过上述技术，我们在响应速度上相较于以往模型提升了 16 倍，实现了以 24 帧 / 秒的速率实时生成视频。

扩散模型与 LSD

扩散模型通过一系列逐步去噪操作，将随机噪声逐渐还原为图像或视频。在视频生成中，这通常意味着一次性生成固定长度的视频片段，这有助于保持时间一致性，但会带来延迟。一些系统尝试通过所谓的 “自回归生成” 方式，逐段顺序生成帧片段，以提高灵活性。然而，这种方式仍需在每一段帧生成完毕后才能响应新的输入，限制了交互性和实时应用的能力。