Decart公司发布的MirageLSD模型,实现了世界上首个“实时”、“无时长限制”且支持“任意视频流”的扩散视频模型。该技术能够在40毫秒延迟内将任何视频流(如相机、屏幕、游戏画面)转化为用户指定的任何世界,实现类似滤镜的实时智能调整画面风格和内容,并通过文本提示进行控制。这一突破为AI视频应用开辟了全新可能,如实时电影制作、游戏开发、视频会议背景更换,甚至AR眼镜的升级,预示着AI视频生成正迈入一个革命性的新阶段,无限的想象空间正在被解锁。
🌟 **实时视频魔法,颠覆内容创作:** MirageLSD模型能够以低于40毫秒的延迟,将任何输入的视频流(包括直播、游戏画面、屏幕录制等)实时转化为用户通过文本提示指定的任何场景或风格。这使得AI视频生成不再是离线的后期处理,而是能够像滤镜一样即时应用于现实世界,为内容创作、游戏开发、虚拟现实等领域带来革命性的变化。
🚀 **无限视频生成,突破时长限制:** 传统的视频生成模型往往受限于错误累积,导致生成视频质量随时间推移而下降。MirageLSD通过“Diffusion Forcing”技术实现逐帧去噪,并引入“历史增强”方法,使其能够生成无限长度的视频序列,并且在整个过程中保持稳定性和一致性,解决了此前视频生成模型在时长上的关键瓶颈。
💡 **零延迟交互,解锁全新应用:** MirageLSD通过优化模型架构和计算流程,实现了对输入(文本提示或视频内容变化)的即时响应,从而达到“零延迟”的交互体验。这使得用户能够实时编辑和转换视频,例如根据提示词即时改变游戏画面风格、进行虚拟试衣、或将现实世界卡通化,极大地拓展了AI视频的应用场景和用户体验。
🛠️ **技术挑战与未来展望:** 尽管MirageLSD取得了重大突破,但在长期序列的连贯性(如角色身份、场景布局)和精细化控制(如特定物体、区域的编辑)方面仍有提升空间。未来通过引入更长期的记忆机制和结构化控制信号,有望实现更稳定、更具可控性的实时视频编辑,进一步释放AI视频生成技术的潜力。
2025-07-19 11:14 北京
不知道为什么让我想起《刀剑神域:序列之争》

一觉起来世界已经进化成这样了? 每个人都能懂点魔法,能够随意穿梭在各个平行时空和幻想世界里。读者朋友们看到这说不定撇撇嘴,「这不就是 AI 视频吗?」但如果加上两个关键词,这将成为 AI 视频生成领域革命性的突破!就在昨天,Decart 发布了世界上首个「实时的」「无时长限制的」并且支持「任意视频流」的扩散视频模型 MirageLSD!
输入任何视频流,无论是相机或视频聊天、电脑屏幕还是游戏,MirageLSD 都能在 40 毫秒延迟以内
将其转化为你想要的任何世界。这一切都看上去不可思议,AI 视频已经能够实现和滤镜一样的应用方式,实时智能调整画面风格和画面内容,并且能够通过文本提示任意地进行控制。实时视频魔法解锁全新应用可能前特斯拉 AI 总监,OpenAI 的创始团队成员 Andrej Karpathy 为此技术展开了广泛的想象:
将摄像头画面
变为 “另一个世界”。自导自演实时电影
:拿起道具、演绎场景,AI 负责实时布景和风格化,秒看回放,边演边剪。游戏开发
轻松起步:用简单的球体 / 方块编码游戏机制,再用实时扩散模型为游戏生成精美贴图。任意视频流的风格迁移
:例如:只需一句提示词就能让《上古卷轴》看起来 “更史诗”,让《毁灭战士 2》拥有现代虚幻引擎画质。视频会议背景和实时虚拟试衣。AR 眼镜
升级:实时将现实世界卡通化。哈利波特的「厄里斯魔镜」
:现实中看似普通的镜子,实际上会显示出 AI 根据你 “深层欲望” 生成的理想自己或世界。Karpathy 表示自己已经成为了这个 MirageLSD 项目的天使投资人,在他看来这项技术通用且强大。
也许这些都只是开始,真正的 “杀手级应用” 还没被发现 —— 这个领域值得无限想象!这一切让我想起了「刀剑神域」,似乎覆盖现实世界的幻想画面真的要实现了?Decart 也展示了一些构想的演示,充分满足了各种可能:比如在沙漠里滑雪?比如可以花上 30 分钟写个游戏代码,然后让 Mirage 处理图形?Decart 推文中笑称,使用 Mirage「从提示词制作 GTA VII,比 GTA VI 发售还快。」
目前 Mirage 已正式上线,与其观看屏幕上的魔法,不如亲手创造魔法。 Decart 将持续发布模型升级和新功能,包括面部一致性、语音控制和精确物体操控等。与此同时,平台还将上线一系列新特性 —— 如流媒体支持(以任意角色进行直播)、游戏集成、视频通话等功能。体验链接:https://mirage.decart.ai/魔法背后MirageLSD技术原理MirageLSD 主要在视频生成的时长和延迟两大角度产生了突破,基于定制的模型 —— 实时流扩散(L
ive Stream Diffusion,LSD),该模型能够逐帧生成并保持时间连贯性。
在视频时长方面,先前的视频模型在生成 20-30 秒后就会因错误累积而严重降低质量。在生成延时方面,它们往往需要几分钟的处理时间才能输出几秒钟的视频。即使是今天最接近实时速度的系统,通常也是分块生成视频,从而引入不可避免的延迟,完全无法实现交互应用。无限长视频生成
MirageLSD 是第一个能够生成无限长视频的视频生成模型。由于模型的自回归特性,会导致误差逐步累积,从而限制输出的长度。为了实现无限自回归生成:MirageLSD 基于 Diffusion Forcing 技术,实现逐帧去噪
;我们引入历史增强方法,在训练中对输入历史帧进行扰动,使模型学会预判并纠正输入中的伪影,从而增强其对自回归生成中常见偏移的鲁棒性;
这两者结合,使 LSD 成为第一个能够无限生成视频
而不会崩溃的模型 —— 稳定、可提示,并始终与场景和用户输入保持一致。零延时视频生成
响应性是指最坏情况下的响应延迟,即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上,导致实时交互无法实现。
实时生成要求每帧的生成时间控制在 40 毫秒以内
,以避免被人眼察觉。我们通过以下方式实现这一目标:设计定制的 CUDA mega kernels
,以最小化开销并最大化吞吐;基于 shortcut distillation
和模型剪枝技术
,减少每帧所需的计算量;优化模型架构
,使其与 GPU 硬件高度对齐,实现效率最大化。通过上述技术,我们在响应速度上相较于以往模型提升了 16 倍,实现了以 24 帧 / 秒的速率实时生成视频。扩散模型与 LSD扩散模型通过一系列逐步去噪操作,将随机噪声逐渐还原为图像或视频。在视频生成中,这通常意味着一次性生成固定长度的视频片段,这有助于保持时间一致性,但会带来延迟。一些系统尝试通过所谓的 “自回归生成” 方式,逐段顺序生成帧片段,以提高灵活性。然而,这种方式仍需在每一段帧生成完毕后才能响应新的输入,限制了交互性和实时应用的能力。
LSD 采用了不同的方法。它一次生成一帧,使用因果性的自回归结构
,每一帧都依赖于此前生成的帧以及用户提示。这种方式支持即时反馈、零延迟交互,并且可以持续生成视频,无需预先设定终点。在每一个时间步,模型会接收一组过去生成的帧、当前输入帧以及用户定义的提示词,然后预测下一帧输出,该帧会立即作为输入传递到下一轮生成中。
这种因果反馈机制使 LSD 能够保持时间上的一致性,持续适应画面中的动作与内容变化,并在实时遵循用户提示的同时,生成无限长度的视频序列。此外,它还使 LSD 能够对输入作出即时响应 —— 无论是文本提示还是视频内容的变化 —— 实现真正的零延迟。这正是实时编辑与转换成为可能的关键。技术缺陷与改进方向首先,当前系统依赖于有限的历史帧窗口。引入更长期的记忆机制有望提升长序列中的连贯性,从而在角色身份、场景布局和长期动作等方面实现更一致的表现。此外,尽管 MirageLSD 支持基于文本的风格变换,但对于特定物体、空间区域或动作的精细控制仍较为有限。若能整合关键点或场景标注等结构化控制信号,将有助于在实时环境中实现更细粒度、用户可控的编辑操作。在语义一致性和几何稳定性方面,特别是在面对极端风格变换时,仍需进一步优化。MirageLSD 在极端风格变化下,可能会出现物体结构或布局被扭曲的情况。更多相关技术信息,请参阅 Decart 的技术介绍:
文章链接:https://about.decart.ai/publications/mirage© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com







阅读原文
跳转微信打开