智源社区 9小时前
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI初创公司Decart发布了其最新视频模型MirageLSD,这是首个实现零延迟无限实时视频生成的AI模型。该模型能够以每秒24帧的速度实时生成视频流,响应速度比以往模型快16倍,并允许在生成过程中进行持续的提示、转换和编辑,实现“你随时想,我随时转”。MirageLSD攻克了传统自回归视频模型中“误差累积”的核心难题,通过Decart自定义的实时流扩散模型Live-Stream Diffusion(LSD)以及Diffusion Forcing技术,解决了视频质量随时间下降的问题,实现了无限时长视频的连续生成。该技术还通过历史增强策略和改进的Transformer模型架构,有效降低了延迟和计算开销,能够实现“抖一抖衣服就能换装”等即时互动效果,得到了AI大神Karpathy的力挺和天使投资。

🌟 MirageLSD是首个实现零延迟无限实时视频生成的AI模型,能够以每秒24帧的速度生成视频流,响应速度比以往模型快16倍,并支持在生成过程中进行持续的提示、转换和编辑,实现“你随时想,我随时转”的即时互动体验。

🚀 该模型的核心突破在于攻克了传统自回归视频模型中“误差累积”的难题,通过Decart自定义的实时流扩散模型Live-Stream Diffusion(LSD)以及Diffusion Forcing技术,解决了视频质量随时间推移而下降的问题,从而能够连续生成无限时长的视频。

💡 MirageLSD通过历史增强策略和改进的Transformer模型架构,解决了传统模型中微小误差叠加导致画面失真的问题。它学会预判和纠正缺陷,并能在推理阶段保持对误差的警惕性,同时通过蒸馏策略、KV缓存技术和帧级提示词处理机制,有效提升了运行速度并降低了延迟。

✨ 该技术能够实现诸如“抖一抖衣服就能换装”、“棍子变发光武器”等即时视觉效果,极大地拓展了AI在直播、游戏、视频通话等领域的应用潜力,并得到了AI大神Karpathy的认可和支持,他本人也是Decart的天使投资人。

大神Karpathy都忍不住投资的AI初创,带来首个实时扩散视频生成!

用扫帚当麦克风,用盒子当混音台,无需昂贵设备就能开一场沉浸式直播。

喜欢游戏类型但不喜欢游戏的画面?简单,实时给它改个风格是不是就舒服多了~

以上,就是AI初创公司Decart的最新视频模型MirageLSD的演示效果,这是首个实现零延迟无限实时视频生成的AI模型。

只要你有想象力,Mirage就能实时生成视频流,为你打造专属的魔法世界~

输入支持直播、游戏、视频通话、相机拍摄、点播等多种形式,可以说是能转尽转了。

主要是Mirage和其他等待时间很久但只能生成5-10秒视频的模型不一样,它没有时长限制,延迟还降到了40毫秒以下,说是零延迟也不为过吧。

响应速度比之前的模型快16倍,实现了每秒24帧的实时视频生成,还允许在视频生成过程中进行持续的提示、转换和编辑。

做到了“你随时想,我随时转”!

于是,AI大神卡帕西也出来力挺:实时!

同时他还透露自己也是Decart的天使投资人(非常小)。

接下来让我们看看Mirage是如何做到的。

攻克了传统自回归视频模型中“误差累积”的核心难题

MirageLSD采用Decart自定义的实时流扩散模型Live-Stream Diffusion(LSD),LSD能够在逐帧生成内容的同时保持时间连贯性。

在视频生成过程中,由于自回归模型每一帧都依赖于前一帧,一个位置偏移的阴影或者一种纹理错误的细节这些瑕疵会随着时间的推移而不断累积,这种误差积累会使模型逐渐偏离训练。

当前的视频模型在生成超过20-30秒的内容时,会因为误差累积而导致严重质量下降,所以一些模型只能生成固定长度的短视频。

MirageLSD能够实现无限生成的核心就在于解决了传统自回归视频模型中“误差累积”这一关键瓶颈。

它采用逐帧的因果自回归结构处理数据,每帧生成仅依赖先前已生成的帧和用户提示,而非完整视频序列,这种模式为连续生成无限时长视频奠定了基础。

同时依托Diffusion Forcing技术,让模型在训练中学会独立对单帧去噪,无需依赖完整视频上下文,保证了逐帧生成的连贯性。

针对传统自回归模型中微小误差随时间叠加导致画面失真的问题,MirageLSD通过历史增强策略解决:训练时向输入的历史帧中主动添加模拟模型可能生成的伪影(如噪声、畸变),使模型学会预判并纠正这些缺陷。

此外,在推理阶段明确告知模型“历史帧可能不准确”,可以让它保持对误差的警惕性,持续调用训练中学习的纠正能力。

并且之前的模型都需要几分钟的处理时间才能生成几秒钟的内容,以分块的方式生成视频还引入了不可避免的延迟,从而不能实现实时互动。

MirageLSD采用改进的Transformer模型架构,搭配专门设计的视觉编码器、改进的位置编码以及针对长时间交互序列优化的结构,来快速处理输入和生成输出。

同时,对生成部分的扩散模型部分应用先进的蒸馏策略,在保证生成质量的前提下有效提升运行速度,借助KV缓存技术支持的长上下文窗口,让模型能记住之前的状态信息,避免因频繁处理大量历史数据导致延迟。

在核心集成帧级提示词处理机制,可即时解析玩家的键盘指令和自然语言提示,快速转化为相应操作。

动态输入系统则能以超低延迟处理玩家输入,无论是生成新元素还是改变环境都能迅速响应。

此外,视觉更新通过全双工通信通道流回,输入与输出并行处理,消除了数据传输和处理中的延迟;采用“垂直训练”流程让模型深入学习相关规则与模式,减少了生成过程中的计算开销和错误尝试,进一步间接提升了实时性能。

实现了“抖一抖衣服就能换装”、“棍子变发光武器”之类的操作。

MirageLSD由位于美国加州的初创公司Decart打造,该公司成立于2023年。

2024年,Decart推出了自己的第一款模型Oasis,这是首个实时生成式AI开放世界模型。

Oasis支持实时交互,能实现每秒20帧零延迟的生成效率。

由此看来,MirageLSD如今每秒24帧的效率也有所提升。

团队还表示将定期发布MirageLSD的升级模型和新增功能,包括面部一致性、语音控制和精确物体控制等,逐步提升用户体验。

体验链接:https://mirage.decart.ai/

参考链接:
[1]https://x.com/DecartAI/status/1945947692871692667
[2]https://x.com/karpathy/status/1945979830740435186

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

专属AI产品从业者的实名社群,只聊AI产品最落地的真问题  扫码添加小助手,发送「姓名+公司+职位」申请入群~
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MirageLSD Decart 实时视频生成 AI模型 扩散模型
相关文章