即刻AI圈子 07月18日 11:30
相较于 Open AI 的 Agent 模式,我觉得昨晚最重要的发布是这个 DecartAI 发布了 MirageLSD:世界上首个实时直播视频模型,可以将摄像头的画面实时转换为其他风格...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DecartAI 发布了 MirageLSD,世界上首个实时直播视频模型,能将摄像头画面实时转换为其他风格和内容,延迟仅 40 毫秒,支持无限长度视频生成。技术核心包括 Diffusion Forcing 和历史增强解决无限生成问题,以及定制 CUDA Mega Kernels 和架构感知剪枝提升实时性能,实现 24FPS 实时视频。

🎥 MirageLSD 是首个实时直播视频模型,能将摄像头画面实时转换为其他风格和内容,延迟仅 40 毫秒,支持无限长度视频生成。

🔄 采用 Diffusion Forcing 和历史增强技术,每帧独立去噪并引入伪影历史帧,解决传统自回归视频模型误差累积问题,实现无限时长稳定生成。

⚡ 通过定制 CUDA Mega Kernels 和架构感知剪枝,大幅减少计算量,将响应速度提升 16 倍,满足实时 24FPS 视频生成需求。

🚀 支持无限长度视频生成,通过预期并纠正输入缺陷,增强模型对误差漂移的鲁棒性,保证长时长的视频质量。

🔗 结合捷径蒸馏技术,用小模型学习大模型去噪轨迹,减少扩散步骤,在保证质量一致性的同时提升效率。

相较于 Open AI 的 Agent 模式,我觉得昨晚最重要的发布是这个

DecartAI 发布了 MirageLSD:世界上首个实时直播视频模型,可以将摄像头的画面实时转换为其他风格和内容的视频。

延迟只有 40 毫秒,而且支持无限长度视频生成!

这里尝试:https://about.decart.ai/

技术报告中最重要的两个部分:

(1)无限生成

问题:传统自回归视频模型因误差累积,生成时长受限,质量迅速下降。

解决方案:
Diffusion Forcing:每帧独立去噪,提升逐帧生成能力。
历史增强(History Augmentation):模型在训练时引入带有伪影的历史帧,学会预期并纠正输入中的缺陷,从而增强对误差漂移的鲁棒性。

效果:首次实现了无限时长、稳定、可控的自动回归视频生成。

(2)实时性能

问题:高质量扩散模型计算量大,传统 GPU 架构难以满足每帧 40 毫秒内生成的低延迟要求。

解决方案:
定制 CUDA Mega Kernels:为 NVIDIA Hopper 架构优化,减少每层延迟并集成 GPU 间通信。
架构感知剪枝:结合模型结构与系统优化,减少每次推理所需的 FLOPs,并利用硬件稀疏性提升效率。
捷径蒸馏(Shortcut Distillation):用小模型学习大模型的去噪轨迹,减少每帧所需的扩散步骤,保证质量和一致性。

效果:响应速度提升 16 倍,实现 24FPS 实时视频生成。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DecartAI 实时视频 AI视频生成 无限视频 实时渲染
相关文章