机器之心 02月20日
视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Light-A-Video是由上海交通大学和上海人工智能实验室联合研发的一项突破性技术,它无需任何训练即可实现高质量、时序一致的视频重打光。该技术利用预训练的图像重打光模型和视频扩散模型,通过创新的Consistent Light Attention(CLA)模块和Progressive Light Fusion(PLF)策略,优化视频内容的光照变化一致性。Light-A-Video不仅高效避免了传统方法中高昂的训练成本和数据稀缺问题,还具备广泛的适用性和灵活性,支持对完整视频或前景序列进行重打光,并能生成与文字描述相符的背景。

💡Light-A-Video是一种无需训练的视频重打光方法,它充分利用预训练的图像重打光模型(如IC-Light)和视频扩散模型(如AnimateDiff和CogVideoX),能够生成高质量且时间连贯的重打光视频。

✨该技术的核心在于CLA模块和PLF策略。CLA模块通过增强跨帧交互,稳定背景光源的生成,减少因光照不一致导致的闪烁问题。PLF策略则通过渐进式光照融合,逐步注入光照信息,确保生成视频外观的时间连贯性。

🔄Light-A-Video不依赖于特定的视频扩散模型,与多种流行的视频生成框架兼容,并且支持对完整输入视频或前景序列进行重打光,还能生成与文字描述相符的背景。

📊实验结果表明,Light-A-Video在多个评估指标上均优于现有的基准方法,尤其在动作保留方面表现出色,能够在保证原视频外观内容的基础上实现高质量的重打光效果。

2025-02-20 12:23 北京

在没有任何训练或优化的情况下,生成高质量、时序一致的重打光视频。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文作者来自于上海交通大学,中国科学技术大学以及上海人工智能实验室等。其中第一作者周彧杰为上海交通大学二年级博士生,师从牛力副教授。



数字化时代,视频内容的创作与编辑需求日益增长。从电影制作到社交媒体,高质量的视频编辑技术成为了行业的核心竞争力之一。然而,视频重打光(video relighting)—— 即对视频中的光照条件进行调整和优化,一直是这一领域的技术瓶颈。传统的视频重打光方法面临着高昂的训练成本和数据稀缺的双重挑战,导致其难以广泛应用。


如今,这一难题终于迎来了突破 —— 由上海交通大学以及上海人工智能实验室联合研发的 Light-A-Video 技术,为视频重打光带来了全新的解决方案。




无需训练,零样本实现视频重打光


Light-A-Video 是一种无需训练的视频重打光方法,能够在没有任何训练或优化的情况下,生成高质量、时序一致的重打光视频。这一技术的核心在于充分利用预训练的图像重打光模型(如 IC-Light)和视频扩散模型(如 AnimateDiff 和 CogVideoX),通过创新的 Consistent Light Attention(CLA)模块和 Progressive Light Fusion(PLF)策略,针对视频内容的光照变化进行了一致性的优化,实现了对视频序列的零样本(zero-shot)光照控制。


其优势在于:


1. 无需训练,高效实现视频重打光:Light-A-Video 是首个无需训练的视频重打光模型,能够直接利用预训练的图像重打光模型(如 IC-Light)的能力,生成高质量且时间连贯的重打光视频。这种方法避免了传统视频重打光方法中高昂的训练成本和数据稀缺的问题,显著提高了视频重打光的效率和扩展性。


2. 创新的端到端流程,确保光照稳定性与时序一致性:CLA 模块通过增强跨帧交互,稳定背景光源的生成,减少因光照不一致导致的闪烁问题。PLF 通过渐进式光照融合策略,逐步注入光照信息,确保生成视频外观的时间连贯性。


3. 广泛的适用性与灵活性:Light-A-Video 不仅支持对完整输入视频的重打光,还可以对输入的前景序列进行重打光,并生成与文字描述相符的背景。而且不依赖于特定的视频扩散模型,因此与多种流行的视频生成框架(如 AnimateDiff、CogVideoX 和 LTX-Video)具有高度的兼容性。


CLA + PLF

确保光照一致性与稳定性


Light-A-Video 核心技术包括两个关键模块:Consistent Light Attention 和 Progressive Light Fusion。CLA 模块通过增强自注意力层中的跨帧交互,稳定背景光照源的生成。它引入了一种双重注意力融合策略,一方面保留原始帧的高频细节,另一方面通过时间维度的平均处理,减少光照源的高频抖动,从而实现稳定的光照效果。实验表明,CLA 模块显著提高了视频重打光的稳定性,减少了因光照不一致导致的闪烁问题。



PLF 策略则进一步提升了视频外观的稳定性。它基于光传输理论的光照线性融合特性,通过逐步混合的方式,将重打光外观与原始视频外观进行融合。在视频扩散模型的去噪过程中,PLF 策略逐步引导视频向目标光照方向过渡,确保了时间连贯性。这种渐进式的光照融合方法不仅保留了原始视频的细节,还实现了平滑的光照过渡。



Light-A-Video 整体架构设计



1. 利用视频扩散模型的时序先验,将原始视频加噪到对应的步数后进行去噪。在每一步的去噪过程中,提取其预测的原始去噪目标并添加上对应的视频细节补偿项作为当前步的一致性目标 


2. 将  输入图片重打光模型(IC-Light),并利用 CLA 的双流注意力模块进行逐帧重打光,实现稳定的背景光源生成,作为当前步的重打光的目标


3. 在预测下一步的时,先利用 VAE 编解码器将从潜层编码空间解码到视频像素层面。然后通过引入一个渐进式随时间步下降的参数将两个目标进行线性外观混合后,重新编码到潜层编码空间获取混合目标。即 PLF 策略利用混合目标引导生成单步的重打光结果


当视频完全去噪后,Light-A-Video 能够获得时序稳定且光照一致的重打光视频。


高质量、时间连贯的重光照效果



为了验证 Light-A-Video 的有效性,研究团队基于 DAVIS 和 Pixabay 公开数据集上构建了其测试数据集。实验结果表明,Light-A-Video 在多个评估指标上均优于现有的基准方法,尤其在动作保留方面,该方法在保证原视频外观内容的基础上实现了高质量的重打光效果。



另外,Light-A-Video 能够在仅提供前景序列的情况下,实现背景生成和重打光的并行处理。


未来展望:动态光照与更广泛应用


之后,Light-A-Video 将致力于有效地处理动态光照条件,进一步提升视频重打光的灵活性与适应性。这一创新技术的出现,已然为视频编辑领域注入了全新思路。随着技术的持续发展与优化,我们有理由相信,Light-A-Video 必将在更广泛的领域大放异彩,为视频内容创作开辟更多可能性。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Light-A-Video 视频重打光 人工智能 零样本学习
相关文章