(本文阅读时间:16分钟)
编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉。
6月10日至17日,全球计算机视觉领域的顶尖学术盛会 CVPR 在美国田纳西州纳什维尔举办。我们通过两期“科研上新”为大家带来多篇微软亚洲研究院入选 CVPR 2025 的精选论文解读。第一期分享的内容主要围绕生成模型与扩散技术等方向的研究工作。第二期将涵盖图像与视频处理方向的相关研究,包括单目几何估计、视频生成、图像擦除、视频压缩等。
欢迎大家参与文末投票,选出你最感兴趣的论文!我们将于近期邀请论文的作者们与你在直播间进行前沿技术的交流与探讨!
「 本期内容速览 」
01用于单域泛化的对抗性域提示微调与生成
论文链接:https://openaccess.thecvf.com/content/CVPR2025/papers/Xu_Adversarial_Domain_Prompt_Tuning_and_Generation_for_Single_Domain_Generalization_CVPR_2025_paper.pdf
单域泛化(Single Domain Generalization, SDG)旨在仅利用单一源域的标注数据,训练出能够在多个未见目标域上依然保持高性能的鲁棒模型。由于目标域数据在训练阶段完全不可见,如何有效模拟领域分布的多样性、缩小源域与目标域之间的分布差距,便成为该任务的核心挑战。现有工作多依赖于数据增强或基于风格统计的图像增强方法,虽能在一定程度上扩充训练样本的多样性,但难以覆盖与源域分布差异极大的“抽象”域样式,因而其泛化性能仍受限。
为突破这一瓶颈,微软亚洲研究院的研究员首次提出借助强大的预训练文本到图像(Text-to-Image, T2I)扩散模型,通过对抗式提示调优(prompt tuning)和进阶式训练方案(progressive training scheme),自动生成具有丰富域风格的 OOD(Out-Of-Distribution)图像,从而提升 SDG 性能。在该框架下,提示向量不再依赖于静态的人工文本描述,而是分为可学习的类别提示(category prompt)和域提示(domain prompt),分别用于捕捉类别语义和多样化域风格。
具体来说,该方法先调优类别提示以确保生成图像具有正确类别。再通过对抗学习优化域提示,并在不同提示之间最大化风格差异的同时保持类别一致。最后采用迭代式训练,不断向提示库中添加新学得的域提示,生成更具挑战性的 OOD 样本。
将这些合成样本与源域数据联合训练后,该方法在 PACS、VLCS、Office-Home、DomainNet 和 TerraIncognita 五大基准上均超越目前最先进的方法。实验结果表明,所提 PAPT 框架在兼顾类别一致性与域多样性的同时,显著增强了单域泛化能力。
02DCVC-RT:4K实时视频编解码器
论文链接:
https://arxiv.org/abs/2502.20762项目链接:https://github.com/microsoft/DCVC
近年来,深度学习驱动的视频编解码器在压缩率方面已超越传统方案(如H.265/HM, H.266/VTM, ECM),成为视频压缩领域的重要突破。然而,这些基于深度学习的方案往往架构复杂、参数量大、无法实现实时编解码,且缺乏码率控制和跨设备一致性等关键功能,限制了其实际应用部署。微软亚洲研究院最新提出的 DCVC-RT 模型,提供一个简洁高效、可实时运行、面向实际应用的深度视频编解码解决方案,将有望解决上述挑战。
通过实验分析,研究员们发现通常用于评判模型复杂度的计算复杂度(如 MACs)并非制约编解码速度的主要因素。相反,降低内存 I/O 效率、函数调用数量等操作复杂度因素才是提升速度的关键。为此,DCVC-RT 做出了两个关键创新以降低操作复杂度:
一是隐式时域建模。DCVC-RT 摒弃了单独的显式运动估计与补偿模块,在编解码器中实现隐式时域建模。移除运动相关的模块直接减少了函数调用数量,在几乎不损失压缩率的前提下提升了3.4倍的编解码速度。
二是紧凑隐式表征学习。与之前方案中的逐层下采样策略不同,DCVC-RT 直接对原图进行下采样并在低分辨率进行时域和空域联合表征学习。通过计算分析,这样可以显著降低内存 I/O,带来了3.6倍的速度提升。
此外,DCVC-RT 还支持多种面向实际的功能设计,包括基于模块库的码率控制。通过对不同的压缩率学习一组不同的量化模块和概率模型,实现单个模型下的连续码率调节,以适配不同的应用需求,以及整数化模型设计。为解决跨设备浮点不一致的问题,研究员们将模型权重与中间表示转换为16位整数,进而实现了编码一致性,这一量化仅带来了约3%的压缩率损失。
DCVC-RT 是第一个能实现 4K 实时编码和解码的模型,并对 1080p 视频有超过 100FPS 的速度,比当前主流深度视频编解码器快20倍以上,压缩效率与最先进的编解码器持平甚至更优。与常用的实时传统编码器(如x265)相比,DCVC-RT 在相同画质下的码率降低约70%。另外,在低端消费设备 2080Ti 上 DCVC-RT 也支持 1080p/30FPS,显示出其对不同设备极高的适应性。
总而言之,DCVC-RT 在提升编码效率、降低计算复杂度和增强实用性等方面实现了重大突破,为深度视频编解码器的实际部署奠定了坚实基础。
03HoGS:通过齐次高斯投影实现近远物体的统一重建
论文链接:https://arxiv.org/abs/2503.19232项目链接:https://kh129.github.io/hogs/
在真实感场景重建与新视角合成领域,3D 高斯投影(3D Gaussian Splatting, 3DGS)的出现显著提升了训练效率和实时渲染能力。然而,3DGS 基于笛卡尔坐标系,这在处理远距离物体时存在局限,尤其是在建模无限远的户外场景时表现不佳。这一挑战促使科研人员探索更具表达力的表示方法,以统一处理近距离和远距离物体。
为解决这一问题,微软亚洲研究院的研究员们提出了同类高斯投影(Homogeneous Gaussian Splatting, HoGS)方法,将射影几何中的齐次坐标系统引入 3DGS 框架。与笛卡尔坐标不同,齐次坐标能够自然地表示无穷远处的点,更适合捕捉远距离场景元素。利用这一特性,HoGS 增强了原始 3DGS 框架的空间表达能力和可扩展性,实现了跨深度范围的高质量渲染。
HoGS 的核心在于使用齐次坐标重新定义高斯的空间位置和尺度,并将其表示在射影空间中。这种重构不仅保持了渲染质量在不同距离上的一致性,还使系统能够在不牺牲效率的前提下扩展到更复杂、更广阔的场景中。该研究还对光栅化和渲染流程进行了相应调整,使其适配新的坐标系统,并与现有的实时渲染技术兼容。
实验结果表明,HoGS 在不影响近距离物体重建质量的前提下,显著提升了远距离物体的重建精度。在多个数据集上的定量评估显示,HoGS 在渲染质量方面普遍优于传统 3DGS,尤其在无限远户外环境中表现突出。此外,该方法仍保留了 3DGS 的快速训练和实时渲染优势。下图的视觉对比进一步展示了 HoGS 在不同深度下捕捉细节的能力,体现了其鲁棒性和通用性。
HoGS 通过引入基于射影几何的表示方式,成功扩展了 3DGS 框架的适用范围,实现了对近远物体的统一建模。这一创新不仅解决了当前视角合成技术的关键瓶颈,还为大规模、高保真、实时 3D 重建开辟了新的方向。
04MoGe:最优监督训练解锁任意图像精确单目几何估计
论文链接:https://arxiv.org/abs/2410.19115项目链接:https://github.com/microsoft/moge
从单张图像中恢复三维几何结构,是计算机视觉中十分具有挑战性的问题之一。尽管多视图几何方法已广泛应用于重建任务,但在开放场景中,获取多个视角通常并不现实,因此单目图像的三维估计(Monocular Geometry Estimation, MGE)具有重要意义。但 MGE 面临固有的尺度与相机参数不确定性,传统依赖深度图和相机内参的方案往往难以在不同域间保持稳定性和准确性。
本工作提出一种可直接从图像预测仿射不变三维点图的方法 MoGe,可以导出深度图和相机内参。该方法的关键设计在于用仿射等价类作为中间表示,从而绕过了尺度和位移的歧义问题,为训练和预测提供了一种统一且稳健的框架。
为有效提升监督质量,MoGe 设计了两类核心监督机制。其一是 ROE(Robust, Optimal, Efficient)点云对齐算法,通过高效并行的优化流程,在训练中自动计算预测点云与真实几何之间的最优仿射变换,提升了全局监督信号的准确性。其二是多尺度局部几何监督,通过在局部球面区域中独立对齐点云片段,增强对区域细节的建模能力。同时,法向量监督和有效区域掩码进一步提升了表面结构和场景边界的预测质量。
MoGe 在21个多样化数据集上进行了训练,在8个未见数据集上开展了零样本评估,涵盖室内、户外、扫描与合成等多种场景。在点云估计、深度估计和相机 FOV 估计三项任务中,均显著优于现有方法,平均点云误差降低超过35%,深度与 FOV 误差下降20%至30%。进一步的消融实验显示,仿射不变表示是准确建模的基础,而 ROE 对齐与局部损失的引入,对提升全局结构与局部细节的预测均起到了关键作用。移除这些模块将导致局部误差显著增加,并出现明显几何扭曲。
MoGe 提供了一种统一、高效且具有良好泛化能力的单目几何估计方案,适用于多种下游视觉任务,如图像编辑、视角合成与三维理解。未来该研究将继续拓展其在视频、多视图一致性建模等方向的应用潜力。
论文链接:https://arxiv.org/abs/2501.08279
长期以来,图像对象移除任务主要依赖于“遮罩-修复(mask-and-inpaint)”范式,即通过遮罩待移除区域并将其从模型输入中排除来实现。然而,这种方法迫使模型只依赖周围未遮罩区域的信息来推测缺失内容,这在复杂场景中往往会导致不稳定的结果,例如目标对象被错误重建,或生成内容与背景融合不佳。这些问题在遮罩区域缺乏足够上下文线索时尤为突出。因此,本研究旨在探索更有效的引导方式,以提升对象移除的质量。
为了克服现有方法的局限性,研究员们提出了一种全新的移除方法——遮罩区域引导(Masked-Region Guidance, MRG)。与传统方法不同,MRG 保留了遮罩区域在输入中的信息,并将其作为引导信号参与移除过程。这种策略使模型能够更清晰地理解需要移除的内容,同时更好地保留周围环境的结构与纹理。
基于这一方法,研究员们构建了 SmartEraser 框架,并引入了一个大规模合成数据集 Syn4Removal。该数据集通过将分割出的目标对象粘贴到背景图像上而构建,原始图像被用作真实标签,从而实现了可监督的训练与评估。
实验结果表明,SmartEraser 在多个基准测试中显著优于现有的对象移除方法。它在 PSNR、LPIPS 等标准指标上取得了更高的分数,并在主观评估中展现出更真实、自然的图像效果。尤其在处理边界复杂、背景杂乱的场景时,SmartEraser 表现出更强的稳健性和一致性。遮罩区域的引导不仅有效避免了目标对象的重现,还提升了模型在结构和纹理还原方面的能力。
06VidTwin:解耦结构和动态信息的视频Tokenizer
论文链接:https://arxiv.org/pdf/2412.17726项目链接:https://github.com/microsoft/VidTok/tree/main/vidtwin
随着视频自动编码器(Video VAEs)在视频生成领域的广泛应用,如何在保持高重建质量的同时实现高效压缩,成为研究的关键问题。传统方法往往将视频编码为统一的潜在表示,忽视了视频中结构信息与动态细节的差异性,导致重建效果不佳。
对此,微软亚洲研究院的研究员们提出了一种名为 VidTwin 的新型 Video VAE。该框架的核心在于利用技术创新将视频编码为两个独立的特征空间:一是结构特征空间,用于捕捉整体内容和全局运动趋势;二是动态特征空间,用于表示细粒度运动信息。这种解耦方式使得模型能够更精确地重建视频内容,在获得较高压缩性能的同时提升了重建质量。
为了实现结构特征空间和动态特征空间的解耦,研究员们设计了一个基于 Transformer 的高效编码器-解码器架构,并结合了两个重要模块:Q-Former 模块和空间维度平均模块。Q-Former 模块作用于时间维度,能够提取与空间位置无关的低频运动趋势,其得到的特征会在空间上进行降采样,以此来保留最重要的目标信息;而空间维度平均模块则是通过对空间维度上的平均来捕捉高频运动信息,从而增强动态表示能力。
研究员们在常用的 MCL-JCV 数据集上与基线方法做了比较,以评估 VidTwin 的性能。结果表明,VidTwin 在压缩率上达到了0.2%,并实现了28.14的重建 PSNR,均优于现有方法。同时,研究员们验证了 VidTwin 在下游生成任务中的表现出色,展现了其良好的可扩展性和解释性。
未来,视频生成模型将在各个领域被应用,该框架有望给更高效的视频 Tokenizer 带来启发,并推动视频生成领域的发展。
快来为你希望直播分享的论文投上一票吧!
当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。
包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。
本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。
现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!
立即点击下方链接,开启你的专属阅读之旅!
你也许还想看:
文章原文