微软研究院AI头条 07月08日 14:33
明天直播 | CVPR 2025精选论文分享
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软亚洲研究院精选CVPR2025四篇人气论文,涵盖文生图美学优化、高质量人像动画、三维生成新方法及实时神经视频压缩。明天下午14:00直播间,四位作者将分享前沿工作,欢迎锁定!

🎨 梁展豪分享《Aesthetic Post-Training Diffusion Models》,提出逐步偏好优化(SPO)算法,通过逐步偏好优化提升SD1.5/SDXL美学质量,解决偏好数据集与美学目标不一致问题,保持图文一致性。

👤 涂树源分享《StableAnimator》,针对复杂动作人像视频生成挑战,创新性地融合全局感知面部编码器、分布感知身份适配器及HJB优化,实现身份一致性、高质量与时空一致性。

🧋 向剑锋分享《Structured 3D Latents》,提出统一结构化潜表示(SLAT),结合稀疏三维体素与多视角视觉特征,实现高质量、可编辑的三维内容生成,效果优于现有方法。

📹 贾兆阳分享《Towards Practical Real-Time Neural Video Compression》,介绍DCVC-RT实时神经网络编解码器,通过隐式时间建模和单一低分辨率潜在表征,降低操作成本,实现4K实时编码与SOTA压缩性能。


(本文阅读时间:7分钟)


6月10日至17日,全球计算机视觉领域的顶尖学术盛会 CVPR 在美国田纳西州纳什维尔举办。此前,我们通过两期“科研上新”为大家带来了多篇微软亚洲研究院入选 CVPR 2025 的精选论文解读。第一期分享的内容主要围绕生成模型与扩散技术等方向的研究工作第二期涵盖图像与视频处理方向的相关研究,包括单目几何估计、视频生成、图像擦除、视频压缩等


根据读者朋友们的投票结果,我们特别邀请了票选人气最高的四篇论文的作者,于明天(7月2日)下午14:00,在微软亚洲研究院的直播间分享他们的前沿工作。欢迎大家锁定直播间!


直播信息


直播时间:


2025年7月2日 14:00-16:00


直播地址:


微信视频号“微软亚洲研究院


小红书“微软亚洲研究院”直播间


B 站账号“微软科技”直播间


论文及讲者介绍


梁展豪

澳大利亚国立大学博士研究生


梁展豪现于澳大利亚国立大学攻读博士学位,研究方向为视觉生成与生成模型后训练。他曾在微软亚洲研究院实习,并曾是开源项目 MMSegmentation 的主要贡献者之一。
分享论文:

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization


论文摘要: 

本篇论文提出逐步偏好优化(SPO)算法,解决了文生图模型美学后训练时偏好数据集总体偏好标签与美学目标不一致、偏好对中显著的布局差异干扰美学细节优化的问题。该方法显著提升了 SD1.5/SDXL 的美学质量并保持了模型的图文一致性能力。


论文链接:

https://arxiv.org/abs/2406.04314


涂树源


微软亚洲研究院视觉计算组实习生


涂树源,复旦大学二年级博士生,目前在微软亚洲研究院视觉计算组实习,研究方向为视频生成与视频理解。他在 CVPR、ICCV、ICMR 上发表多篇论文,其中荣获 ICCV 2023 Oral 和 ICMR 2022 Oral,论文总计 GitHub Star 2K+,荣获国家奖学金、华泰证券奖学金。


分享论文:

StableAnimator: High-Quality Identity-Preserving Human Image Animation


论文摘要: 

目前人像视频生成在复杂动作变化场景时面临诸多挑战,例如身份一致性受损、视频质量下降,以及空间与时间建模矛盾。 StableAnimator 通过三大核心技术提升人像视频生成质量:全局感知面部编码器融合上下文保持清晰一致面部特征,分布感知身份适配器对齐特征分布确保时空一致,HJB 优化在推理中引导最优去噪路径,增强身份保真与视频质量。


论文链接:

https://arxiv.org/abs/2411.17697


向剑锋


微软亚洲研究院空间智能组实习生


向剑锋,清华大学-微软亚洲研究院联合培养博士生,师从郭百宁教授,同时在微软亚洲研究院空间智能组实习。研究方向包括三维生成、三维表示学习与神经渲染。


分享论文:

Structured 3D Latents for Scalable and Versatile 3D Generation


论文摘要:

本篇论文提出了一种新颖的三维生成方法,核心是统一的结构化潜表示(SLAT),其结合稀疏三维体素结构与多视角视觉特征,统一编码了三维内容的形状与外观,并可灵活解码为辐射场、三维高斯或网格等格式。基于此,我们实现了高质量且可编辑的 3D 生成,效果显著优于现有方法。


论文链接:

https://arxiv.org/abs/2412.01506


贾兆阳


微软亚洲研究院多媒体计算组实习生


贾兆阳,微软亚洲研究院多媒体计算组实习生,主要研究方向包括图像视频等媒体的编解码、处理和生成理解算法。


分享论文:

Towards Practical Real-Time Neural Video Compression


论文摘要:

本篇论文介绍了一种实用实时神经网络视频编解码器  DCVC-RT。通过使用隐式时间建模、单一低分辨率潜在表征等方案,DCVC-RT 有效降低了操作成本而非计算成本以提高编解码速度,实现了 4K 实时编码与 SOTA 的压缩性能。


论文链接:

https://arxiv.org/abs/2502.20762


日程安排


14:00-14:30

分享内容:

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

分享者:

梁展豪

14:30-15:00


分享内容:

StableAnimator: High-Quality Identity-Preserving Human Image Animation

分享者:

涂树源

15:00-15:30


分享内容:

Structured 3D Latents for Scalable and Versatile 3D Generation

分享者:

向剑锋

15:30-16:00


分享内容:

Towards Practical Real-Time Neural Video Compression

分享者:

贾兆阳



欢迎锁定直播间,与你不见不散!




微软亚洲研究院新书《无界》上市


当面对集体性的难题时,思想的碰撞与智慧的共鸣显得尤为重要。微软亚洲研究院历时两年打磨的《无界——透视微软创新研究之境》一书,正是献给这个时代的探索指南。


包括周礼栋院长在内的十余位顶尖科研人员参与了本书的编写工作,他们从不同角度探讨了人工智能、计算机科学及其交叉领域的最新进展,分享了前沿的展望、观点以及宝贵的科研经验。


本书已获得十余位全球顶尖学者的推荐,其中包括图灵奖得主、院士、知名高校领导、在各自领域享有盛誉的学者,以及微软亚洲研究院的杰出院友。


现在,《无界——透视微软创新研究之境》已全平台火爆开售!首批读者将获得限量版微软50周年书签,书签上的文章作者亲笔签名将随机呈现,盲盒式惊喜等你开启!


立即点击下方链接,开启你的专属阅读之旅!













你也许还想看:







文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CVPR2025 微软亚洲研究院 文生图 人像动画 三维生成 实时视频压缩
相关文章