PaperWeekly 07月22日 01:37
ACM MM 2025 | 轨迹可控、主体更稳!阿里Tora2定义下一代视频生成范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云团队在视频生成领域取得新突破,推出Tora2算法,旨在解决Subject-to-Video(S2V)任务中主体运动的随机性问题。Tora2通过融合多主体参考图像与运动轨迹指令,实现了视频中多主体外观一致性与轨迹可控性的同步。该算法引入了解耦式个性化提取器(DPE),结合高阶语义特征与专家模型补充的高频细节,以确保主体身份特征的稳定。同时,通过门控自注意力层和运动-视觉对比学习,增强了运动特征与视觉表征的协同一致性。Tora2在多个评估指标上表现优异,为可控视频生成开辟了新方向。

🌟 **Tora2实现多主体视频生成的可控性与一致性**:Tora2算法的核心在于解决Subject-to-Video(S2V)任务中主体运动的随机性,通过融合多主体参考图像和运动轨迹指令,成功实现了视频中多主体外观的高度一致性以及精确的轨迹控制,这标志着视频生成技术在可控性方面迈出了重要一步。

💡 **解耦式个性化提取器(DPE)提升主体特征捕捉**:为解决现有S2V算法在主体外观一致性上的不足,Tora2提出了解耦式个性化提取器(DPE)。它在保留DINOv2的高阶语义特征提取能力的同时,引入专家模型(如人脸识别和重识别特征)来补充面部纹理等高频细节,并通过适配器与DINOv2特征融合,最终由Q-Former统一处理,确保了核心主体表征的紧凑和准确。

🚀 **运动控制与视觉特征的深度融合**:Tora2在运动控制方面,通过轨迹提取器生成与视频扩散Transformer(DiT)输入对齐的运动嵌入。为实现运动特征与视觉特征的绑定,该算法设计了门控自注意力层,动态调节实体文本嵌入、运动嵌入及个性化嵌入的权重,并通过Motion-Guidance Fuser和交叉注意力层将运动和视觉信息注入DiT模型,增强了特征的协同一致性。

📈 **多维度评估与优化**:Tora2在训练过程中继承了Tora的初始化权重,并结合了Tora与Video Alchemist的视频筛选策略,构建了包含110万视频片段的大规模训练集。其评估体系涵盖了基础质量、外观一致性(如人脸一致性)和运动一致性等多个维度,并在MSTVTT-Personalization数据集上的测试结果表明,Tora2在个性化生成能力上与现有先进算法持平,同时具备显著的轨迹控制优势。

让你更懂AI的 2025-07-17 22:35 北京

视频生成不再随机!

视频生成技术正经历跨越式发展:从早期只能生成几秒钟低质量片段,到如今能够输出数分钟高清视频。

在可控视频生成领域,除了 Text-to-Video(T2V)和 Image-to-Video(I2V)两个基础任务外,Subject-to-Video(S2V)成为新的研究焦点。S2V 的核心挑战在于平衡文本指令与参考图像内容——既要发挥 T2V 的创造性优势,又要突破 I2V 对输入图像的依赖。

现有 S2V 算法虽能保持主体外观一致,但其类似 T2V 的生成模式使得主体的运动形式呈现高随机性,导致目标动作呈现“开盲盒”式不可预测性。

针对这一难题,阿里云团队近期推出其 CVPR 2025 轨迹可控视频生成算法 Tora 的升级版 Tora2。该方案通过融合多主体参考图像与运动轨迹指令,同步实现视频中多主体外观一致性与轨迹可控性。目前,Tora2 已被 ACM MM25 收录,被领域主席推荐为 Oral。


论文链接:

https://arxiv.org/abs/2507.05963

项目主页:

https://ali-videoai.github.io/Tora2_page/

下图展示了 Tora2 的框架设计。在多主体视频生成中,环境和动作虽可变化,但主体核心身份特征需严格保持一致。

现有方案(如 Video Achemist、ConceptMaster)通过 CLIP/DINO 系列模型提取高阶语义特征实现跨场景生成,但因对高频细节(面部纹理等)感知不足,导致主体一致性受限。

针对此问题,Tora2 提出解耦式个性化提取器(DPE):在保留 DINOv2 高阶语义特征提取能力的同时,引入专家模型补充高频细节——针对人物和物体分别采用预训练的人脸识别特征针和重识别(ReID)特征,并通过两个适配器与 DINOv2 特征融合。

最终,Q-Former 对多源特征进行统一处理,既平衡了视觉基础模型与扩散模型间的差异,又通过参数冻结兼容性和特征密度优化,实现了紧凑的核心主体表征提取。

Tora2 在运动控制方面沿用了 Tora 架构,通过轨迹提取器(Trajectory Extractor)生成与 Video Diffusion Transformer(DiT)输入对齐的 motion embeddings。

为实现各个主体运动特征与视觉特征的绑定,Tora2 设计了门控自注意力层:输入包括主体的实体文本嵌入、运动嵌入及 DPE 提取的个性化嵌入,并通过动态门控机制调节各模态特征的权重。

随后,运动特征和视觉个性化特征分别由基于自适应归一化的 Motion-Guidance Fuser 和额外的交叉注意力层注入视频 DiT 模型中。

此外,Tora2 引入针对参考主体的运动-视觉对比学习,在多主体场景中增强特征判别性,提升运动路径与视觉表征的协同一致性,缓解由多主体多模态特征引导带来的歧义分配问题。

Tora2 在训练中继承了 Tora 的初始化权重,并融合 Tora 与 Video Alchemist 的视频筛选策略,构建包含 110 万视频片段的训练集(覆盖丰富主体类别与运动模式)。

评估体系包含三类指标:

1)基础质量指标(Text Similarity:生成视频与文本指令的 CLIP 相似度;Video Similarity:生成视频与测试视频的 CLIP 相似度);

2)外观一致性指标(Subject Similarity:主体 DINO 相似度;Face Similarity:人像 ArcFace-R100 一致性);

3)运动一致性指标(Trajectory Error:生成轨迹与目标轨迹的距离差异)。

在 MSTVTT-Personalization 上测试,Tora2 在个性化生成能力上与 Video Alchemist 持平,同时具备独有的轨迹控制优势。

Tora2 通过与两阶段方案(Flux.1 生成个性化图像 + Tora 生成视频)的定性对比验证了联合优化方案有效解决了分阶段生成导致的特征断层问题,使主体身份特征与运动轨迹实现深度协同。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI视频生成 Subject-to-Video Tora2 轨迹控制 个性化提取
相关文章