魔搭ModelScope社区 03月14日 23:02
今日热门论文推荐:TPDiff、Block Diffusion、Reangle-A-Video、GTR
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了近期热门的AI论文,涵盖了视频扩散模型、语言模型、多视角视频生成和强化学习等多个前沿领域。这些研究成果展示了AI技术的最新进展和创新方向,例如,TPDiff通过时间金字塔方法优化视频生成效率,Block Diffusion结合自回归和扩散模型的优势,Reangle-A-Video将多视角视频生成转化为视频翻译问题。此外,GTR框架解决了强化学习训练视觉-语言模型时遇到的“思维崩溃”问题。这些论文为AI研究者提供了宝贵的参考,也为未来的技术发展指明了方向。

✨TPDiff:通过创新的时间金字塔方法和阶段式扩散训练策略,显著降低视频扩散模型的训练成本(降低50%)并提升推理效率(提升1.5倍)。

🧠Block Diffusion:结合自回归和扩散模型的优势,推出了一种支持灵活长度生成的高效语言模型,在语言建模基准上刷新了扩散模型的性能纪录,支持任意长度序列生成。

📹Reangle-A-Video:将多视角视频生成任务重构为视频到视频的翻译问题,无需大规模4D数据集,利用现有图像和视频扩散模型,通过多视角运动学习和一致性引导生成同步多视角视频。

🤖GTR:通过自动纠正器指导推理过程,解决了强化学习训练视觉-语言模型(VLM)代理时出现的“思维崩溃”问题,显著提升了LLaVA-7b在复杂视觉任务中的表现,成功率提升3-5倍。

2025-03-14 19:37 浙江

本文推荐多篇热门AI论文,涉及视频扩散、语言模型、多视角视频生成和强化学习等领域,展示最新创新成果。

作者:InternLM、Qwen 等 LLM

每日一览热门论文版,顶会投稿选题不迷惘。来看看由「机智流」和「ModelScope」社区推荐的今日热门论文吧~

TPDiff: Temporal Pyramid Video Diffusion Model

论文链接

https://modelscope.cn/papers/125911

简要介绍

由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。

核心图片


Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

论文链接

https://modelscope.cn/papers/126168

简要介绍

由Marianne Arriola等人提出,Block Diffusion结合自回归和扩散模型的优势,推出了一种支持灵活长度生成的高效语言模型。通过块状扩散设计和优化的训练算法,该模型在语言建模基准上刷新了扩散模型的性能纪录,支持任意长度序列生成。

核心图片


Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

论文链接

https://modelscope.cn/papers/126077

简要介绍

KAIST AI的Hyeonho Jeong等人提出了Reangle-A-Video,将多视角视频生成任务重构为视频到视频的翻译问题。无需大规模4D数据集,该方法利用现有图像和视频扩散模型,通过多视角运动学习和一致性引导生成同步多视角视频,超越了现有方法。

核心图片


GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

论文链接

https://modelscope.cn/papers/125459

简要介绍

清华大学Tong Wei等人提出了GTR框架,解决强化学习训练视觉-语言模型(VLM)代理时出现的“思维崩溃”问题。通过自动纠正器指导推理过程,该方法显著提升了LLaVA-7b在复杂视觉任务中的表现,成功率提升3-5倍。

核心图片


RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

论文链接

https://modelscope.cn/papers/125961

简要介绍

耶路撒冷希伯来大学的Itay Chachy等人提出了RewardSDS,通过奖励加权采样增强得分蒸馏采样(SDS)的对齐能力。该方法在文本到图像、2D编辑和3D生成任务中表现出色,提升了生成质量和用户意图对齐度。

核心图片


More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

论文链接

https://modelscope.cn/papers/123851

简要介绍

耶路撒冷希伯来大学的Shahar Levy等人研究了检索增强生成(RAG)中多文档处理的独立挑战。实验表明,在固定上下文长度下,文档数量增加会导致LLM性能下降高达10%,揭示了多文档处理的新难题。

核心图片


Motion Anything: Any to Motion Generation

论文链接

https://modelscope.cn/papers/125267

简要介绍

由ANU的Zeyu Zhang等人提出的Motion Anything是一个多模态运动生成框架,通过注意力掩码建模实现对关键帧和动作的精细控制。还推出了包含2153组文本-音乐-舞蹈数据的TMD数据集,FID提升15%。

核心图片


Quantizing Large Language Models for Code Generation: A Differentiated Replication

论文链接

https://modelscope.cn/papers/125103

简要介绍

Alessandro Giagnorio等人对代码生成LLM的量化进行了扩展研究,测试了高达34B参数的模型和2位极致量化技术。结果显示4位量化可减少70%内存占用而不损性能,代码特定数据集在极低位量化时表现更优。


WildIFEval: Instruction Following in the Wild

论文链接

https://modelscope.cn/papers/125130

简要介绍

耶路撒冷希伯来大学的Gili Lior等人推出了WildIFEval,一个包含12K真实用户多约束指令的大规模数据集。实验显示,随着约束数量增加,所有LLM性能均下降,揭示了复杂指令跟随的改进空间。

核心图片


VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

论文链接

https://modelscope.cn/papers/126245

简要介绍

新加坡国立大学Show Lab的Kevin Qinghong Lin等人提出了VLog,通过生成式检索和叙述词汇表革新视频理解。基于GPT-2,该模型实现高效、上下文准确的视频叙述,处理长视频速度提升10倍。

核心图片


今天的盘点从视频扩散到指令跟随,展示了AI领域的多样创新。哪篇论文让你眼前一亮?欢迎留言讨论!别忘了关注我们,明天继续带来更多AI前沿资讯!?

-- 完 --


欢迎在「机智流」公众号后台回复「cc」,加入机智流大模型交流群;回复「HF」即可加入我们不定期举办的HuggingFace Daily Paper高赞论文分享活动群,也会分享大厂AI论文快讯。与我们一起探索 AI 与人类潜能的未来,一起共赴 AI 浪潮!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI论文 视频扩散 语言模型 多视角生成 强化学习
相关文章