HuggingFace 每日AI论文速递 前天 07:10
2025.07.11 | 长视频推理效率提升;单图像定制模型防过拟合。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期分享了15篇关于人工智能领域的最新论文,涵盖了强化学习在长视频中的应用、单图像扩散模型的定制、视觉基础推理的评估与方法、多模态大语言模型在时空场景理解中的能力评估、视频大语言模型的加速、基于动态工具的Agentic视觉、结合视频扩散与3D表示的世界建模、高维3D语言高斯溅射、预训练LLM的测试时深度自适应、长视频叙事生成研究综述、令牌瓶颈、大型语言模型对真相的漠视、超越线性可分性上限、生长中的Transformer以及通用科学AI智能体等多个方面。这些研究展示了AI技术在视频处理、视觉理解、语言模型等领域的最新进展。

🎬 强化学习在长视频领域的应用:论文探讨了如何利用强化学习来驱动视觉语言模型,从而扩展其在长视频处理方面的能力,这对于理解和生成更复杂的视频内容具有重要意义。

🖼️ 单图像扩散模型的定制与视觉基础推理:研究提出了无过拟合的单图像扩散模型定制方法,以及可追踪证据增强的视觉基础推理方法,旨在提升模型在图像生成和视觉理解方面的性能。

🤖 多模态大语言模型的评估与加速:论文评估了多模态大语言模型在在线时空场景理解中的能力,并提出了免训练的时空令牌融合加速方法,以提高模型处理视频数据的效率。

🚀 高维3D语言高斯溅射与Agentic视觉:研究介绍了高维3D语言高斯溅射技术,以及基于动态工具的Agentic视觉,这些技术有助于实现更逼真的3D场景重建和更智能的视觉Agent。

🧠 预训练LLM的测试时深度自适应与长视频叙事生成:论文探讨了预训练LLM的测试时深度自适应方法,以及长视频叙事生成的研究综述,这些研究有助于提升语言模型在不同任务中的适应性和生成能力。

本期的 15 篇论文如下:

00:25 🎬 Scaling RL to Long Videos(强化学习驱动视觉语言模型扩展至长视频)

01:10 🖼 T-LoRA: Single Image Diffusion Model Customization Without Overfitting(T-LoRA:无过拟合的单图像扩散模型定制)

01:49 🖼 Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology(可追踪证据增强的视觉基础推理:评估与方法)

02:28 🤖 OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding(OST-Bench:评估多模态大语言模型在在线时空场景理解中的能力)

03:06 🎬 Multi-Granular Spatio-Temporal Token Merging for Training-Free Acceleration of Video LLMs(面向视频大语言模型的免训练时空令牌融合加速)

03:49 🤖 PyVision: Agentic Vision with Dynamic Tooling(PyVision:基于动态工具的Agentic视觉)

04:29 🎬 Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling(几何强制:结合视频扩散与3D表示以实现一致的世界建模)

05:12 🚀 LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS(LangSplatV2:高达450+ FPS的高维3D语言高斯溅射)

05:48 🧠 Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs(跳过一层还是循环它?预训练LLM的测试时深度自适应)

06:33 🎬 A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality(长视频叙事生成研究综述:架构、一致性与电影质量)

07:15 🤖 Token Bottleneck: One Token to Remember Dynamics(令牌瓶颈:用一个令牌记住动态)

07:54 🤥 Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models(机器胡扯:刻画大型语言模型中涌现的对真相的漠视)

08:41 🧠 Beyond the Linear Separability Ceiling(超越线性可分性上限)

09:16 🌱 Growing Transformers: Modular Composition and Layer-wise Expansion on a Frozen Substrate(生长中的Transformer:基于冻结基底的模块化组合与逐层扩展)

09:53 🧪 SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?(科学大师:迈向通用科学AI智能体,第一部分。X-Master作为基础:我们能在人类的最后一场考试中领先吗?)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 视频处理 语言模型 视觉理解 深度学习
相关文章