HuggingFace 每日AI论文速递 01月14日
2025.01.13 | OmniManip实现通用机器人操作,VideoRAG提升视频检索生成性能。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期介绍了10篇论文,涉及机器人操作、视频生成与理解、大语言模型推理、监督、视频定制、个性化视频生成、图像理解、多智能体微调及生成式AI的相关内容。

🤖OmniManip通过对象交互原语实现通用机器人操作

🎥VideoRAG是基于视频语料库的检索增强生成

🧠LlamaV-o1重新思考大语言模型中的视觉推理

🎥ConceptMaster可在扩散变换器模型上定制多概念视频

🔍ReFocus将视觉编辑作为图像理解的思维链

本期的 10 篇论文如下:

[00:24] ? OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints(OmniManip:通过以对象为中心的交互原语作为空间约束实现通用机器人操作)

[01:02] ? VideoRAG: Retrieval-Augmented Generation over Video Corpus(VideoRAG:基于视频语料库的检索增强生成)

[01:38] ? OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding?(OVO-Bench:你的视频大语言模型离现实世界在线视频理解还有多远?)

[02:26] ? LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs(LlamaV-o1:重新思考大语言模型中的逐步视觉推理)

[03:01] ? Enabling Scalable Oversight via Self-Evolving Critic(通过自进化批评实现可扩展监督)

[03:34] ? ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning(ConceptMaster:无需测试时调优的扩散变换器模型上的多概念视频定制)

[04:09] ? Multi-subject Open-set Personalization in Video Generation(多主体开放集个性化视频生成)

[04:47] ? ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding(ReFocus:视觉编辑作为结构化图像理解的思维链)

[05:23] ? Multiagent Finetuning: Self Improvement with Diverse Reasoning Chains(多智能体微调:通过多样化推理链实现自我改进)

[06:00] ? Infecting Generative AI With Viruses(感染生成式人工智能的病毒)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

机器人操作 视频生成 大语言模型 图像理解 多智能体
相关文章