HuggingFace 每日AI论文速递 05月29日 07:02
2025.05.28 | 多模态Agent科研任务成功率低;逻辑推理模型存在显著局限。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI论文速递汇总了15篇最新研究,涵盖多模态自主Agent评估、多模态大型语言模型(MLLM)的逻辑推理基准、科研论文海报自动生成、风格无关一致性学习、主题驱动视频生成、可验证推理数据合成、LLM文本生成能力探索、视频LLM长期推理培养、精简思维链提升LLM推理、大规模多模态推理基准测试、自提升移动GUI代理、稀疏注意力加速视频生成、视频场景OCR能力评估、细粒度低秩适配以及MLLM视频推理能力探索等多个前沿方向。

🧪 **ScienceBoard & MME-Reasoning**:前者评估多模态自主Agent在实际科研工作流程中的表现,后者则为多模态大型语言模型中的逻辑推理提供了一个全面的基准。

🖼️ **Paper2Poster & OmniConsistency**:前者旨在实现科研论文到多模态海报的自动生成,后者则关注从配对风格化数据中学习与风格无关的一致性。

🎬 **OpenS2V-Nexus & Sparse VideoGen2**:前者提供了一个用于主题驱动视频生成的详细基准和百万级数据集,后者则通过语义感知置换和稀疏注意力加速视频生成。

🧠 **SynLogic & VerIPO & Don't Overthink it.**:分别研究大规模合成可验证推理数据以提升逻辑推理能力、通过验证器引导迭代策略优化培养视频LLM的长期推理能力、以及探索精简思维链以提升LLM推理能力。

🤖 **UI-Genie & Video-Holmes**:前者提出一种迭代提升基于MLLM的移动GUI代理的自提升方法,后者则探索多模态大语言模型在复杂视频推理方面的能力,试图使其具备如福尔摩斯般的推理能力。

本期的 15 篇论文如下:

00:23 🧪 ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows(ScienceBoard:评估现实科学工作流程中的多模态自主Agent)

01:09 🤔 MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs(MME-推理:多模态大型语言模型中逻辑推理的综合基准)

01:51 🖼 Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers(Paper2Poster:基于科研论文的多模态海报自动生成)

02:28 🎨 OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data(OmniConsistency:从配对风格化数据中学习与风格无关的一致性)

03:06 🎬 OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation(OpenS2V-Nexus:一个用于主题驱动视频生成的详细基准和百万级数据集)

03:50 🧠 SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond(SynLogic:大规模合成可验证推理数据,用于学习逻辑推理及其他能力)

04:32 💡 Exploring the Latent Capacity of LLMs for One-Step Text Generation(探索大型语言模型在一步文本生成中的潜在能力)

05:13 🧠 VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization(VerIPO:通过验证器引导的迭代策略优化,培养视频大型语言模型中的长期推理能力)

05:48 🤔 Don't Overthink it. Preferring Shorter Thinking Chains for Improved LLM Reasoning(别想太多:偏好更短的思维链以提升大型语言模型的推理能力)

06:29 🤔 MMMR: Benchmarking Massive Multi-Modal Reasoning Tasks(MMMR:大规模多模态推理任务的基准测试)

07:09 🤖 UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents(UI-Genie:一种迭代提升基于MLLM的移动GUI代理的自提升方法)

07:52 🎬 Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation(Sparse VideoGen2:通过语义感知置换和稀疏注意力加速视频生成)

08:28 📹 MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios(MME-VideoOCR:评估多模态大型语言模型在视频场景中基于OCR的能力)

09:16 🧩 GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning(GraLoRA:用于参数高效微调的细粒度低秩适配)

10:02 🕵 Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning?(Video-Holmes:多模态大语言模型能否像福尔摩斯一样进行复杂的视频推理?)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态 大型语言模型 逻辑推理 视频生成 AI Agent
相关文章