2025.04.30 | 多模态检索增强生成；单样本强化学习提升推理。

HuggingFace 每日AI论文速递 05月01日 07:07

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

本期AI速递精选12篇论文，涵盖多模态、推理、具身智能等前沿方向。UniversalRAG探索多模态语料库的检索增强生成；单样本强化学习和大语言模型推理；ReasonIR关注推理任务的检索器训练；元策略优化则迈向评估性思考。此外，还有4D具身世界模型、个性化视觉语言生成、版权侵权缓解等研究。更有X-Fusion为冻结的LLM引入新模态，以及情感语音头像生成等有趣应用。

🔍 **UniversalRAG：** 探索了基于多模态、多粒度异构语料库的检索增强生成技术，旨在提升大语言模型在复杂场景下的应用能力。

🧠 **单样本强化学习：** 提出了一种利用单一样本进行强化学习，以赋能大语言模型推理的方法，降低了训练成本和数据依赖。

🤖 **TesserAct：** 研究了4D具身世界模型的学习方法，旨在让AI更好地理解和模拟真实世界，为具身智能的发展提供新思路。

🎭 **排行榜的幻觉：** 论文探讨了在评估AI模型时，排行榜可能产生的误导，强调了更全面和深入的评估方法的重要性。

🖼️ **Yo'Chameleon：** 专注于个性化的视觉与语言生成，旨在根据用户偏好和需求，生成更符合用户期望的内容。

本期的 12 篇论文如下：

[00:24] 🔍 UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities（通用RAG：基于多模态、多粒度异构语料库的检索增强生成）

[01:06] 🧠 Reinforcement Learning for Reasoning in Large Language Models with One Training Example（单样本强化学习赋能大语言模型推理）

[01:52] 🧠 ReasonIR: Training Retrievers for Reasoning Tasks（ReasonIR：训练用于推理任务的检索器）

[02:31] 🤖 Toward Evaluative Thinking: Meta Policy Optimization with Evolving Reward Models（迈向评估性思考：基于演化奖励模型的元策略优化）

[03:20] 🤖 TesserAct: Learning 4D Embodied World Models（TesserAct：学习4D具身世界模型）

[04:01] 🎭 The Leaderboard Illusion（排行榜的幻觉）

[04:37] 🖼 YoChameleon: Personalized Vision and Language Generation（Yo'Chameleon：个性化的视觉与语言生成）

[05:17] 🛡 Certified Mitigation of Worst-Case LLM Copyright Infringement（大语言模型最坏情况版权侵权的认证缓解）

[05:50] 🎭 ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting（ISDrama：基于多模态提示的沉浸式空间戏剧生成）

[06:29] 🧩 X-Fusion: Introducing New Modality to Frozen Large Language Models（X-Fusion：为冻结的大型语言模型引入新模态）

[07:14] 🎭 Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation（解耦身份，协同情感：相关感知的情感语音头像生成）

[07:53] 🌳 TreeHop: Generate and Filter Next Query Embeddings Efficiently for Multi-hop Question Answering（TreeHop：为多跳问答高效生成和过滤下一跳查询嵌入）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签