2025.07.17 | RAG提升LLM推理；PhysX生成物理3D资产

HuggingFace 每日AI论文速递 07月18日 08:12

2025.07.17 | RAG提升LLM推理；PhysX生成物理3D资产

本期AI速递为您精选了13篇近期发布的重磅论文，涵盖了人工智能研究的多个前沿领域。从具身智能RAG与深度推理，到基于物理的3D资产生成；从大规模多模态人类行为理解基准，到语言模型优化代码性能；再到空间音频驱动的人体动作生成，以及土木工程任务自动化的LLM基准测试。此外，还有序列模型对比、条件图像动画化、3D点追踪、LLM高效线性化框架、小语言模型推理能力提升、新闻文章主观性检测，以及基于经验回放的LLM推理方法等。这些研究成果预示着AI技术在理解、生成和应用层面将有更深层次的突破。

🧠 **具身智能RAG与深度推理：** 探讨了在大型语言模型（LLMs）中，如何结合检索增强生成（RAG）与深度推理，以实现更具“具身智能”的系统，为AI代理提供更强大的理解和行动能力。

🧱 **基于物理的3D资产生成：** PhysX论文介绍了如何生成与物理规律相符的3D资产，这对于游戏开发、虚拟现实以及机器人仿真等领域具有重要意义，能够创建更真实、更具交互性的虚拟环境。

🚗 **大规模多模态人类行为理解：** MMHU基准的提出，旨在通过多模态数据（如视觉、语音、文本等）来更全面地理解人类行为，为开发能够感知和响应人类行为的AI系统提供了基础。

🚀 **语言模型优化代码性能：** SWE-Perf研究了语言模型在真实世界代码仓库中的性能优化能力，探索了LLMs在软件开发领域的应用潜力，包括代码生成、优化和调试。

💃 **空间音频驱动的人体动作生成：** MOSPA论文展示了如何利用空间音频信息来驱动人体动作生成，这为虚拟角色动画、交互式媒体等应用带来了新的可能性，使动作与声音更加同步和自然。

本期的 13 篇论文如下：

00:26 🧠 Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs（具身智能RAG与深度推理：LLM中RAG推理系统综述）

01:17 🧱 PhysX: Physical-Grounded 3D Asset Generation（PhysX：基于物理的3D资产生成）

02:04 🚗 MMHU: A Massive-Scale Multimodal Benchmark for Human Behavior Understanding（MMHU：一个用于人类行为理解的大规模多模态基准）

03:05 🚀 SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?（SWE-Perf：语言模型能否优化真实世界代码仓库的性能？）

04:00 💃 MOSPA: Human Motion Generation Driven by Spatial Audio（MOSPA：空间音频驱动的人体动作生成）

04:57 🏗 DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering（DrafterBench：用于土木工程中任务自动化的LLM基准测试）

05:58 🤖 Seq vs Seq: An Open Suite of Paired Encoders and Decoders（序列模型对比：一个开放的配对编码器与解码器套件）

06:38 🎬 AnyI2V: Animating Any Conditional Image with Motion Control（AnyI2V：通过运动控制动画化任何条件图像）

07:34 🎯 SpatialTrackerV2: 3D Point Tracking Made Easy（SpatialTrackerV2：化繁为简的3D点追踪）

08:27 🦎 Lizard: An Efficient Linearization Framework for Large Language Models（Lizard：一种用于大型语言模型的高效线性化框架）

09:14 🧰 Replacing thinking with tool usage enables reasoning in small language models（以工具使用代替思考：小语言模型中的推理能力提升）

10:05 🧙 AI Wizards at CheckThat! 2025: Enhancing Transformer-Based Embeddings with Sentiment for Subjectivity Detection in News Articles（CheckThat! 2025 挑战赛中的 AI 巫师：利用情感增强的 Transformer 嵌入改进新闻文章中的主观性检测）

10:51 🧠 RLEP: Reinforcement Learning with Experience Replay for LLM Reasoning（RLEP：基于经验回放的强化学习用于LLM推理）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI论文大型语言模型计算机视觉自然语言处理 AI研究

相关文章

阿里云：通义千问API日调用量破亿企业用户破9万

Microsoft unveils Phi-3 family of compact language models

Import AI 362: Amazon’s big speech model; fractal hyperparameters; and Google’s open models

Exploring the Frontiers of AI: The Emergence of LLM-4 Architectures

Is Claude 3 Outperforming GPT-4?

Implement RAG Using Weaviate, LangChain4j, and LocalAI

AI Revolution Journey With Qwen, RAG, and LangChain

Extracting Keywords From Text Using Natural Language Processing

Harmonizing AI: Crafting Personalized Song Suggestions

AI News Weekly - Issue #377: Next in AI : Pioneers' Predictions! - Mar 21st 2024