2025.06.23 | DnD降低计算开销；视觉引导提升RAG性能。

HuggingFace 每日AI论文速递 13小时前

2025.06.23 | DnD降低计算开销；视觉引导提升RAG性能。

本期AI论文速览聚焦于多模态理解与生成领域的前沿研究。涵盖了从大语言模型、视觉引导、3D生成、视频理解到交通仿真等多个方向。论文探讨了如何通过创新方法提升模型性能，优化资源利用，并探索更高效、更具交互性的AI应用。内容包括了拖拽式大语言模型、视觉引导分块、视觉生成模型中的注意力机制优化、多智能体合作、游戏视频生成、3D全景图生成、3D资产生成、KV缓存压缩、模态对齐、无偏视角摘要以及长期交通仿真等多个方面。

🧲 **拖拽式大语言模型(Drag-and-Drop LLMs)**：该研究提出了一种零样本提示到权重的方法，旨在简化大语言模型的操作和应用，使用户能够更直观地控制模型。

🖼 **视觉引导分块(Vision-Guided Chunking)**：该方案通过多模态文档理解增强RAG（Retrieval-Augmented Generation），提升信息检索的准确性和效率。

🤖 **多智能体合作(VIKI-R)**：该研究通过强化学习协调具身多智能体合作，为复杂任务中的智能体协同提供了新的思路。

🖼 **3D生成技术(Hunyuan3D & DreamCube)**：介绍了基于多平面同步的3D全景图生成和用于高保真3D资产生成的技术，展示了在3D内容创作方面的最新进展。

🧠 **多模态理解与生成(UniFork)**：探索模态对齐以实现统一的多模态理解与生成，旨在提升模型在不同模态数据上的处理能力。

本期的 12 篇论文如下：

00:23 🧲 Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights（拖拽式大语言模型：零样本提示到权重）

01:04 🖼 Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding（视觉引导分块：增强RAG的多模态文档理解方案）

01:49 🔀 PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models（PAROAttention：视觉生成模型中高效稀疏和量化注意力的模式感知重排序）

02:30 🤖 VIKI-R: Coordinating Embodied Multi-Agent Cooperation via Reinforcement Learning（VIKI-R：通过强化学习协调具身多智能体合作）

03:08 🎮 Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition（Hunyuan-GameCraft：基于混合历史条件的高动态交互式游戏视频生成）

03:48 🖼 DreamCube: 3D Panorama Generation via Multi-plane Synchronization（DreamCube：基于多平面同步的3D全景图生成）

04:26 🖼 Hunyuan3D 2.5: Towards High-Fidelity 3D Assets Generation with Ultimate Details（Hunyuan3D 2.5：迈向具有极致细节的高保真3D资产生成）

05:06 💽 InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding（InfiniPot-V：面向流视频理解的内存约束KV缓存压缩）

05:48 🖼 Hunyuan3D 2.1: From Images to High-Fidelity 3D Assets with Production-Ready PBR Material（Hunyuan3D 2.1：从图像到具有生产级PBR材质的高保真3D资产）

06:36 🧠 UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation（UniFork：探索模态对齐以实现统一的多模态理解与生成）

07:16 ⚖ Reranking-based Generation for Unbiased Perspective Summarization（基于重排序生成方法的无偏视角摘要）

07:52 🚗 Long-term Traffic Simulation with Interleaved Autoregressive Motion and Scenario Generation（基于交错自回归运动和场景生成的长期交通仿真）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI论文多模态生成大语言模型 3D生成

相关文章

Import AI 370: 213 AI safety challenges; everything becomes a game; Tesla’s big cluster

Exploring the Frontiers of AI: The Emergence of LLM-4 Architectures

Graphs and Language

LangChain, Python, and Heroku

AI News Weekly - Issue #378: Top AI Books to Read in 2024 - Mar 28th 2024

When More is More? When For an LLM is Enough?

? 第十一期即刻AIGC大目录来了，本期名为《千脑智能》。距离上期《真实世界的脉络》两个月，AI 新能力在各个生态位的喷发让人应接不暇。大模型发布速度有增...

Amazon’s New AI Assistant Is an Editor to Prevent Hallucinations

ChuXin: A Fully Open-Sourced Language Model with a Size of 1.6 Billion Parameters

Localizing and Editing Knowledge in LLMs with Peter Hase - #679