2025.03.27 | Dita跨模态策略优异，Qwen2.5-Omni多模态实时响应。

本期的 15 篇论文如下：

[00:26] 🤖 Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy（Dita：扩展扩散Transformer以实现通用视觉-语言-动作策略）

[01:07] 🤖 Qwen2.5-Omni Technical Report（Qwen2.5-Omni技术报告）

[01:46] 🧩 LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?（乐高拼图：多模态大型语言模型在多步空间推理方面的表现如何？）

[02:35] 🎬 Wan: Open and Advanced Large-Scale Video Generative Models（万：开放且先进的大规模视频生成模型）

[03:24] 💡 Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models（无条件先验至关重要！改进微调扩散模型的条件生成）

[04:04] 🔍 Open Deep Search: Democratizing Search with Open-source Reasoning Agents（开放深度搜索：通过开源推理Agent实现搜索的民主化）

[04:44] 🖼 GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers（GenHancer：不完美的生成模型是隐藏的强大视觉中心增强器）

[05:24] 📊 BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation（BizGen：推进信息图生成中的文章级可视化文本渲染）

[06:01] 🤖 Gemini Robotics: Bringing AI into the Physical World（Gemini Robotics：将人工智能带入物理世界）

[06:39] 🧠 MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search（MCTS-RAG：利用蒙特卡洛树搜索增强检索增强生成）

[07:22] 🚀 AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset（AccVideo：利用合成数据集加速视频扩散模型）

[07:54] 🖼 ViLBench: A Suite for Vision-Language Process Reward Modeling（ViLBench：一个用于视觉-语言过程奖励建模的套件）

[08:33] 💾 LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation（LogQuant：通过卓越精度保持实现KV缓存的对数分布2比特量化）

[09:12] 🚗 ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems（ADS-Edit：面向自动驾驶系统的多模态知识编辑数据集）

[09:55] 🖼 Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models（超越文字：通过多模态自回归模型推进长文本图像生成）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader