HuggingFace 每日AI论文速递 03月28日
2025.03.27 | Dita跨模态策略优异,Qwen2.5-Omni多模态实时响应。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期介绍了15篇论文,涉及通用视觉-语言-动作策略、技术报告、多步空间推理、视频生成模型等多个领域的AI研究成果。

🤖Dita扩展扩散Transformer实现通用策略

🧩探讨多模态大型语言模型空间推理表现

🎬万是开放且先进的大规模视频生成模型

本期的 15 篇论文如下:

[00:26] 🤖 Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy(Dita:扩展扩散Transformer以实现通用视觉-语言-动作策略)

[01:07] 🤖 Qwen2.5-Omni Technical Report(Qwen2.5-Omni技术报告)

[01:46] 🧩 LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?(乐高拼图:多模态大型语言模型在多步空间推理方面的表现如何?)

[02:35] 🎬 Wan: Open and Advanced Large-Scale Video Generative Models(万:开放且先进的大规模视频生成模型)

[03:24] 💡 Unconditional Priors Matter! Improving Conditional Generation of Fine-Tuned Diffusion Models(无条件先验至关重要!改进微调扩散模型的条件生成)

[04:04] 🔍 Open Deep Search: Democratizing Search with Open-source Reasoning Agents(开放深度搜索:通过开源推理Agent实现搜索的民主化)

[04:44] 🖼 GenHancer: Imperfect Generative Models are Secretly Strong Vision-Centric Enhancers(GenHancer:不完美的生成模型是隐藏的强大视觉中心增强器)

[05:24] 📊 BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation(BizGen:推进信息图生成中的文章级可视化文本渲染)

[06:01] 🤖 Gemini Robotics: Bringing AI into the Physical World(Gemini Robotics:将人工智能带入物理世界)

[06:39] 🧠 MCTS-RAG: Enhancing Retrieval-Augmented Generation with Monte Carlo Tree Search(MCTS-RAG:利用蒙特卡洛树搜索增强检索增强生成)

[07:22] 🚀 AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset(AccVideo:利用合成数据集加速视频扩散模型)

[07:54] 🖼 ViLBench: A Suite for Vision-Language Process Reward Modeling(ViLBench:一个用于视觉-语言过程奖励建模的套件)

[08:33] 💾 LogQuant: Log-Distributed 2-Bit Quantization of KV Cache with Superior Accuracy Preservation(LogQuant:通过卓越精度保持实现KV缓存的对数分布2比特量化)

[09:12] 🚗 ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems(ADS-Edit:面向自动驾驶系统的多模态知识编辑数据集)

[09:55] 🖼 Beyond Words: Advancing Long-Text Image Generation via Multimodal Autoregressive Models(超越文字:通过多模态自回归模型推进长文本图像生成)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Dita 空间推理 视频生成
相关文章