HuggingFace 每日AI论文速递 05月31日 07:12
2025.05.30 | 推理扩展提升表格推理;多模态模型视频反馈有待优化。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI速递精选了15篇最新论文,涵盖表格推理、多模态大语言模型、空间智能、推理学习、GUI自动化、视频推理、软件工程、幻觉问题、CAD重建、扩散模型、3D高斯溅射、问题解决基准评测、偏好可解释性、统一多模态模型以及语音基础模型等多个领域。这些研究探索了AI在不同任务中的应用和挑战,展示了AI技术的最新进展和未来发展方向。关注AI速递,获取更多AI领域资讯!

📊 **Table-R1:表格推理的推理时扩展** 研究探索了如何提升表格推理的效率,通过推理时扩展来优化模型性能。

🤖 **VF-Eval:评估多模态大语言模型生成AIGC视频反馈的能力** 该研究旨在评估多模态大语言模型在理解和评论AIGC视频方面的能力,为AIGC视频生成提供有价值的反馈。

🧠 **Spatial-MLLM:提升多模态大语言模型在基于视觉的空间智能方面的能力** 重点在于提高多模态大语言模型在处理视觉空间信息时的智能水平,使其能够更好地理解和利用空间关系。

🛠 **SWE-bench Goes Live!** 这是一个实时更新的问题解决基准评测,用于评估和比较软件工程领域的各种方法和工具。

🗣 **FAMA:首个面向英语和意大利语的大规模开放科学语音基础模型** FAMA模型是为英语和意大利语设计的开放科学语音基础模型,旨在推动语音识别和语音合成技术的发展。

本期的 15 篇论文如下:

00:22 📊 Table-R1: Inference-Time Scaling for Table Reasoning(Table-R1:表格推理的推理时扩展)

01:02 🤖 VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos(VF-Eval:评估多模态大语言模型生成AIGC视频反馈的能力)

01:45 🧠 Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence(Spatial-MLLM:提升多模态大语言模型在基于视觉的空间智能方面的能力)

02:25 🧠 The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason(行胜于言:论证推理学习中的噪声奖励)

03:11 🤖 ZeroGUI: Automating Online GUI Learning at Zero Human Cost(ZeroGUI:零人工成本的在线GUI学习自动化)

03:45 🤔 VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?(VideoReasonBench:多模态大语言模型能否执行以视觉为中心的复杂视频推理?)

04:39 🧬 Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering(Satori-SWE: 面向高效软件工程的演化测试时扩展)

05:15 🤔 Are Reasoning Models More Prone to Hallucination?(推理模型更容易产生幻觉吗?)

05:51 🤖 cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning(cadrille:基于在线强化学习的多模态CAD重建)

06:29 🎨 D-AR: Diffusion via Autoregressive Models(D-AR:基于自回归模型的扩散)

07:16 📸 AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views(AnySplat:来自非约束视角的Feed-forward 3D高斯溅射)

07:53 🛠 SWE-bench Goes Live!(SWE-bench-Live:一个实时更新的问题解决基准评测)

08:36 💡 Multi-Domain Explainability of Preferences(偏好的多领域可解释性)

09:16 🤖 UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning(UniRL:基于监督学习和强化学习的自提升统一多模态模型)

10:01 🗣 FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian(FAMA:首个面向英语和意大利语的大规模开放科学语音基础模型)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI论文 多模态 大语言模型 语音模型 软件工程
相关文章