2025.07.25 | GSPO解决大模型训练崩溃；MUR提升LLM推理效率。

HuggingFace 每日AI论文速递 07月26日 08:21

2025.07.25 | GSPO解决大模型训练崩溃；MUR提升LLM推理效率。

本期AI速递精选了15篇最新研究论文，涵盖了人工智能领域的多个前沿方向。其中包括提升大型语言模型推理效率的MUR和LAPO方法，以及用于短片电影生成、可扩展3D地球生成和医学影像分割的创新技术。此外，还有在语音合成时长预测、概念漂移处理、多任务信息抽取以及文本嵌入融合等方面的最新进展。这些研究展示了AI在优化模型性能、拓展应用场景和提升生成质量方面的最新成果，为相关领域的研究和发展提供了新的思路和方向。

🧠 **MUR与LAPO：优化语言模型推理效率**。MUR（Momentum Uncertainty guided Reasoning）和LAPO（Length-Adaptive Policy Optimization）是两项旨在提升大型语言模型（LLMs）推理效率的研究。MUR通过动量不确定性引导推理，而LAPO则通过长度自适应策略优化，两者都致力于使LLMs在处理复杂任务时更加高效和准确。

🎬 **Captain Cinema：迈向短片电影生成**。该研究探索了如何利用AI技术生成短片电影，为内容创作开辟了新的可能性。这标志着AI在多模态内容生成领域的进一步深化，有望改变电影制作和叙事方式。

🌍 **EarthCrafter：可扩展3D地球生成**。EarthCrafter利用双稀疏潜在扩散技术，实现了大规模、高质量的3D地球模型生成。这项技术对于地理信息系统、虚拟现实和游戏开发等领域具有重要意义，能够提供逼真的地球环境。

📈 **TTS-VAR与DMOSpeech 2：语音合成技术的革新**。TTS-VAR提出了一种测试时缩放框架，用于视觉自回归生成，提升了生成效果。DMOSpeech 2则将强化学习应用于度量优化语音合成中的时长预测，旨在生成更自然、更具表现力的语音。

✨ **GloVe模型与GLiNER2：信息抽取与表示学习**。新一代GloVe模型（A New Pair of GloVes）在词向量表示方面有所突破。GLiNER2则是一个高效的多任务信息抽取系统，通过模式驱动的接口，能够处理更复杂的信息提取任务。

本期的 15 篇论文如下：

00:24 🚀 Group Sequence Policy Optimization（组序列策略优化）

00:53 🧠 MUR: Momentum Uncertainty guided Reasoning for Large Language Models（MUR：面向大型语言模型的动量不确定性引导推理）

01:30 🧠 LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization（LAPO：内化推理效率的长度自适应策略优化）

02:09 🎬 Captain Cinema: Towards Short Movie Generation（电影队长：迈向短片电影生成）

02:58 📈 TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation（TTS-VAR：一种用于视觉自回归生成的测试时缩放框架）

03:36 🌍 EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion（EarthCrafter：通过双稀疏潜在扩散实现可扩展三维地球生成）

04:23 💡 Hierarchical Budget Policy Optimization for Adaptive Reasoning（用于自适应推理的分层预算策略优化）

04:48 🔄 DriftMoE: A Mixture of Experts Approach to Handle Concept Drifts（DriftMoE：一种处理概念漂移的混合专家方法）

05:17 🚀 Technical Report of TeleChat2, TeleChat2.5 and T1（TeleChat2、TeleChat2.5和T1技术报告）

06:00 📈 DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis（DMOSpeech 2：度量优化语音合成中时长预测的强化学习）

06:31 ✨ A New Pair of GloVes（新一代GloVe模型）

07:10 🚀 GLiNER2: An Efficient Multi-Task Information Extraction System with Schema-Driven Interface（GLiNER2：一个高效多任务模式驱动的信息抽取系统）

07:38 ⚡ TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance（TeEFusion：融合文本嵌入以蒸馏无分类器引导）

08:22 ⚕ SegDT: A Diffusion Transformer-Based Segmentation Model for Medical Imaging（SegDT：一个基于扩散Transformer的医学影像分割模型）

08:52 🧩 Discovering and using Spelke segments（发现与应用 Spelke 分割）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI研究语言模型计算机视觉语音合成 3D生成

相关文章

Coalition of news publishers sue Microsoft and OpenAI

Exploring EfficientAD: Accurate Visual Anomaly Detection at Millisecond-Level Latencies: A Brief Overview

Top Important Computer Vision Papers for the Week from 29/04 to 05/05

正面硬刚OpenAI与谷歌？微软竟然偷偷自研出5000亿参数大模型

This AI Paper by Microsoft and Tsinghua University Introduces YOCO: A Decoder-Decoder Architectures for Language Models

V-JEPA, AI Reasoning from a Non-Generative Architecture with Mido Assran - #677

OLMo: Everything You Need to Train an Open Source LLM with Akshita Bhagia - #674

AI Trends 2024: Computer Vision with Naila Murray - #665

Multilingual LLMs and the Values Divide in AI with Sara Hooker - #651

BloombergGPT - an LLM for Finance with David Rosenberg - #639