HuggingFace 每日AI论文速递 07月26日 08:21
2025.07.25 | GSPO解决大模型训练崩溃;MUR提升LLM推理效率。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI速递精选了15篇最新研究论文,涵盖了人工智能领域的多个前沿方向。其中包括提升大型语言模型推理效率的MUR和LAPO方法,以及用于短片电影生成、可扩展3D地球生成和医学影像分割的创新技术。此外,还有在语音合成时长预测、概念漂移处理、多任务信息抽取以及文本嵌入融合等方面的最新进展。这些研究展示了AI在优化模型性能、拓展应用场景和提升生成质量方面的最新成果,为相关领域的研究和发展提供了新的思路和方向。

🧠 **MUR与LAPO:优化语言模型推理效率**。MUR(Momentum Uncertainty guided Reasoning)和LAPO(Length-Adaptive Policy Optimization)是两项旨在提升大型语言模型(LLMs)推理效率的研究。MUR通过动量不确定性引导推理,而LAPO则通过长度自适应策略优化,两者都致力于使LLMs在处理复杂任务时更加高效和准确。

🎬 **Captain Cinema:迈向短片电影生成**。该研究探索了如何利用AI技术生成短片电影,为内容创作开辟了新的可能性。这标志着AI在多模态内容生成领域的进一步深化,有望改变电影制作和叙事方式。

🌍 **EarthCrafter:可扩展3D地球生成**。EarthCrafter利用双稀疏潜在扩散技术,实现了大规模、高质量的3D地球模型生成。这项技术对于地理信息系统、虚拟现实和游戏开发等领域具有重要意义,能够提供逼真的地球环境。

📈 **TTS-VAR与DMOSpeech 2:语音合成技术的革新**。TTS-VAR提出了一种测试时缩放框架,用于视觉自回归生成,提升了生成效果。DMOSpeech 2则将强化学习应用于度量优化语音合成中的时长预测,旨在生成更自然、更具表现力的语音。

✨ **GloVe模型与GLiNER2:信息抽取与表示学习**。新一代GloVe模型(A New Pair of GloVes)在词向量表示方面有所突破。GLiNER2则是一个高效的多任务信息抽取系统,通过模式驱动的接口,能够处理更复杂的信息提取任务。

本期的 15 篇论文如下:

00:24 🚀 Group Sequence Policy Optimization(组序列策略优化)

00:53 🧠 MUR: Momentum Uncertainty guided Reasoning for Large Language Models(MUR:面向大型语言模型的动量不确定性引导推理)

01:30 🧠 LAPO: Internalizing Reasoning Efficiency via Length-Adaptive Policy Optimization(LAPO:内化推理效率的长度自适应策略优化)

02:09 🎬 Captain Cinema: Towards Short Movie Generation(电影队长:迈向短片电影生成)

02:58 📈 TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation(TTS-VAR:一种用于视觉自回归生成的测试时缩放框架)

03:36 🌍 EarthCrafter: Scalable 3D Earth Generation via Dual-Sparse Latent Diffusion(EarthCrafter:通过双稀疏潜在扩散实现可扩展三维地球生成)

04:23 💡 Hierarchical Budget Policy Optimization for Adaptive Reasoning(用于自适应推理的分层预算策略优化)

04:48 🔄 DriftMoE: A Mixture of Experts Approach to Handle Concept Drifts(DriftMoE:一种处理概念漂移的混合专家方法)

05:17 🚀 Technical Report of TeleChat2, TeleChat2.5 and T1(TeleChat2、TeleChat2.5和T1技术报告)

06:00 📈 DMOSpeech 2: Reinforcement Learning for Duration Prediction in Metric-Optimized Speech Synthesis(DMOSpeech 2:度量优化语音合成中时长预测的强化学习)

06:31 ✨ A New Pair of GloVes(新一代GloVe模型)

07:10 🚀 GLiNER2: An Efficient Multi-Task Information Extraction System with Schema-Driven Interface(GLiNER2:一个高效多任务模式驱动的信息抽取系统)

07:38 ⚡ TeEFusion: Blending Text Embeddings to Distill Classifier-Free Guidance(TeEFusion:融合文本嵌入以蒸馏无分类器引导)

08:22 ⚕ SegDT: A Diffusion Transformer-Based Segmentation Model for Medical Imaging(SegDT:一个基于扩散Transformer的医学影像分割模型)

08:52 🧩 Discovering and using Spelke segments(发现与应用 Spelke 分割)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI研究 语言模型 计算机视觉 语音合成 3D生成
相关文章