HuggingFace 每日AI论文速递 03月22日 07:02
2025.03.21 | 蒸馏提升超分辨率效率,优化推理减少计算负担。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了近期发布的15篇AI领域论文,涵盖了图像超分辨率、大型语言模型(LLM)高效推理、形状生成、LLM-based智能体评估、可扩展扩散Transformer、物理常识推理、扩散模型蒸馏、视频大语言模型量化、数学问题求解、照片重塑、视觉游戏、知识学习、超分辨率自适应、扩散Transformer扩展、以及可控视频生成等多个热门研究方向。这些论文展示了AI技术在不同领域的最新进展和应用,为研究者提供了重要的参考。

🖼️ 图像处理与生成:包括基于蒸馏的单步残差转移扩散超分辨率、释放Vecset扩散模型以实现快速形状生成、扩散模型的尺度wise蒸馏、无限的照片重塑、以及简易的超分辨率自适应等,涉及图像质量提升、形状生成、风格迁移等技术。

🤖 大型语言模型(LLM)相关:涵盖了LLM高效推理综述、LLM-based智能体评估、视频大语言模型的即插即用1.x-Bit KV缓存量化、通过指令融合增强LLM解决数学问题的能力,以及通过后训练大规模视觉语言模型玩视觉游戏等,反映了LLM在推理、智能体、视频处理等方面的应用。

🧠 推理与知识学习:包括从物理常识到具身推理的Cosmos-Reason1、电路感知编辑实现通用知识学习器等,探索了AI在常识推理和知识学习方面的进展。

🎨 扩散模型与Transformer:涉及用于可扩展扩散Transformer的动态Token选择、专家竞赛:一种灵活的路由策略,用于扩展具有混合专家模型的扩散Transformer、以及基于稠密到稀疏轨迹引导的可控视频生成等,展示了扩散模型和Transformer在视频生成等方面的应用。

本期的 15 篇论文如下:

[00:23] 🖼 One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation(基于蒸馏的单步残差转移扩散超分辨率)

[01:01] 🤔 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models(停止过度思考:大型语言模型高效推理综述)

[01:38] 🚀 Unleashing Vecset Diffusion Model for Fast Shape Generation(释放Vecset扩散模型以实现快速形状生成)

[02:18] 🤖 Survey on Evaluation of LLM-based Agents(基于大型语言模型(LLM)的智能体评估方法综述)

[02:56] 🎨 DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers(DiffMoE:用于可扩展扩散Transformer的动态Token选择)

[03:33] 🤖 Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning(Cosmos-Reason1:从物理常识到具身推理)

[04:14] 🖼 Scale-wise Distillation of Diffusion Models(扩散模型的尺度wise蒸馏)

[04:54] 🗜 Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models(面向视频大语言模型的即插即用1.x-Bit KV缓存量化)

[05:36] 🧮 MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion(MathFusion:通过指令融合增强大型语言模型解决数学问题的能力)

[06:17] 🖼 InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity(无限的你:在保留身份的同时进行灵活的照片重塑)

[06:56] 🎮 JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse(JARVIS-VLA:通过后训练大规模视觉语言模型,使用键盘和鼠标玩视觉游戏)

[07:41] 🧠 CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners(CaKE:电路感知编辑实现通用知识学习器)

[08:26] 🖼 Ultra-Resolution Adaptation with Ease(简易的超分辨率自适应)

[09:04] 🎨 Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts(专家竞赛:一种灵活的路由策略,用于扩展具有混合专家模型的扩散Transformer)

[09:48] 🎬 MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance(MagicMotion:基于稠密到稀疏轨迹引导的可控视频生成)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 论文 LLM 图像 扩散模型
相关文章