HuggingFace 每日AI论文速递 2024年12月05日
2024.11.19 每日AI论文 | 移动设备高效部署,具身AI虚拟探索
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI速递播客分享了16篇最新的AI领域论文,涵盖了多模态大语言模型、生成式模型、基础模型后训练范式、视频生成、扩散模型、检索增强生成等多个方向。其中,BlueLM-V-3B专注于移动设备上的多模态大语言模型,Generative World Explorer探索生成式世界,Search, Verify and Feedback则探讨了基础模型后训练的新范式。此外,还有关于视频动画生成、模型推理加速、医疗问答、文档辅助、视频编辑、语言模型构建等方面的研究成果。这些论文为AI领域的研究和应用提供了新的思路和方法,值得关注和学习。

🤔**BlueLM-V-3B**:针对移动设备的多模态大语言模型,实现了算法和系统协同设计,旨在提升移动设备上的AI体验。

🌍**Generative World Explorer**:探索生成式世界,为构建虚拟世界和游戏场景提供新的方法,可以实现更丰富、更具交互性的虚拟环境。

🔍**Search, Verify and Feedback**:提出通过验证器工程实现基础模型后训练的新范式,旨在提升模型的可靠性和安全性,解决AI模型可能存在的偏差和错误问题。

🎥**AnimateAnything**:提出了一种视频生成的连贯可控动画方法,可以实现对视频内容的精准控制,例如生成特定动作或表情的动画。

📚**Drowning in Documents**:研究了扩展重排序器推理对文档检索的影响,揭示了大规模文档检索中可能出现的问题,并为优化检索策略提供了参考。

本期的 16 篇论文如下:

[00:25] ? BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices(BlueLM-V-3B:移动设备上多模态大语言模型的算法与系统协同设计)

[01:06] ? Generative World Explorer(生成世界探索者)

[01:43] ? Search, Verify and Feedback: Towards Next Generation Post-training Paradigm of Foundation Models via Verifier Engineering(搜索、验证与反馈:通过验证器工程实现下一代基础模型的后训练范式)

[02:24] ? AnimateAnything: Consistent and Controllable Animation for Video Generation(动画任何事物:视频生成的连贯可控动画)

[03:08] ? Top-$nσ$: Not All Logits Are You Need(Top-$nσ$:并非所有对数都需要)

[03:55] ? Awaker2.5-VL: Stably Scaling MLLMs with Parameter-Efficient Mixture of Experts(Awaker2.5-VL:通过参数高效混合专家稳定扩展多模态大语言模型)

[04:40] ⚡ SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers(SmoothCache:一种用于扩散变换器的通用推理加速技术)

[05:19] ? Drowning in Documents: Consequences of Scaling Reranker Inference(文档淹没:扩展重排序器推理的后果)

[06:00] ? Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering(医疗问答系统中检索增强生成系统的综合与实用评估)

[06:37] ? SlimLM: An Efficient Small Language Model for On-Device Document Assistance(SlimLM:一种用于设备端文档辅助的高效小型语言模型)

[07:19] ? VeGaS: Video Gaussian Splatting(视频高斯喷射)

[07:50] ? Adaptive Decoding via Latent Preference Optimization(通过潜在偏好优化的自适应解码)

[08:27] ? StableV2V: Stablizing Shape Consistency in Video-to-Video Editing(稳定视频编辑:在视频到视频编辑中保持形状一致性)

[09:11] ? LLäMmlein: Compact and Competitive German-Only Language Models from Scratch(LLäMmlein:从头开始构建紧凑且有竞争力的德语专用语言模型)

[09:43] ? FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on(FitDiT:提升高保真虚拟试穿的真实服装细节)

[10:18] ? Evaluating the role of `Constitutions' for learning from AI feedback(评估‘宪法’在从AI反馈中学习的作用)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI速递 多模态 大语言模型 基础模型 视频生成
相关文章