HuggingFace 每日AI论文速递 2024年12月18日
2024.12.17 每日AI论文 | 提升检索生成效率,优化视觉生成评估。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期精选18篇AI前沿论文,涵盖大语言模型、图像处理、3D场景理解等多个领域。研究亮点包括RetroLLM如何提升大模型检索能力,Evaluation Agent如何高效评估视觉生成模型,以及BrushEdit的一站式图像编辑功能。此外,还有字节潜在变换器、因果扩散变换器等创新模型架构的探索,以及如何利用更小的语言模型进行指令进化。论文还涉及3D头像生成、室内场景新视角合成、音频大模型等,展示了AI技术在各领域的最新进展。

🧠 RetroLLM通过在生成过程中检索细粒度证据,显著提升大型语言模型的性能。

🎨 BrushEdit提供一站式图像修复和编辑功能,简化了图像处理流程。

🧩 字节潜在变换器研究表明,在模型扩展方面,补丁尺度比标记尺度更具优势。

🤖 研究发现,更小的语言模型在指令进化方面表现出更高的效率。

🌟 IDArb技术实现了在任意数量输入视图和光照条件下的内在分解,具有广泛应用前景。

本期的 18 篇论文如下:

[00:23] ? RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation(RetroLLM:赋能大型语言模型在生成过程中检索细粒度证据)

[01:05] ⚡ Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models(评估代理:高效且可提示的视觉生成模型评估框架)

[01:45] ? BrushEdit: All-In-One Image Inpainting and Editing(BrushEdit:一站式图像修复与编辑)

[02:27] ? ColorFlow: Retrieval-Augmented Image Sequence Colorization(ColorFlow:检索增强型图像序列着色)

[03:10] ? Byte Latent Transformer: Patches Scale Better Than Tokens(字节潜在变换器:补丁尺度优于标记)

[03:56] ? Causal Diffusion Transformers for Generative Modeling(因果扩散变换器用于生成建模)

[04:33] ? Smaller Language Models Are Better Instruction Evolvers(更小的语言模型是更好的指令进化器)

[05:16] ? IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations(IDArb:任意数量输入视图和光照下的内在分解)

[06:02] ? SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models(SPaR:通过树搜索优化自我对弈以提升大型语言模型的指令遵循能力)

[06:47] ? Wonderland: Navigating 3D Scenes from a Single Image(奇境:从单张图像导航3D场景)

[07:32] ? GaussianProperty: Integrating Physical Properties to 3D Gaussians with LMMs(高斯属性:将物理属性集成到3D高斯分布中与LMMs结合)

[08:18] ⚡ SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator(SepLLM:通过将一段内容压缩为一个分隔符来加速大型语言模型)

[09:06] ? Wonderful Matrices: Combining for a More Efficient and Effective Foundation Model Architecture(奇妙矩阵:结合以实现更高效和有效的基模型架构)

[09:46] ? StrandHead: Text to Strand-Disentangled 3D Head Avatars Using Hair Geometric Priors(StrandHead:基于头发几何先验的文本生成解耦3D头部虚拟形象)

[10:35] ? MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes(MOVIS:增强室内场景多物体新颖视角合成)

[11:19] ? Whisper-GPT: A Hybrid Representation Audio Large Language Model(Whisper-GPT:一种混合表示的音频大语言模型)

[12:10] ? TidyBot++: An Open-Source Holonomic Mobile Manipulator for Robot Learning(TidyBot++:用于机器人学习的开源全向移动机械手)

[13:01] ? Just a Simple Transformation is Enough for Data Protection in Vertical Federated Learning(只需简单变换即可实现纵向联邦学习中的数据保护)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大语言模型 图像处理 3D场景 模型架构 AI前沿
相关文章