HuggingFace 每日AI论文速递 2024年12月05日
【月末特辑】11月最火AI论文 | OpenCoder性能媲美专有模型,SDXL Turbo增强图像模型可解释性。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期介绍了10篇论文,涉及代码大语言模型、文本到图像模型、视觉生成、摄像机控制、3D网格生成、世界探索、知识建模、激活技术、对象插入、多模态模型推理能力提升等内容。

📜OpenCoder是顶级代码大语言模型的开放食谱

🔍使用稀疏自编码器解释文本到图像模型的SDXL Turbo

🖼ROICtrl可提升视觉生成的实例控制

🎥ReCapture用于生成用户提供视频的摄像机控制

🌐LLaMA-Mesh将3D网格生成与语言模型统一

本期的 10 篇论文如下:

[00:41] TOP1(?109) | ? OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models(开放编码器:顶级代码大语言模型的开放食谱)

[02:35] TOP2(?75) | ? Unpacking SDXL Turbo: Interpreting Text-to-Image Models with Sparse Autoencoders(解构SDXL Turbo:使用稀疏自编码器解释文本到图像模型)

[04:35] TOP3(?72) | ? ROICtrl: Boosting Instance Control for Visual Generation(ROICtrl:提升视觉生成的实例控制)

[06:38] TOP4(?69) | ? ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning(ReCapture:使用掩码视频微调生成用户提供视频的生成性摄像机控制)

[08:21] TOP5(?68) | ? LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models(LLaMA-Mesh:将3D网格生成与语言模型统一)

[10:13] TOP6(?67) | ? Generative World Explorer(生成世界探索者)

[12:39] TOP7(?64) | ? HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems(HtmlRAG:在RAG系统中,HTML比纯文本更适合建模检索知识)

[14:52] TOP8(?63) | ⚡ BitNet a4.8: 4-bit Activations for 1-bit LLMs(BitNet a4.8:1位大语言模型的4位激活)

[16:41] TOP9(?62) | ? Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models(Add-it:基于预训练扩散模型的图像无训练对象插入)

[18:16] TOP10(?61) | ? Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization(通过混合偏好优化提升多模态大语言模型的推理能力)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

论文 技术领域 模型研究
相关文章