HuggingFace 每日AI论文速递 2024年12月05日
2024.11.28 每日AI论文 | 实例控制增强,4D场景生成突破
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期介绍了21篇论文,涉及视觉生成、文本与图像生成、3D内容创建、语言模型等多个领域,展示了丰富的研究成果。

🎥ROICtrl提升视觉生成的实例控制

🎥CAT4D使用多视角视频扩散模型在4D中创建内容

📚交错场景图用于交错文本与图像生成评估

本期的 21 篇论文如下:

[00:24] ? ROICtrl: Boosting Instance Control for Visual Generation(ROICtrl:提升视觉生成的实例控制)

[01:08] ? CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models(CAT4D:使用多视角视频扩散模型在4D中创建任何内容)

[01:55] ? Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment(交错场景图用于交错文本与图像生成评估)

[02:38] ? MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation(MARVEL-40M+:高保真文本到3D内容创建的多层次视觉细化)

[03:21] ? Large Language Model-Brained GUI Agents: A Survey(大语言模型驱动的图形用户界面代理:综述)

[03:57] ? DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching(DreamCache:通过特征缓存实现无需微调的轻量级个性化图像生成)

[04:35] ⚡ Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient(协同解码使视觉自回归建模更高效)

[05:14] ? Identity-Preserving Text-to-Video Generation by Frequency Decomposition(基于频率分解的身份保持文本到视频生成)

[05:47] ? DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving(扩散驱动:用于端到端自动驾驶的截断扩散模型)

[06:31] ? 3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes(三维凸包拼接:基于三维平滑凸包的辐射场渲染)

[07:10] ? Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters(制作可动画化:一种高效的3D角色动画制作框架)

[07:48] ? Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis(Omegance:扩散合成中多粒度控制的单一参数)

[08:26] ? ChatRex: Taming Multimodal LLM for Joint Perception and Understanding(ChatRex:驯服多模态大语言模型以实现联合感知与理解)

[09:26] ? UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing(UniPose:一种统一的多模态人体姿态理解、生成和编辑框架)

[10:06] ? Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics(优化脑肿瘤分割与MedNeXt:BraTS 2024 SSA与儿科研究)

[10:43] ⏱ Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding(草稿模型知道何时停止:一种用于推测解码的自验证长度策略)

[11:27] ? VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format(视频大语言模型何时发言:通过视频-文本二重奏交互格式增强时间敏感视频理解)

[12:03] ? Adaptive Blind All-in-One Image Restoration(自适应盲全合一图像恢复)

[12:39] ? Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing(编辑与我的脸将不再保持:针对恶意生成编辑的个人生物识别防御)

[13:18] ? Video-Guided Foley Sound Generation with Multimodal Controls(基于多模态控制的音效生成)

[13:48] ? Training and Evaluating Language Models with Template-based Data Generation(基于模板的数据生成训练与评估语言模型)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视觉生成 文本与图像 3D内容创建
相关文章