HuggingFace 每日AI论文速递 2024年12月05日
2024.12.02 每日AI论文 | HiAR-ICL提升复杂任务表现,多模态模型领域适应增强。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期介绍了 14 篇论文,涉及上下文学习推理、多模态语言模型、视频相关技术、图像生成、文本分类等多个领域的研究成果。

🧠通过蒙特卡洛树搜索实现上下文学习中的高级自动化推理范式。

🌐针对多模态大语言模型的领域特定后训练研究。

🎥涵盖多种视频技术,如视频深度估计、运动控制等方面的探索。

🌊将离散标记转换为连续运动的相关研究。

📹对视频扩散变换器中 3D 相机控制的分析与改进。

本期的 14 篇论文如下:

[00:25] ? Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS(超越示例:通过蒙特卡洛树搜索在上下文学习中的高级自动化推理范式)

[01:06] ? On Domain-Specific Post-Training for Multimodal Large Language Models(针对多模态大语言模型的领域特定后训练研究)

[01:39] ? Video Depth without Video Models(无需视频模型的视频深度估计)

[02:10] ? Puzzle: Distillation-Based NAS for Inference-Optimized LLMs(谜题:基于蒸馏的神经架构搜索用于优化推理的大型语言模型)

[02:58] ⏱ Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model(时间步嵌入提示:视频扩散模型的缓存时机)

[03:39] ? Trajectory Attention for Fine-grained Video Motion Control(细粒度视频运动控制的轨迹注意力)

[04:26] ? FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion(FAM扩散:频率与注意力调制用于稳定扩散的高分辨率图像生成)

[05:07] ? DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding(DisCoRD:通过修正流解码将离散标记转换为连续运动)

[05:52] ? AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos(AlphaTablets:单目视频三维平面重建的通用平面表示)

[06:30] ? Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing(每帧一览:视频-Ma²mba高效长视频理解的多轴梯度检查点技术)

[07:07] ? AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers(AC3D:分析并改进视频扩散变换器中的3D相机控制)

[07:52] ? LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification(无手动标注数据的文本分类LLM师生框架:以IPTC新闻主题分类为例)

[08:38] ? Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling(时空跳跃引导增强视频扩散采样)

[09:09] ? Reverse Thinking Makes LLMs Stronger Reasoners(逆向思维使大型语言模型成为更强的推理者)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

上下文学习 多模态语言模型 视频技术 图像生成 文本分类
相关文章