HuggingFace 每日AI论文速递 03月27日 07:02
2025.03.26 | 视频预测性能提升,多模态预训练效果显著。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期介绍了15篇论文,涉及视频建模、多模态预训练、图像检测等多个领域,涵盖多种技术和应用。

🎬基于下一帧预测的长程上下文自回归视频建模

🖼面向视觉基础模型的持续多模态预训练

🎬探索大型多模态模型在视频理解中的幻觉现象

📈基于随机生成与回滚预算强制的Flow模型推理时扩展

🖼基于大型多模态模型的合成图像检测与伪影解释

本期的 15 篇论文如下:

[00:22] 🎬 Long-Context Autoregressive Video Modeling with Next-Frame Prediction(基于下一帧预测的长程上下文自回归视频建模)

[01:01] 🖼 CoMP: Continual Multimodal Pre-training for Vision Foundation Models(CoMP:面向视觉基础模型的持续多模态预训练)

[01:42] 🎬 Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation(探索大型多模态模型在视频理解中的幻觉现象:基准、分析与缓解)

[02:28] 📈 Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing(基于随机生成与回滚预算强制的Flow模型推理时扩展)

[03:14] 🖼 Spot the Fake: Large Multimodal Model-Based Synthetic Image Detection with Artifact Explanation(揪出伪造:基于大型多模态模型的合成图像检测与伪影解释)

[03:54] 🖼 Scaling Vision Pre-Training to 4K Resolution(将视觉预训练扩展到4K分辨率)

[04:33] 🤔 Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking(三思而后行:通过扩展多轮测试时思考来增强LLM推理能力)

[05:15] 🖼 CoLLM: A Large Language Model for Composed Image Retrieval(CoLLM:用于组合图像检索的大型语言模型)

[05:53] 🤖 MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding(MDocAgent:用于文档理解的多模态多代理框架)

[06:35] 🖼 Latent Space Super-Resolution for Higher-Resolution Image Generation with Diffusion Models(基于扩散模型的潜在空间超分辨率高分辨率图像生成)

[07:13] 🔍 ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning(ReSearch:通过强化学习训练大型语言模型以进行搜索推理)

[07:54] 🛡 LookAhead Tuning: Safer Language Models via Partial Answer Previews(前瞻调优:通过部分答案预览实现更安全的语言模型)

[08:38] 💡 Frequency Dynamic Convolution for Dense Image Prediction(用于密集图像预测的频率动态卷积)

[09:18] 🖼 LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation(LPOSS:基于图像块和像素的标签传播,用于开放词汇语义分割)

[09:51] 🧬 Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation(基于直通引导的Gumbel-Softmax Flow Matching用于可控生物序列生成)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

论文 多模态 视频建模 图像检测 Flow模型
相关文章