上周多模态论文推荐：R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

2025-03-17 19:00 浙江

这篇文章推荐了上周多模态领域的热门论文，涵盖多模态理解和生成、情感识别、对话学习、推理能力提升等多个研究方向。

作者：InternLM、Qwen 等 LLM
每周一览热门论文版，顶会投稿选题不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的上周「多模态」方向的热门论文吧！

Unified Reward Model for Multimodal Understanding and Generation

论文链接：
https://modelscope.cn/papers/124332

简要介绍：由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集，包含图像和视频生成/理解任务，并利用该模型进行自动构建高质量偏好对数据，最终通过DPO优化视觉模型。实验结果表明，联合学习评估多样化视觉任务可以带来显著的相互益处。

核心图片：

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

论文链接：
https://modelscope.cn/papers/126628

简要介绍：提出了Generation Chain-of-Thought (GoT)，这是一种将推理能力融入视觉生成和编辑的新范式。该工作将常规的文本到图像生成和编辑转变为推理引导框架，分析语义关系和空间排列。研究团队构建了包含900万样本的大规模GoT数据集，并开发了一个统一框架，整合了Qwen2.5-VL的推理能力和扩散模型的生成能力。

核心图片：

Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

论文链接：
https://modelscope.cn/papers/125186

简要介绍：该研究介绍了MMDiag，一个多轮多模态对话数据集，通过精心设计的规则和GPT辅助生成，特点是问题之间、问题与图像之间以及不同图像区域之间的强相关性。同时提出了DiagNote，一个具备多模态定位和推理能力的MLLM，包含两个相互作用的模块(Deliberate和Gaze)，在多轮对话中执行思维链和注释。

核心图片：

R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

论文链接：
https://modelscope.cn/papers/124176

简要介绍：这项工作首次将可验证奖励强化学习(RLVR)应用于全模态大型语言模型用于情感识别，这是一项视觉和音频模态都起关键作用的任务。研究利用RLVR优化Omni模型，在三个关键方面显著提升其性能：推理能力、情感识别准确性和泛化能力。这种方法不仅提高了模型在分布内数据上的整体性能，还在分布外数据集评估中展示了更强的鲁棒性。

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

论文链接：
https://modelscope.cn/papers/126372

简要介绍：由清华大学、上海AI实验室等机构提出了VisualPRM，一个拥有8B参数的多模态过程奖励模型，它通过Best-of-N评估策略显著提升了现有多模态大语言模型的推理能力。该模型改进了三种类型、四种不同规模的MLLM的推理性能，即使应用于InternVL2.5-78B这样的高能力模型，也在七项多模态推理基准上获得了5.9点的提升。

核心图片：

UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

论文链接：
https://modelscope.cn/papers/125793

简要介绍：研究提出了UniF^2ace，这是第一个专为精细人脸理解和生成设计的统一多模态模型(UMM)。该模型通过两种互补的扩散技术和两级专家混合架构，在特制的数据集上进行训练。团队构建了大规模人脸数据集UniF^2ace-130K，包含13万图像-文本对和100万问答对，涵盖广泛的人脸属性，并建立了离散扩散分数匹配和掩码生成模型之间的理论联系。

核心图片：

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

论文链接：
https://modelscope.cn/papers/126311

简要介绍：这项工作提出了4D LangSplat，一种学习4D语言场的方法，以便在动态场景中处理时间敏感或时间无关的开放词汇查询。该方法绕过了从视觉特征学习语言场的传统途径，而是直接从多模态大语言模型(MLLM)生成的对象级视频描述文本中学习。研究提出了多模态对象级视频提示方法，生成详细、时间一致的高质量描述，并使用大语言模型将这些描述编码为高质量句子嵌入。

核心图片：

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

论文链接：
https://modelscope.cn/papers/124832

简要介绍：受DeepSeek-R1-Zero成功通过强化学习(RL)激发LLM推理能力的启发，该研究探索了如何利用RL提升多模态大语言模型(MLLM)的推理能力。研究者提出了Vision-R1，通过利用现有MLLM和DeepSeek-R1通过模态桥接和数据过滤构建了20万多模态思维链数据集作为冷启动初始化数据，并提出了渐进思维抑制训练(PTST)策略来减轻冷启动后过度思考的优化挑战。

核心图片：

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

论文链接：
https://modelscope.cn/papers/126288

简要介绍：研究团队提出了VisualWebInstruct，一种利用搜索引擎创建多样化高质量数据集的新方法，涵盖数学、物理、金融、化学等多个学科。从精心挑选的3万种子图像开始，通过Google图像搜索识别包含类似图像的网站，收集并处理了来自70万唯一URL源的HTML。通过内容提取、过滤和合成管道，构建了约90万问答对的数据集，其中40%为视觉QA对，其余为文本QA对。

核心图片：

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

论文链接：
https://modelscope.cn/papers/125368

简要介绍：由华中科技大学等机构提出了OmniMamba，这是首个基于线性架构的多模态生成模型，通过统一的下一个令牌预测范式同时生成文本和图像。该模型充分利用Mamba-2的高计算和内存效率，将其功能从文本生成扩展到多模态生成。为解决现有统一模型的数据效率问题，提出了两项关键创新：解耦词汇表来引导特定模态生成，以及用于参数高效适应的任务特定LoRA。

核心图片：

-- 完 --

欢迎在「机智流」公众号后台回复「cc」，加入机智流大模型交流群，与我们一起探索 AI 与人类潜能的未来，一起共赴 AI 浪潮！

阅读原文

跳转微信打开

Unified Reward Model for Multimodal Understanding and Generation

GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing

Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning

R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning

VisualPRM: An Effective Process Reward Model for Multimodal Reasoning

UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签