魔搭ModelScope社区 03月13日
今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文推荐了今日热门AI论文,涵盖视觉-语言数据集、推理能力增强、音乐生成等多个前沿领域。SEA-VL数据集弥补了AI模型在东南亚文化理解上的空白,LMM-R1通过两阶段规则强化学习增强了多模态大模型的推理能力,YuE模型专注于长篇歌词到歌曲的生成,MagicInfinite框架可生成无限长度的说话视频,UniF^2ace模型专为细粒度人脸理解和生成设计,MRT通过元强化学习优化测试时计算,Seedream 2.0是一款中英双语图像生成模型,SegAgent探索MLLM的像素级理解能力,Gemini Embedding是一种通用嵌入模型,支持多语言和代码任务。这些研究展示了AI技术的最新进展。

🌏SEA-VL数据集:由Cohere、SEACrowd等机构联手打造,是一个面向东南亚地区的多文化视觉-语言数据集,它通过众包、爬取和生成三种方式收集了128万张文化相关图像,旨在填补AI模型在该地区文化细微差别理解上的空白,推动更具包容性的AI发展。

🧠LMM-R1:由东南大学等机构提出的LMM-R1,通过两阶段规则强化学习(RL)框架增强了3B参数多模态大模型的推理能力。该方法先通过文本数据强化基础推理,再推广至多模态任务,为数据高效的推理优化提供了新思路。

🎶YuE:HKUST和MAP团队推出了YuE,一种基于LLaMA2架构的开源音乐生成模型,专注于长篇歌词到歌曲生成。YuE能生成长达5分钟的音乐,保持歌词对齐和音乐连贯性,支持风格迁移和多语言扩展,在音乐性和声乐敏捷性上媲美甚至超越部分专有系统。

🗣️MagicInfinite:由Hedra Inc.和北京大学等合作开发的MagicInfinite,是一种基于扩散Transformer的框架,可生成无限长度的说话视频,支持多种角色风格和多模态控制。该工作通过3D全注意力机制和两阶段学习策略,实现高效推理和高保真动画。

🖼️Seedream 2.0:字节跳动Seed Vision团队推出的Seedream 2.0,是一款中英双语图像生成模型,解决现有模型在中文文化理解和文本渲染上的不足。集成自研LLM和多阶段优化,该模型在提示跟随、美学和结构正确性上达到SOTA,已应用于多个平台。

2025-03-13 19:29 浙江

文章推荐了今日热门论文,涵盖视觉-语言数据集、推理能力增强、音乐生成等多个领域,展示了AI技术的最新进展。


作者:InternLM、Qwen 等 LLM

每日一览热门论文版,顶会投稿选题不迷惘。快来看看由「机智流」和「ModelScope」社区推荐的今日热门论文吧!

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

论文链接:
https://modelscope.cn/papers/125634

简要介绍:
由Cohere、SEACrowd等机构联手打造,SEA-VL是一个面向东南亚地区的多文化视觉-语言数据集,填补了AI模型在该地区文化细微差别理解上的空白。该工作通过众包、爬取和生成三种方式收集了128万张文化相关图像,结合本地贡献者确保数据的高质量和多样性,推动了更具包容性的AI发展。

核心图片:
  


LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

论文链接:
https://modelscope.cn/papers/125170

简要介绍:
由东南大学等机构提出的LMM-R1,通过两阶段规则强化学习(RL)框架增强了3B参数多模态大模型的推理能力。该方法先通过文本数据强化基础推理,再推广至多模态任务,在Qwen2.5-VL-Instruct-3B上实现多模态和文本基准提升4.83%和4.5%,为数据高效的推理优化提供了新思路。

核心图片:
  


YuE: Scaling Open Foundation Models for Long-Form Music Generation

论文链接:
https://huggingface.co/papers/2503.08638  

简要介绍:
HKUST和MAP团队推出了YuE,一种基于LLaMA2架构的开源音乐生成模型,专注于长篇歌词到歌曲生成。YuE能生成长达5分钟的音乐,保持歌词对齐和音乐连贯性,支持风格迁移和多语言扩展,在音乐性和声乐敏捷性上媲美甚至超越部分专有系统。

核心图片:
  


MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

论文链接:
https://modelscope.cn/papers/124803

简要介绍:
由Hedra Inc.和北京大学等合作开发的MagicInfinite,是一种基于扩散Transformer的框架,可生成无限长度的说话视频,支持多种角色风格和多模态控制。该工作通过3D全注意力机制和两阶段学习策略,实现高效推理和高保真动画,已公开上线供体验。

核心图片:
  


UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

论文链接:
https://modelscope.cn/papers/125793

简要介绍:
由北京大学等机构提出的UniF^2ace,是首个专为细粒度人脸理解和生成设计的统一多模态模型。基于自建的130K人脸数据集,该模型结合扩散技术和混合专家架构,在理解和生成任务中均超越现有模型,推动了人脸领域的AGI研究。

核心图片:
  


Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

论文链接:
https://modelscope.cn/papers/125042

简要介绍:
由CMU和Hugging Face团队开发的MRT(Meta Reinforcement Fine-Tuning),将测试时计算优化形式化为元强化学习问题,通过最小化累积遗憾提升LLM推理性能。在数学推理任务中,MRT比传统RL方法性能提升2-3倍,token效率提高1.5倍。

核心图片:
  


Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

论文链接:
https://modelscope.cn/papers/125511

简要介绍:
字节跳动Seed Vision团队推出的Seedream 2.0,是一款中英双语图像生成模型,解决现有模型在中文文化理解和文本渲染上的不足。集成自研LLM和多阶段优化,该模型在提示跟随、美学和结构正确性上达到SOTA,已应用于多个平台。

核心图片:
  


SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

论文链接:
https://modelscope.cn/papers/125357

简要介绍:
由浙江大学和蚂蚁集团合作的SegAgent,通过模仿人类标注轨迹探索MLLM的像素级理解能力。提出HLMAT任务,将分割建模为多步决策过程,SegAgent在无需额外解码器的情况下实现高精度分割,支持掩码精炼等扩展任务。


Gemini Embedding: Generalizable Embeddings from Gemini

论文链接:
https://modelscope.cn/papers/125362

简要介绍:
谷歌Gemini Embedding团队基于Gemini LLM开发了一种通用嵌入模型,支持多语言和代码任务。在MMTEB基准上,该模型大幅超越前SOTA,展示了对250+语言的强大适应性,适用于分类、检索等多种下游任务。


结语:
今天的盘点涵盖了从文化数据集到多模态推理、音乐生成等多个领域的突破性研究,每篇论文都展现了AI技术的最新进展。你最看好哪篇?欢迎留言讨论!? 下期见!

-- 完 --


欢迎在「机智流」公众号后台回复「cc」,加入机智流大模型交流群,与我们一起探索 AI 与人类潜能的未来,一起共赴 AI 浪潮!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI论文 多模态 自然语言处理 图像生成 强化学习
相关文章