HuggingFace 每日AI论文速递 03月13日
2025.03.12 | 东南亚数据集创新构建,大模态模型推理能力显著提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了15篇涉及多个领域的论文,包括创建数据集、赋予模型推理能力、音乐与视频生成、图像生成、探索模型能力、优化图像生成等方面的研究。

🌏 创建东南亚视觉语言数据集SEA-VL

🧠 通过强化学习赋予大模态模型推理能力

🎵 扩展开放基础模型用于长篇音乐生成

🎥 用文字和声音生成无限对话视频

🌐 中英双语图像生成基础模型Seedream 2.0

本期的 15 篇论文如下:

[00:23] ? Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia(众包、爬取还是生成?创建东南亚视觉语言数据集SEA-VL)

[01:04] ? LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL(LMM-R1:通过两阶段基于规则的强化学习赋予3B参数大模态模型强大的推理能力)

[01:43] ? YuE: Scaling Open Foundation Models for Long-Form Music Generation(YuE:扩展开放基础模型用于长篇音乐生成)

[02:17] ? Uni$\textbf{F}^2$ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models(UniF²ace:基于统一多模态模型的细粒度人脸理解和生成)

[02:59] ? MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice(MagicInfinite:用你的文字和声音生成无限对话视频)

[03:42] ? SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories(SegAgent:通过模仿人类标注者轨迹探索多模态大模型的像素理解能力)

[04:19] ? Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model(Seedream 2.0:一种中英双语图像生成基础模型)

[05:03] ? Gemini Embedding: Generalizable Embeddings from Gemini(双子座嵌入:从双子座模型中获得可泛化的嵌入)

[05:45] ? Implicit Reasoning in Transformers is Reasoning through Shortcuts(Transformer中的隐式推理是通过捷径实现的)

[06:21] ? LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization(LightGen:通过知识蒸馏和直接偏好优化实现高效图像生成)

[07:06] ? Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling(无需调参的多事件长视频生成通过同步耦合采样)

[07:44] ? Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning(通过元强化微调优化测试时计算)

[08:30] ? OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models(OmniMamba:基于线性架构的高效统一多模态理解和生成模型)

[09:14] ? CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing(CineBrain:自然视听叙事处理中的大规模多模态脑数据集)

[09:52] ? Video Action Differencing(视频动作差异分析)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SEA-VL 推理能力 音乐生成 图像生成 视频生成
相关文章