HuggingFace 每日AI论文速递 04月16日 07:02
2025.04.15 | 多模态模型性能提升;低资源推理加速优化
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI速递精选了15篇前沿论文,涵盖多模态模型、大语言模型推理加速、视觉-语言表征、强化学习在AI中的应用、代码生成、视频理解、Web Agent评估、系统1思维能力评估、图像生成与理解统一性研究、分布级别课程学习、社会模拟世界模型、GUI智能体构建、小型多模态模型、科学方程发现以及人机交互心理健康安全等多个热门领域。这些研究展示了AI技术的最新进展和未来发展趋势。

🖼️ InternVL3:该研究探索了开源多模态模型的高级训练和测试时方案,关注多模态模型的性能提升。

🏠 PRIMA.CPP:这项研究旨在加速低资源家用集群上700亿参数规模大语言模型的推理,提升大模型在实际应用中的效率。

🤖 Iterative Self-Training for Code Generation via Reinforced Re-Ranking:该研究提出了一种基于强化重排序的迭代自训练代码生成方法,用于提升代码生成的质量。

🤔 Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability:这项研究探讨了GPT-4o的图像生成能力,试图回答图像生成与理解是否已经统一的问题。

🛡️ EmoAgent:该研究关注人机交互中的心理健康安全问题,评估并保障人机交互的安全性。

本期的 15 篇论文如下:

[00:23] 🖼 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models(InternVL3:探索开源多模态模型的高级训练和测试时方案)

[01:03] 🏠 PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters(PRIMA.CPP: 加速低资源家用集群上700亿参数规模大语言模型的推理)

[01:46] 🖼 FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding(FUSION:用于深度跨模态理解的视觉-语言表征的完全集成)

[02:26] 🤔 VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning(VL-Rethinker:通过强化学习激励视觉-语言模型的自我反思)

[03:07] 🤖 Iterative Self-Training for Code Generation via Reinforced Re-Ranking(基于强化重排序的迭代自训练代码生成)

[03:51] 🎬 Mavors: Multi-granularity Video Representation for Multimodal Large Language Model(Mavors:面向多模态大型语言模型的多粒度视频表征)

[04:28] 🤖 AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories(AgentRewardBench:评估Web Agent轨迹的自动评估方法)

[05:13] 🧠 S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models(S1-Bench:一个评估大型推理模型系统1思维能力的简单基准)

[05:56] 🤔 Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability(我们是否已经统一了图像生成与理解?GPT-4o图像生成能力的一项实证研究)

[06:42] 🤖 DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training(DUMP:基于强化学习的LLM后训练的自动化分布级别课程学习)

[07:22] 🌍 SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users(SocioVerse:一个由LLM驱动的智能体和一千万真实用户池支持的社会模拟世界模型)

[08:11] 🤖 Breaking the Data Barrier -- Building GUI Agents Through Task Generalization(打破数据壁垒——通过任务泛化构建GUI智能体)

[08:56] 💡 TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning(TinyLLaVA-Video-R1:面向视频推理的小型多模态模型)

[09:40] 🧪 LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models(LLM-SRBench:一个用于大型语言模型科学方程发现的新基准)

[10:21] 🛡 EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety(EmoAgent:评估并保障人机交互中的心理健康安全)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI研究 多模态模型 大语言模型 强化学习 图像生成
相关文章