HuggingFace 每日AI论文速递 03月11日
2025.03.10 | 多模态任务新框架,俄语ICD编码提升。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了20篇涉及多模态、语言模型、视频处理、机器人等多个领域的论文,涵盖了统一奖励模型、自动化编码研究、多语言编码器等内容。

🌐多模态理解和生成的统一奖励模型

🇷面向俄语自动化的ICD编码研究

🌍扩展欧洲语言的多语言编码器

本期的 20 篇论文如下:

[00:19] ? Unified Reward Model for Multimodal Understanding and Generation(多模态理解和生成的统一奖励模型)

[01:04] ? RuCCoD: Towards Automated ICD Coding in Russian(RuCCoD:面向俄语自动化的ICD编码研究)

[01:41] ? EuroBERT: Scaling Multilingual Encoders for European Languages(EuroBERT:扩展欧洲语言的多语言编码器)

[02:28] ? S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information(S2S-Arena:评估语音到语音协议在指令跟随中的副语言信息)

[03:08] ? Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching(思维草图:结合认知启发草图的高效LLM推理)

[03:47] ? Forgetting Transformer: Softmax Attention with a Forget Gate(遗忘Transformer:带遗忘门的Softmax注意力机制)

[04:28] ? R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning(R1-Searcher:通过强化学习激励LLMs的搜索能力)

[05:19] ? VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control(VideoPainter:任意长度视频修复与编辑的即插即用上下文控制)

[06:04] ? R1-Omni: Explainable Omni-Multimodal Emotion Recognition with Reinforcing Learning(R1-Omni:基于强化学习的可解释全模态情感识别)

[06:50] ? TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models(TrajectoryCrafter:通过扩散模型重定向单目视频的相机轨迹)

[07:26] ? ProReflow: Progressive Reflow with Decomposed Velocity(ProReflow:渐进式重流与分解速度)

[08:11] ? BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities(BEHAVIOR机器人套件:简化日常家庭活动的全身操作)

[08:50] ? An Empirical Study on Eliciting and Improving R1-like Reasoning Models(关于启发和提升类似R1推理模型的实证研究)

[09:27] ? Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts(线性-专家混合模型:线性序列建模与专家混合模型的结合)

[10:13] ? TinyR1-32B-Preview: Boosting Accuracy with Branch-Merge Distillation(TinyR1-32B-Preview:通过分支-合并蒸馏提升准确性)

[10:56] ? LONGCODEU: Benchmarking Long-Context Language Models on Long Code Understanding(LONGCODEU:评估长上下文语言模型在长代码理解中的表现)

[11:41] ? Learning from Failures in Multi-Attempt Reinforcement Learning(从失败中学习:多尝试强化学习)

[12:20] ? SAGE: A Framework of Precise Retrieval for RAG(SAGE:RAG精准检索框架)

[13:01] ? R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model(R1-Zero在2B非SFT模型上的视觉推理中的“顿悟时刻”)

[13:39] ? Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles(初次了解你并更好地成为你:通过隐式用户画像建模人类对话模拟器)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态 语言模型 论文成果
相关文章