魔搭ModelScope社区 03月11日
今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了机智流和ModelScope社区推荐的最新热门论文,涵盖了多个AI研究方向。包括俄语临床编码自动化、多模态理解与生成评估、多语言编码器、语音到语音指令遵循、认知启发的推理优化、视觉推理中的“顿悟时刻”、增强Transformer长上下文建模能力、提升大语言模型搜索能力、评估网络代理恶意使用以及任意长度视频修复和编辑等。这些研究成果为AI领域带来了新的突破和洞见,为未来的研究方向提供了重要参考。

🇷🇺 RuCCoD:针对俄语临床编码自动化,构建了包含超过1万实体和1500+独特ICD码的数据集,实验证明自动预测编码训练的模型显著优于医生手动标注,提升了准确性。

🖼️ Unified Reward Model:提出了首个统一的多模态理解与生成评估奖励模型,通过联合学习图像和视频任务,利用大规模人类偏好数据集,实现了成对排序和逐点评分,显著提升了视觉模型性能。

🗣️ S2S-Arena:首个关注语音到语音(S2S)指令遵循能力并融入副语言信息的基准测试,揭示了现有语音模型在理解输入副语言信息上的潜力,但生成相应音频仍具挑战性。

🔎 R1-Searcher:通过两阶段强化学习框架提升大语言模型的搜索能力,无需预训练或蒸馏,使模型自主调用外部搜索系统,显著超越传统RAG方法。

机智流 2025-03-11 18:09 浙江

?每日一览热门论文版,顶会投稿选题不迷惘?

作者:InternLM、Qwen 等 LLM

每日一览热门论文版,顶会投稿选题不迷惘。来看看机智流和modelscope社区今日推荐的热门论文吧。



RuCCoD: Towards Automated ICD Coding in Russian

论文链接:
https://modelscope.cn/papers/121670

简要介绍:
由俄罗斯多家机构提出的RuCCoD,聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言,该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集,并测试了BERT、LLaMA和RAG等模型。实验表明,使用自动预测编码训练的模型显著优于医生手动标注,提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。


Unified Reward Model for Multimodal Understanding and Generation

论文链接:
https://modelscope.cn/papers/124332

简要介绍:
由复旦大学、上海AI实验室等机构联手打造的UnifiedReward,提出了首个统一的多模态理解与生成评估奖励模型。针对现有任务特定模型的局限性,该模型通过联合学习图像和视频任务,利用大规模人类偏好数据集,实现了成对排序和逐点评分。实验证明,其通过直接偏好优化(DPO)显著提升了视觉模型性能,展现了跨任务协同增益的潜力。

核心图片:
  


EuroBERT: Scaling Multilingual Encoders for European Languages

论文链接:
https://modelscope.cn/papers/124319  

简要介绍:
由CentraleSupélec、里斯本大学等机构研发的EuroBERT,重新审视了多语言编码器的发展,推出了一组覆盖欧洲及全球广泛使用语言的模型。EuroBERT在检索、分类和回归任务中超越现有模型,支持高达8192 token的序列,且无需位置嵌入。团队公开了模型及训练框架,为多语言研究注入新活力。

核心图片:
  


S2S-Arena, Evaluating Speech2Speech Protocols on Instruction Following with Paralinguistic Information

论文链接:
https://modelscope.cn/papers/124126  

简要介绍:
由香港中文大学(深圳)提出的S2S-Arena,是首个关注语音到语音(S2S)指令遵循能力并融入副语言信息的基准测试。包含154个样本,覆盖4个领域21个任务,该研究揭示了现有语音模型在理解输入副语言信息上的潜力,但生成相应音频仍具挑战性,为未来多模态语音模型设计提供了方向。

核心图片:
  


Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching

论文链接:
https://modelscope.cn/papers/124263  

简要介绍:
由KAIST和DeepAuto.ai提出的Sketch-of-Thought(SoT),通过认知启发的推理范式优化大语言模型的推理效率。SoT引入三种自适应范式减少76%的token使用,同时保持甚至提升数学和多跳推理的准确性。其代码已开源,展示了高效推理的巨大潜力。

核心图片:
  


R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

论文链接:
https://modelscope.cn/papers/124102  

简要介绍:
由加州大学洛杉矶分校等机构提出的R1-Zero,在2B非SFT模型上首次复现了多模态推理中的“顿悟时刻”。基于Qwen2-VL-2B,通过强化学习,该模型在CVBench上提升约30%准确率,超越SFT设置,揭示了非监督模型在视觉推理中的潜力。

核心图片:
  


Forgetting Transformer: Softmax Attention with a Forget Gate

论文链接:
https://modelscope.cn/papers/122938

简要介绍:
由Mila及蒙特利尔大学提出的Forgetting Transformer(FoX),通过在softmax注意力中引入遗忘门,增强了Transformer的长上下文建模能力。FoX在语言建模和下游任务中表现出色,且兼容FlashAttention,开源代码进一步推动了研究。


R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning

论文链接:
https://modelscope.cn/papers/124030  

简要介绍:
由中国人民大学提出的R1-Searcher,通过两阶段强化学习框架提升大语言模型的搜索能力。无需预训练或蒸馏,该方法使模型自主调用外部搜索系统,显著超越传统RAG方法,甚至挑战GPT-4o-mini,展现了强大的泛化性。

核心图片:
  


SafeArena: Evaluating the Safety of Autonomous Web Agents

论文链接:
https://modelscope.cn/papers/124153  

简要介绍:
SafeArena由多机构合作推出,是首个评估网络代理恶意使用的基准测试。包含250个安全和250个有害任务,覆盖五大危害类别。测试显示GPT-4o等模型对恶意请求的遵从率高达34.7%,凸显了网络代理安全对齐的迫切需求。

核心图片:
  


VideoPainter: Any-length Video Inpainting and Editing with Plug-and-Play Context Control

论文链接:
https://modelscope.cn/papers/124052  

简要介绍:
由香港中文大学、腾讯ARC Lab等提出的VideoPainter,推出了双流架构实现任意长度视频修复和编辑。通过轻量级上下文编码器和ID重采样技术,该模型在390K+片段的VPData上训练,展现了卓越的视频质量和一致性。

核心图片:
  


结语:
今天的热点论文推荐到此结束!从俄语编码自动化到视频修复创新,每一篇论文都为AI领域带来了新的火花。? 您最看好哪项研究?欢迎留言讨论,一起期待AI的更多突破!?

-- 完 --

欢迎访问 https://chat.intern-ai.org.cn/ 

和书生·浦语一起读论文

欢迎在「机智流」公众号后台回复「cc」,加入机智流大模型交流群,与我们一起探索 AI 与人类潜能的未来,一起共赴 AI 浪潮!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI论文 多模态学习 自然语言处理 强化学习
相关文章