由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流 联合发起的【AI Insight Talk】系列活动重磅来袭!
本期我们将聚焦 强化学习(RL)与推理能力的前沿交汇,邀请多位在 Hugging Face Daily Papers 中热门论文的作者,共同探讨 RL 在推理中的技术挑战与未来潜力。
📅 直播时间:2025年6月14日(周六)上午10:00(北京时间)
清华大学自动化系博士生四年级,研究方向是强化学习以及推理模型,其研究成果涉及大语言模型后训练、应用等多个方面。目前发表/在投 15 篇论文,其中多数发表在 NIPS、AAAI、ACL 等顶级会议上、长期担任 NIPS、ICLR、ICML 等顶会审稿人。在 GitHub 上共获得 1500 个 stars,并且被国内外知名机构使用。 简要概述我们提出了一种全新的强化学习方法——Absolute Zero,它让语言模型在没有任何外部数据的情况下,自主提出学习任务并通过解决这些任务来提升推理能力。这种方法不再依赖人工制作的大量题目和答案,而是通过环境来验证任务和答案的正确性,从而提供可靠的学习反馈。我们设计的系统 Absolute Zero Reasoner 可以自主进化自己的训练内容和推理能力。尽管 AZR 完全没有使用外部数据,它在编程和数学推理任务上仍然达到了当前最先进的性能,超过了那些依赖大量人工数据的模型。我们还发现 AZR 适用于不同规模和类型的模型,具有良好的通用性和可扩展性。
研究方向: 强化学习、推理模型
分享主题: Absolute Zero 零人工数据强化学习推理模型
论文地址: https://huggingface.co/papers/2505.03335
任抒怀
北京大学计算机学院博士生五年级,研究方向为多模态基座模型、理解生成统一等。目前已在 CVPR,ACL,NeurIPS 等国际顶级会议上以第一作者身份发表多篇论文。谷歌学术引用超过 2300。获国家奖学金、北京大学优秀毕业生、NeurIPS scholar、ACL 杰出审稿人等称号。
研究方向: 多模态基座模型、理解生成统一
分享主题: 小米 MiMo-VL:预训练与后训练技术实践
论文地址: https://huggingface.co/papers/2506.03569
顾宇喆
上海人工智能实验室联培博士生,研究方向是大模型的可拓展监督技术,聚焦于知识和推理能力增强。已在 NeurIPS,ICLR,ACL 等国际顶级会议上发表多篇论文,谷歌学术引用量 600+,担任 NeurIPS 等顶级会议审稿人。其参与了“书生通用大模型体系”的构建与研发,作为核心成员开发了包括 InternLM、InternThinker 等项目。
研究方向: 大模型的监督扩展与推理增强
分享主题: 强化学习范式 OREAL:轻中量模型如何跨越推理三重门
论文地址: https://huggingface.co/papers/2502.06781
圆桌讨论
为了更好的社区互动过,我们在本次直播加入了圆桌讨论环节。欢迎在文章下方的评论区留下你的问题,直播主持人将带着问题与嘉宾互动,带来最前沿的洞见。
讨论主题: RL 强化学习发展趋势洞见
主持人: 王玮赟,复旦大学与上海人工智能实验室联培博士生。研究方向为多模态通用感知模型、多模态大模型后训练算法,在人工智能国际顶级会议及期刊发表论文十余篇,谷歌学术累计引用超过1900次,作为核心作者(共一二作)参与研发的多模态大模型InternVL-Chat系列模型在HuggingFace社区累计下载量突破1000万次,开源代码在Github获得stars超过8000个。
观看直播
参与讨论
为了方便大家交流沟通,我们建立了相关的交流群,本期分享的作者们也在群里,欢迎大家入群交流。

📍6 月 14 日上午 10 点,AI Insight Talk 不见不散!
内容中包含的图片若涉及版权问题,请及时与我们联系删除