报告主题:海量实验解密大模型长链推理

报告日期:03月12日(下周四)10:30-11:30

报告要点:

扩展推理计算资源可以增强大型语言模型(LLMs)的推理能力,通过长思维链(CoTs)实现诸如回溯和错误纠正等策略。强化学习(RL)已成为发展这些能力的关键方法,但长思维链出现的条件仍不清楚,并且 RL 训练需要仔细的设计选择。

在这项研究中,我们系统地研究了长思维链推理的机制,确定了使模型能够生成长思维链轨迹的关键因素。通过广泛的有监督微调(SFT)和强化学习实验,我们获得了四个主要发现:(1)虽然 SFT 不是绝对必要的,但它简化了训练并提高了效率;(2)推理能力可能随着训练计算资源的增加而涌现,但其发展并没有得到保证,奖励塑形有助于思维链长度的增长;(3)扩展可验证奖励信号对 RL 至关重要。我们发现,借助过滤机制,利用从网络语料提取带噪声数据,该方案富有潜力,特别是在处理理工类推理等分布外(OOD)任务时;(4)像错误纠正这样的核心能力在基础模型中可能已经存在,但通过 RL 有效地激励这些技能以应对复杂任务需要大量的计算资源,并且识别这些能力的涌现需要慎重地分析。这些见解为优化训练策略以增强 LLMs 中的长思维链推理提供了实践指导。我们的代码可在以下链接获取:https://github.com/eddycmu/demystify-long-cot。

报告嘉宾:

童雨轩,清华大学计算机系本科生,曾于清华大学知识工程实验(THUKEG)、香港科技大学自然语言处理实验室(HKUST-NLP)、卡耐基梅隆大学语言技术研究所(CMU-LTI)等机构实习。在 NeurIPS 等国际会议发表论文 2 篇,其中第一作者一篇,谷歌学术引用量达 440。研究兴趣集中在自然语言处理、机器学习、强化学习等领域,致力于构建具备长上下文推理能力的人工智能系统。

更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除