报告主题:基于叠加态的推理:一个关于连续思维链的理论视角

报告日期:08月05日(周二)10:30-11:30

报告要点:

大语言模型(LLMs)在许多任务中展现出卓越性能,尤其是当允许模型使用“思维链”(chain-of-thought, CoT)时,即在最终作答前显式生成思考过程。然而,尽管已有研究从理论上证明离散 CoT 技术能提升模型能力,针对连续思维链(continuous CoT)在一些复杂推理任务(如有向图可达性)上的优越性仍缺乏理论理解。

我们证明,一个两层transformer可以通过 D 步连续 CoT 解决有向图可达性问题,其中 D 是图的直径,而目前已知的关于采用离散 CoT 的常数层 Transformer的最优结果则需消耗 O(n^2) 的步数(n 为顶点数量,且 D 

此外,我们的实验结果表明,在训练过程中模型所学到的行为与我们提出的理论构造保持一致。值得注意的是,在没有任何显式监督模型需要同时探索不同路径的情况下,模型在通过连续 CoT训练时会自发形成编码多条搜索路径的叠加状态。

报告嘉宾:
竺涵林是加州大学伯克利分校(UC Berkeley)电子工程与计算机科学系(EECS)的博士生,师从Jiantao Jiao(焦剑涛)和Stuart Russell教授,主要研究方向为大语言模型的推理及其理论基础。他在博士期间曾在Bytedance,Meta FAIR,Nexusflow实习。他本科毕业于清华大学姚班。
扫码报名

更多热门报告


内容中包含的图片若涉及版权问题,请及时与我们联系删除