报告主题:超越人类的二级推理,揭秘大语言模型推理机制

报告日期:8月15日(周四)10:30-11:30

报告要点:
最新的语言模型在小学数学测试题集(如GSM8K)上表现出了近乎完美的准确率,这表明它们已具备解决数学推理问题的能力。为了研究语言模型是如何解决这些问题的,我们设计了一系列变量控制实验并探讨了以下问题:一、语言模型究竟是学会了真正的推理能力,还是仅仅依赖于答题模板的记忆?二、模型内在的推理过程是怎样的?三、模型是否采用了类似人类的技巧来解决数学问题?四、在类似GSM8K的数据集上训练的模型是否能够学习到超出解决GSM8K问题所需的推理技巧?五、是什么导致模型犯推理错误?六、模型必须达到多大的规模或深度才能有效解决GSM8K级别的数学问题?我们的研究揭示了许多语言模型在解决数学问题时的隐藏机制,并提供了超越当前对大型语言模型理解的新见解。
报告嘉宾:
叶添,卡内基梅隆大学机器学习系博士生,于Meta担任Research Scientist Intern。研究兴趣主要集中在大语言模型的推理机制。曾在顶级会议NeurIPS上发表研究论文。此外,曾两次获得中国数学奥林匹克竞赛国家集训队的资格;于清华大学姚班获得学士学位。

扫码报名


近期热门报告