报告主题:Transformer无需归一化也能高效稳定训练

报告日期:04月02日(周三)10:30-11:30

报告要点:
近年来,归一化层在神经网络中得到了广泛应用,被认为是提高收敛速度和稳定性的重要组成部分。然而,本文提出了一种新的方法,表明即使在不使用归一化层的情况下,Transformer 依然能够实现相同或更优的性能。研究团队提出了一种名为 Dynamic Tanh (DyT) 的方法用于取代传统的归一化层。DyT 在保持模型稳定性和加速收敛的同时,实验结果显示,采用 DyT 的 Transformer 在视觉识别、语言建模和自监督学习等多项任务中的表现与传统归一化方法相当,挑战了深度学习中“归一化层不可或缺”的固有观念。
报告嘉宾:
朱家晨目前是纽约大学计算机系的博士生,师从 Yann LeCun 教授。他的研究目标是通过创新的自监督学习方法和神经网络架构,推动人工智能在视觉理解的发展。
他的研究兴趣主要包括视觉表示学习、视觉语言模型、自监督学习以及神经网络架构的优化。更多信息请访问他的个人主页:https://jiachenzhu.github.io。

内容中包含的图片若涉及版权问题,请及时与我们联系删除