报告主题:大语言模型的知识蒸馏

报告日期:03月11日(下周二)10:30-11:30

报告要点:

近年来,大语言模型(LLMs)如GPT-4、Gemini、Claude等迅速崛起,展现出强大的能力。然而,这些模型大多闭源,除了近期的DeepSeek开源模型,其他大部分开源LLMs在性能上存在显著差距。因此,提升开源LLMs及小模型的能力,缩小与闭源大模型的差距,已成为当前研究的热点。本报告将深入探讨大语言模型知识蒸馏的关键问题,包括:

(1) 如何有效利用LLMs进行知识蒸馏和数据获取,如何将这些知识高效地训练到小模型中,

(2) 小模型能够从教师模型中获取哪些强大的技能,

(3) 以及在具有领域特点的工业界,LLM的知识蒸馏如何发挥作用。
本报告基于综述《A Survey on Knowledge Distillation of Large Language Models》中374篇相关工作的总结,将全面介绍知识蒸馏的基本原理与方法,知识蒸馏在模型压缩和自我蒸馏中的作用,大语言模型技能的蒸馏,以及垂直领域的蒸馏。本报告旨在为研究人员和从业者提供关于大语言模型知识蒸馏的全面视角,帮助他们了解当前知识蒸馏的研究现状和进展,掌握有效的知识蒸馏方法和技术,探索知识蒸馏在实际应用中的潜力,并能够更好地训练和提升自己的模型。大语言模型知识蒸馏是提升小模型能力、缩小与大模型差距的关键技术。通过深入研究和应用知识蒸馏,我们能够使得更强大的语言模型得到大众化。
项目地址:
https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs

报告嘉宾:

许肖汉,香港大学计算机系博士生,研究方向为大语言模型与数据库,知识图谱。曾在BAAI,百度,微软实习。在IJCAI,EMNLP,ACMMM等会议上发表过论文。

扫码报名

更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除