报告主题:下一代 AI 面临危机:合成数据导致模型崩溃及解决方案
报告日期:10月24日(周四)10:30-11:30
报告要点:
生成式 AI 在文本、图像和代码领域的突破性进展,正在引领我们进入“合成数据时代”:我们越来越多地使用像 GPT-4 和 Stable Diffusion 这样的大模型生成的数据。如今,网络上充斥着这些模型生成的合成数据,很多时候已经难以与“真实”数据区分开来。未来,当我们为新一代基础模型(foundation models)收集训练数据时,合成数据将不可避免地被包含在内。这些合成数据将如何影响训练过程和scaling laws呢?
我们发现,合成数据会导致模型崩溃(model collapse),破坏scaling laws,进而导致模型性能下降。特别是,少量的合成数据就能引发这种崩溃(strong model collapse)。我们还提出了一些方法,通过验证机制(verification)来避免这种崩溃,并进一步扩展合成数据的使用。
报告嘉宾:
冯韫禛,纽约大学数据科学中心的博士生,导师是Julia Kempe教授。在Meta的FAIR实习期间,与Yann Ollivier博士共事。目前,他的研究兴趣在于:大模型推理能力、强化学习和测试时间优化、合成数据。他曾在2021年获得北大数院应用数学学士学位,导师是董彬教授和贺笛教授。
扫码报名
更多热门报告