报告主题:MetaMorph, 探索LLM隐藏的视觉能力, 从LLM到Unifed Model
报告日期:01月09日(周四)10:30-11:30
报告要点:
我们提出了一种简单高效的视觉指令微调扩展方法——视觉预测指令微调(Visual-Predictive Instruction Tuning, VPiT),能够快速将预训练的大语言模型(LLM)转化为统一的自回归模型,实现同时生成文本和视觉标记的能力。VPiT通过将图像与文本数据组织为指令形式的输入序列,教会LLM预测离散的文本标记和连续的视觉标记。我们的实证研究揭示了VPiT的几个有趣特性:
尽管理解与生成能力相辅相成,但理解数据对两种能力的提升效果均优于生成数据。
报告嘉宾:
童晟邦(Peter Tong)是纽约大学Courant计算机科学系的博士生,师从Yann LeCun教授和Saining Xie教授。他于2023年从加州大学伯克利分校毕业,获得计算机科学、应用数学和统计学三学位。童晟邦的研究兴趣包括世界模型、无监督/自监督学习、以及多模态模型。他在CVPR和NeurIPS等顶级会议上发表过论文,并获得了OpenAI Superalignment Fellowship资助。
扫码报名
更多热门报告
内容中包含的图片若涉及版权问题,请及时与我们联系删除