Z Potentials 02月15日
Z Tech|对话Lecun和谢赛宁爱徒,00后OpenAI奖学金博士Peter Tong:揭秘多模态大模型的革命突破
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本次Z Potentials直播Talk将由纽约大学博士Peter Tong深度解析其团队的颠覆性工作Cambrian与MetaMorph,揭示LLM“无痛学视觉”的终极密码。Cambrian以视觉为核心,探索多模态大语言模型设计,评估了20多种视觉编码器,并提出了新的视觉基准测试CV-Bench,引入了动态空间感知连接器SVA,高效集成视觉特征和语言模型,并提供了高质量的开放式视觉Instruction Tuning数据集。MetaMorph则通过200k数据+指令微调,让语言模型直接输出连续视觉Token,使用VPiT预测多模态Token,在生成视觉Token之前隐式执行推理步骤。

🧠 Cambrian-1:以视觉为核心,探索多模态大语言模型设计,评估超过20种视觉编码器,并提出了新的视觉基准测试CV-Bench,为视觉模型的评估提供了更全面的标准。

🔗 Cambrian-1:引入了动态空间感知连接器SVA(Spatial Vision Aggregator),实现了视觉特征和语言模型的高效集成,优化多模态信息的融合。

进化 MetaMorph:通过使用20万规模的数据进行指令微调,让语言模型可以直接输出连续的视觉Token,实现了LLM的“视觉超进化”。

👁️ MetaMorph:使用VPiT预测多模态Token,在生成视觉Token之前隐式执行推理步骤,增强了模型在视觉生成过程中的推理能力。

原创 Z Potentials 2025-02-14 11:40 广东

2月24日周一揭秘多模态大模型的革命突破

近年来,多模态大模型(MLLM)在视觉理解领域突飞猛进,但如何让大语言模型(LLM)低成本掌握视觉生成能力仍是业界难题!

北京时间2月24日周一上午10点(美西时间2月23日周日晚上6点),Z Potentials特邀Yann Lecun和谢赛宁联合培养的纽约大学博士Peter Tong(童晟邦)直播Talk,深度解析其团队颠覆性工作Cambrian与MetaMorph,揭开LLM“无痛学视觉”的终极密码!

童晟邦 (Peter Tong) 纽约大学(NYU)Courant计算机科学系的二年级博士生,由Yann LeCun教授和Saining Xie教授共同指导。他毕业于加州大学伯克利分校(UC Berkeley),获得计算机科学、应用数学(荣誉)和统计学(荣誉)三学士学位。在本科期间,他曾是伯克利人工智能实验室(BAIR)的研究员,师从马毅教授和Jacob Steinhardt教授。

他的研究方向包括世界模型、无监督/自监督学习、生成模型和多模态大模型。研究成果多次发表在顶级会议上,例如NeurIPS、ICLR、CVPR和ICCV,并多次被接收为 Oral Paper。此外,他曾获OpenAI奖学金,并在Meta的FAIR实验室参与研究实习。他出生于中国南京,成长于澳大利亚墨尔本,热衷于推动人工智能领域的前沿研究与应用发展。

本次分享将涵盖两篇科研工作:

Cambrian-1:以视觉为核心探索多模态大语言模型

? 论文链接:https://github.com/cambrian-mllm/cambrian,模型权重、代码、相关工具、数据集均已公开。

MetaMorph:LLM的“视觉超进化”

? 论文地址:https://arxiv.org/pdf/2412.14164v1

分享会末尾设置QA环节,扫二维码进群获得2月23日直播链接?

-----------END-----------

我们正在招募新一期的实习生

我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 LLM 视觉理解 Cambrian MetaMorph
相关文章