AI科技评论 01月11日
独家丨前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

前微软亚洲研究院视觉计算组首席研究员胡瀚加入腾讯,接替刘威负责多模态大模型研发。胡瀚是计算机视觉领域重要研究者,曾以核心作者身份参与Swin Transformer的创作,该架构已成为计算机视觉领域的通用backbone。Swin Transformer因其在多项视觉任务中的卓越表现而获得ICCV最佳论文奖。胡瀚的加入预示着腾讯在多模态大模型领域将有新的突破,此前腾讯混元大模型已上线并开源文生视频能力,参数量达130亿,支持中英文双语输入。胡瀚的加入将进一步推动腾讯在AI领域的发展。

👨‍💻 胡瀚,Swin Transformer核心作者之一,前微软亚洲研究院视觉计算组首席研究员,现加入腾讯负责多模态大模型研发,接替离职的刘威。

🏆 Swin Transformer是胡瀚的核心研究成果,该架构性能优于DeiT、ViT等,已成为计算机视觉领域通用的backbone,并在2021年获得ICCV最佳论文奖。

🏢 胡瀚曾就职于百度深度学习研究所和微软亚洲研究院,后者被誉为计算机视觉界的“黄埔军校”,培养了众多业界技术领军人物。

🚀 腾讯混元大模型已推出文生文、文生图、3D生成和文生视频等能力,胡瀚的加入预计将加速腾讯在多模态大模型领域的研发进展。

👨‍🎓 胡瀚拥有清华大学本硕博学位,师从周杰教授,博士论文获中国人工智能学会优秀博士论文奖,学术背景深厚。

原创 高允毅 2025-01-08 13:05 广东

胡瀚是计算机视觉领域通用架构Swim Transformer的核心作者之一。

胡瀚是计算机视觉领域通用架构Swin Transformer的核心作者之一。

作者丨高允毅

编辑丨马晓宁

AI科技评论独家获悉,前微软亚洲研究院视觉计算组首席研究员胡瀚,不久前加入腾讯,接替已离职的前腾讯混元大模型技术负责人之一的刘威,负责多模态大模型的研发工作。

胡瀚2008年获得清华大学本科学位,2014年获得清华大学博士学位 ,师从周杰教授。博士论文获2016年中国人工智能学会优秀博士论文奖。2012年在宾夕法尼亚大学GRASP实验室做访问研究,师从史建波教授。随后胡瀚加入百度深度学习研究所 (IDL) ,该研究院由余凯挂帅,成为国内最早开启深度学习研究的先锋军之一,胡瀚凭借出色能力担任tech leader角色。2016年12月,胡瀚加入微软亚洲研究院视觉计算组。

微软亚洲研究院视觉计算组有计算机视觉界的“黄埔军校”之称,曾走出孙剑、何恺明、华刚、梅涛、王井东、代季峰、危夷晨、Steve Lin等所谓业界技术领军人物。加入腾讯前,胡瀚在微软亚洲研究院担任视觉计算组首席研究员。

胡瀚是计算机视觉领域的重要研究者,他曾以核心作者身份参与论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》的创作。Swin Transformer性能优于DeiT、ViT和EfficientNet等主干网络,已经替代经典的CNN架构,成为了计算机视觉领域通用的backbone。该论文因切中了2021年业内争论要用transfomer还是用卷积的热点问题,一经发表就已在多项视觉任务中霸榜,获得当年 ICCV 最佳论文奖(马尔奖)。

这篇论文的四位共同一作分别是来自中国科学技术大学的刘泽、西安交通大学的林宇桐、以及MSRA的曹越和胡瀚。曹越是前光年之外联合创始人,现在创立AI视频公司Sand.AI。林宇桐此前是西安交通大学-微软亚洲研究院联合培养博士生,目前也在Sand.AI。

刘泽是中国科大与微软亚洲研究院的联合培养博士生,目前博士毕业,在微软亚洲研究院继续研究工作。

Swin Transformer的作者还有韦毅轩,清华大学-微软亚洲研究院联合培养博士生。张拯,现就职于微软亚洲研究院视觉计算组,担任研究员。郭百宁,现为微软亚洲研究院副院长,主要从事网络图形学技术、基于网络应用的虚拟环境技术、几何模型、基于图像的模型和绘制、纹理合成、真实感图形图像技术等领域的研究。Stephen Lin,是微软亚洲研究院视觉计算组的研究员。

2021年末,该团队又进一步提出了 Swin Transformer v2.0 版本,新版本训练了当时为止最大的稠密视觉模型,并在多个主流视觉任务上大大刷新了记录。

胡瀚此次加入腾讯,正是接替刘威此前的工作。十一月下旬,各媒体爆出刘威已离开腾讯。

刘威,2012年获得哥伦比亚大学计算机科学与电子工程博士学位,在IBM沃森研究中心担任研究科学家。期间,刘威曾先后获得 2011 年底 Facebook 博士研究生奖学金、2013 年度哥伦比亚大学优秀博士论文奖、2014 年CVPR青年研究者奖、2016 年SIGIR最优论文荣誉奖。

刘威于2016年加入腾讯AI Lab,与AI Lab另外两位负责人张潼、俞栋一起,被业内称为“AI Lab三剑客”。在2018年,刘威入选IEEE智能系统10大AI青年科学家;2022年,因对大规模机器学习和智能多媒体的贡献,获得IEEE Fellow。在腾讯时期,刘威的工作主要是面向腾讯产品业务的CV基础大模型、多模态理解大模型、文生图、文生视频大模型等。

腾讯已经在多模态大模型的研发上取得新的进展,12月3日,腾讯宣布,混元大模型上线并开源文生视频能力,参数量 130 亿,支持中英文双语输入。此前腾讯混元大模型已经陆续推出了文生文、文生图、3D生成等能力。此次推出的视频生成能力,被认为是混元系列大模型当前的最后一块重要拼图。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

胡瀚 Swin Transformer 多模态大模型 腾讯 计算机视觉
相关文章