独家丨前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

原创高允毅 2025-01-08 13:05 广东

胡瀚是计算机视觉领域通用架构Swim Transformer的核心作者之一。

胡瀚是计算机视觉领域通用架构Swin Transformer的核心作者之一。

作者丨高允毅

编辑丨马晓宁

AI科技评论独家获悉，前微软亚洲研究院视觉计算组首席研究员胡瀚，不久前加入腾讯，接替已离职的前腾讯混元大模型技术负责人之一的刘威，负责多模态大模型的研发工作。

胡瀚2008年获得清华大学本科学位，2014年获得清华大学博士学位，师从周杰教授。博士论文获2016年中国人工智能学会优秀博士论文奖。2012年在宾夕法尼亚大学GRASP实验室做访问研究，师从史建波教授。随后胡瀚加入百度深度学习研究所 (IDL) ，该研究院由余凯挂帅，成为国内最早开启深度学习研究的先锋军之一，胡瀚凭借出色能力担任tech leader角色。2016年12月，胡瀚加入微软亚洲研究院视觉计算组。

微软亚洲研究院视觉计算组有计算机视觉界的“黄埔军校”之称，曾走出孙剑、何恺明、华刚、梅涛、王井东、代季峰、危夷晨、Steve Lin等所谓业界技术领军人物。加入腾讯前，胡瀚在微软亚洲研究院担任视觉计算组首席研究员。

胡瀚是计算机视觉领域的重要研究者，他曾以核心作者身份参与论文《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》的创作。Swin Transformer性能优于DeiT、ViT和EfficientNet等主干网络，已经替代经典的CNN架构，成为了计算机视觉领域通用的backbone。该论文因切中了2021年业内争论要用transfomer还是用卷积的热点问题，一经发表就已在多项视觉任务中霸榜，获得当年 ICCV 最佳论文奖（马尔奖）。

这篇论文的四位共同一作分别是来自中国科学技术大学的刘泽、西安交通大学的林宇桐、以及MSRA的曹越和胡瀚。曹越是前光年之外联合创始人，现在创立AI视频公司Sand.AI。林宇桐此前是西安交通大学-微软亚洲研究院联合培养博士生，目前也在Sand.AI。

刘泽是中国科大与微软亚洲研究院的联合培养博士生，目前博士毕业，在微软亚洲研究院继续研究工作。

Swin Transformer的作者还有韦毅轩，清华大学-微软亚洲研究院联合培养博士生。张拯，现就职于微软亚洲研究院视觉计算组，担任研究员。郭百宁，现为微软亚洲研究院副院长，主要从事网络图形学技术、基于网络应用的虚拟环境技术、几何模型、基于图像的模型和绘制、纹理合成、真实感图形图像技术等领域的研究。Stephen Lin，是微软亚洲研究院视觉计算组的研究员。

2021年末，该团队又进一步提出了 Swin Transformer v2.0 版本，新版本训练了当时为止最大的稠密视觉模型，并在多个主流视觉任务上大大刷新了记录。

胡瀚此次加入腾讯，正是接替刘威此前的工作。十一月下旬，各媒体爆出刘威已离开腾讯。

刘威，2012年获得哥伦比亚大学计算机科学与电子工程博士学位，在IBM沃森研究中心担任研究科学家。期间，刘威曾先后获得 2011 年底 Facebook 博士研究生奖学金、2013 年度哥伦比亚大学优秀博士论文奖、2014 年CVPR青年研究者奖、2016 年SIGIR最优论文荣誉奖。

刘威于2016年加入腾讯AI Lab，与AI Lab另外两位负责人张潼、俞栋一起，被业内称为“AI Lab三剑客”。在2018年，刘威入选IEEE智能系统10大AI青年科学家；2022年，因对大规模机器学习和智能多媒体的贡献，获得IEEE Fellow。在腾讯时期，刘威的工作主要是面向腾讯产品业务的CV基础大模型、多模态理解大模型、文生图、文生视频大模型等。

腾讯已经在多模态大模型的研发上取得新的进展，12月3日，腾讯宣布，混元大模型上线并开源文生视频能力，参数量 130 亿，支持中英文双语输入。此前腾讯混元大模型已经陆续推出了文生文、文生图、3D生成等能力。此次推出的视频生成能力，被认为是混元系列大模型当前的最后一块重要拼图。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签