机器之心 8小时前
「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 公司近期高薪挖走 OpenAI 的“CV 铁三角”团队,引发业界广泛关注。该团队在视觉 AI 领域深耕多年,其研究成果如 ViT、PaLI 等,为现代多模态 AI 的发展奠定了基础。从图像分类到多模态融合,他们的工作展示了视觉 AI 向更广泛应用演进的路径,包括自监督学习、大规模预训练、Transformer 在视觉领域的应用,以及多模态大模型。Meta 此举旨在加强其在视觉 AI 和多模态技术方面的实力,为实现全模态的通用人工智能(Omni-LLM)奠定基础。

🌟 Meta 成功挖角 OpenAI 的“CV 铁三角”团队,该团队在视觉 AI 领域拥有深厚的研究积累,其过往成果对现代多模态 AI 的发展至关重要。他们曾主导了 S4L、BiT、ViT、MLP-Mixer 以及 PaLI 系列等一系列具有里程碑意义的研究工作,这些工作涵盖了从图像预训练到多模态融合的关键技术路径。

💡 “CV 铁三角”的研究历程清晰地展示了视觉 AI 如何逐步走向多模态。从 S4L 的半监督学习减少对标注的依赖,到 BiT 验证迁移学习范式,再到 ViT 将 Transformer 引入视觉领域实现全局理解,以及 MLP-Mixer 探索高效架构,最后到 PaLI 系列尝试多模态大一统,这些成果共同构建了现代多模态 AI 的基础框架。

🚀 ViT(Vision Transformer)的提出是关键一步,它证明了 Transformer 架构在视觉任务中的强大能力,能够实现对图像的全局理解,为图像与其他模态(如文本)在共享特征空间中的关联与融合奠定了基础,打破了 CNN 在视觉领域的垄断地位。

🔗 PaLI 系列工作标志着谷歌在实现“多模态大一统”方面迈出的早期重要步伐,通过将图像和文本输入统一处理,并以文本生成任务的形式执行多模态任务,为后续更强大的多模态大模型发展提供了方向和基础。

🧠 Meta 此举被解读为强化其在视觉 AI 和多模态技术领域布局的重要战略,旨在为实现更高级别的全模态通用人工智能(Omni-LLM)积累关键技术和人才优势,应对未来 AI 发展的核心挑战。

机器之心PRO · 会员通讯 Week 29

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?

Meta 的挖人策略有何深意?「CV 铁三角」的五项工作如何印证多模态 AI 的关键进展?多模态 AI 发展还有哪些里程碑?实现全模态的 Omni-LLM 还有哪些坎要过?...

2. Multi-Agent 协作兴起,RAG 注定只是过渡方案?

检索增强生成(RAG)与持续状态 memory 机制之间有哪些异同,如何实现互补?多层级 memory 架构如何有效支持短期与长期上下文的动态迁移与压缩?多模态和多智能体环境下,memory 系统如何避免语义漂移与上下文「污染」?面对海量 memory 数据,如何设计高效的多级语义检索与上下文优先级管理机制?...

3. Perplexity 如何用 AI 原生浏览器对抗谷歌的「流量受限型 AI」?

Perplexity 近期为何热度飙升?为什么谷歌只能推出流量受限的 AI 产品?Aravind Srinivas 如何设计公司的产品「护城河」?Perplexity将如何用有限的资源突破巨头「围剿」?...


本期完整版通讯含 3 项专题解读 + 30 项 AI & Robotics 赛道要事速递,其中技术方面 10 项,国内方面 8 项,国外方面 12 项。
本期通讯总计 24110 字,可免费试读至 7%  消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读①  CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
引言:Meta 近期频繁高薪挖人的动作引起了大量热议。在一众被聘用 AI 研究员中,来自 OpenAI 苏黎世办公室的「CV 铁三角」因从业经历和研究方向的特点引起了广泛关注。在业界梳理下,他们的研究成果和视觉 AI 往多模态演进的关键路径高度贴合,为未来的「全模态模型」打下了基础。


「CV 铁三角」的成果≈现代多模态 AI 基础框架?

1、从 OpenAI 苏黎世办公室被挖走的 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai 此前均在 GoogleBrain(后并入 DeepMind)共事,被称为谷歌的「CV 铁三角」,而后在 2024 年加入 OpenAI 并创办苏黎世办公室。

2、三人在过往十年几乎始终作为一个团队协作,包含最为人熟知的「ViT」在内,其研究项目具有高度连续性,研究轨迹几乎等同于视觉 AI 的发展路径,因为有业界尝试从 Meta 招聘三人的动作分析背后的战略意图。[1-1]

① 在 AI 社区中,有文章梳理了「CV 铁三角」的近年来主导的五项代表性工作,包含 S4L,到 BiT 、ViT、MLP-Mixer,以及 PaLI 系列,涵盖从图像预训练到多模态融合的发展路径。

② 按照成果发布数据顺序,2019 年 5 月提出的「S4L」针对图像分类器的半监督学习问题,结合自监督和半监督学习,通过辅助任务让模型在无标签样本上「制造」可学习目标,减少对人工标注的依赖,从而提升整体训练效果。

③ 2019 年 12 月提出的「BiT」视觉表方案验证了「大规模有监督预训练 → 下游任务微调」经典迁移学习范式在视觉领域的可行性。这也是后续包含 CLIP 和 SAM 在内的视觉基础模型所采用的基础范式。

④ 2020 年 10 月提出的「ViT」尝试将纯 Transformer 应用于视觉任务,将图像转换为向量,使其能够与文本等其他模态在共享的特征空间中进行比较和关联 。ViT 证明了「CNN 不是训练通用能力的唯一选择」,其全局理解图像的能力也是实现图像与文本等模态深度融合的基础。

⑤ 2021 年 5 月提出的「MLP-Mixer」是 Transformer 在 CV 任务中开始流行后对性能和架构复杂度关联的重新思考。该工作通过 token-mixing 和 channel-mixing 两层 MLP 实现空间位置和特征通道的信息交流,在没有卷积和自注意力机制的情况下,用最简单的 MLP 架构训练出能力优越的模型。

⑥ 2022 年 9 月提出的「PALI」是谷歌在「多模态大一统」的早期尝试。PALI 结合了图像理解和语言生成,将所有图片+问题的输入变成文本生成任务,并通过此界面以多种语言执行视觉、语言和多模态任务。在这一路径下,谷歌后续衍生出了 PALI 3,PaliGemma 等工作。

3、从图像分类任务到基于图像的多语言对话,「CV 铁三角」的研究在加强和完善 AI 视觉能力的路线下逐步迭代改善,和同期一系列工作构建起现代多模态 AI 的基础框架,进而解锁后续 AI 模型在模态融合与理解的能力,使终极的多模态「大一统」成为可能。

视觉 AI 到多模态还有哪些「里程碑」?


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CV 铁三角 Meta 视觉 AI 多模态 AI Transformer PaLI
相关文章