PaperAgent 01月03日
多模态AGI:下一Token预测技术架构最新综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了多模态学习中下一个token预测(NTP)的应用,提出了一个全面的分类体系。该体系涵盖了多模态标记化、NTP模型架构、统一任务表示、数据集与评估以及开放性挑战等五个关键方面。文章详细介绍了离散和连续令牌化的方法,以及自编码、去噪自编码等训练方法。同时,对比了组合模型和统一模型在多模态NTP中的应用,并阐述了预训练和微调在任务表示中的作用。最后,文章还提到了通过提示工程技术增强模型性能的方法。

🧮多模态标记化:将图像、视频、音频等不同模态的信息分解为离散或连续的令牌,以便NTP模型学习。离散令牌通过量化将连续值映射到离散空间,而连续令牌直接从数据属性派生,无需量化。

🏗️多模态NTP模型架构:主要分为组合模型和统一模型。组合模型利用预训练的外部编码器和解码器,通过额外的对齐层连接;统一模型则在单一主干模型中处理多模态任务,编码和解码都相对轻量。

🎯统一的任务表示:通过预训练将不同模态的表示空间与语言空间对齐,随后进行微调以提高模型理解和执行复杂查询的能力。预训练包括理解和生成任务的对齐,微调则通过指令调整和偏好对齐来优化模型行为。

💡训练方法:令牌化器的训练方法分为自编码、去噪自编码、监督预训练和对比学习,每种方法都有其独特的训练目标和应用场景。

2025-01-03 09:01 湖北

在NLP中语言建模的基础上,下一个token预测(Next Token Prediction, NTP)已取得了相当的成功。同样,不同模态的任务也可以有效地包含在NTP框架内,将多模态信息转换为tokens并根据上下文预测下一个token。

利用下一个token预测的历史发展。具有视觉和更多模态的模型以蓝色背景设置,而支持音频模态的模型以绿色背景设置。

多模态学习与下一个token预测(MMNTP)的通用流程图

提出了一个全面的分类体系,通过NTP的视角统一多模态学习中的理解与生成,涵盖了五个关键方面:多模态标记化、多模态NTP模型架构、统一的任务表示、数据集与评估以及开放性挑战

用于下一个词预测的多模态学习综述的结构(MMNTP)

多模态标记化

多模态令牌化是将来自不同源(如图像、视频、音频剪辑)的信息分解成最小、可管理的单元(令牌),以便NTP模型学习。

类型:多模态令牌化器分为离散型和连续型,基于它们如何从原始数据中派生令牌。

Discrete Tokenization Basics

Continuous Tokenization Basics

Training Methods for Tokenizers

训练方法:基于它们的训练目标,令牌化器的训练方法可以分为四组:自编码(Auto-Encoding)、去噪自编码(Denoising Auto-Encoding)、监督预训练(Supervised Pretraining)和对比学习(Contrastive Learning)。

多模态NTP模型架构

多模态NTP基本结构:多模态信息被令牌化后,需要一个能够处理多模态信息的模型。这个模型通常包括三个步骤:

有两种类型的多模态下一个token预测模型,组合模型利用预训练的外部编码器和解码器,而统一模型则在一个单一的主干模型中处理所有任务。

组合模型:这种模型使用强大的外部编码器和解码器(例如CLIP)来处理多模态信息。它们通过添加额外的对齐层来连接外部编码器和解码器,以实现多模态理解和生成任务。

统一模型:与组合模型不同,统一模型使用轻量级的编码器和解码器,将多模态理解和生成任务主要在主干模型(通常是大型Transformer解码器)中完成。

统一的任务表示

训练目标:在多模态令牌化后,可以使用统一的主干模型进行训练,以处理各种下游理解和生成任务。训练任务分为预训练和微调,类似于大型语言模型的训练。

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Surveyhttps://arxiv.org/abs/2412.18619https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态学习 下一个token预测 NTP 多模态标记化 模型架构
相关文章