2025 年 Next Token Prediction 范式会统一多模态吗？

智源社区 01月21日

2025 年 Next Token Prediction 范式会统一多模态吗？

本文深入探讨了多模态领域基于Next Token Prediction（NTP）的模型，即MMNTP。文章从NTP范式的构建出发，详细分析了多模态Tokenization技术、模型架构设计、训练方法、推理策略以及性能评测体系。重点讨论了离散和连续Tokenization方法，以及不同模态下Tokenizers的训练挑战。此外，文章还对比了组合式和统一式MMNTP模型，并阐述了NTP模型在多模态任务上的统一性。文章还探讨了Prompt工程在MMNTP模型中的应用，以及数据集构建和性能评估。最后，提出了MMNTP模型当前面临的挑战，并展望了未来的发展方向。

🧮Tokenization是MMNTP的基石，将图像、视频和音频等模态信息分解为Token序列，分为离散和连续两种方式，离散方式通过量化映射到离散空间，连续方式则保留数据连续性。

🏗️MMNTP模型主要由Transformer骨干模型、Tokenizer和De-Tokenizer组成，分为组合式和统一式两种。组合式依赖外部编码器和解码器，统一式则采用轻量级编码器和解码器，将大部分任务交给骨干模型。

🎯MMNTP模型的训练任务分为离散Token预测和连续Token预测，训练阶段包括模态对齐预训练、指令微调和偏好学习。Prompt工程在MMNTP模型中也很重要，包括多模态上下文学习和多模态思维链。

📊 在大规模理解任务中，NTP模型表现优于非NTP模型，在生成任务中与Diffusion模型效果相当，甚至在某些任务上表现更好，展示了NTP模型在统一多模态任务上的潜力。

🤔 MMNTP模型目前面临的挑战包括：如何更好地利用无监督数据、克服模态干扰、提高训练和推理效率，以及将MMNTP作为更广阔任务的通用接口。

? 完整论文: https://arxiv.org/abs/2412.18619

?Github地址：https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction

过去一两年时间里，多模态（Multimodal）领域涌现了大量基于 Next Token Prediction（NTP）的模型，以下简称为 MMNTP，这些模型在多模态理解与生成任务上取得了显著的进展。以图片模态举例，有以 LLaVA, QwenVL 为代表的图片理解模型，也有以 Unified-IO 系列，Chameleon，VAR 为代表的基于离散 Token 的图片生成模型以及融合 NTP 和 Diffusion 架构的 Transfusion，MAR 等模型。音频部分则有 Moshi 为代表的基于 NTP 的音频理解和生成模型。

本文采用全新的自下而上视角，从 NTP 范式的构建出发，全面探讨了以下几个核心方面：

多模态的 Tokenization 技术

MMNTP 模型架构设计

训练方法与推理策略

性能评测体系

现存挑战与未来方向

综述的完整目录如下：

多模态的 Tokenization

我们认为多模态的 Tokenization 是 MMNTP 的基石和最重要的部分，它将各种模态的信息（如图像、视频和音频片段）分解为最小的单元序列（Token），以便 Transformer 结构为基础的 NTP 模型学习。Tokenization 方法可以分为离散（Discrete Tokenization）和连续（Continuous Tokenization）两种。离散标记化通过量化将原始信息映射到有限的离散空间，而连续标记化则不涉及量化，保留了数据的连续性质。下面的图给出了两种方式的示意图。

Tokenizer 训练方法

内容中包含的图片若涉及版权问题，请及时与我们联系删除

点赞收藏评论分享到Link

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态 Next Token Prediction Tokenization MMNTP Transformer

相关文章

Import AI 364: Robot scaling laws; human-level LLM forecasting; and Claude 3

Trends in Computer Vision with Georgia Gkioxari - #549

Social Commonsense Reasoning with Yejin Choi - #518

Trends in Natural Language Processing with Sameer Singh - #445

AI趨勢周報第252期：取代Transformer？LSTM之父發表新LLM架構

How ‘Chain of Thought’ Makes Transformers Smarter

Greg 录制了新的ChatGPT实时语音和多模态的演示。最后ChatGPT还即兴创作了一首短歌,歌词涵盖了房间的装饰风格、人物的穿着特点、期间发生的趣味插曲等。真的这...

和@歸藏一起视频会议看完 OpenAI 的发布，讨论了一会，背脊发凉… 1️⃣ 没想到卷推理卷到了这种程度? 现实交流场景下300ms 左右的体验奇点真没想到就这样被...

OpenAI 很鸡贼，提前一天开发布会，让 Google I/O 的气势弱了很多。再加上 Ilya 的官宣离职又分走了不少流量。果然今早一早起来，媒体的报道和用户的关注相比昨...

This AI newsletter is all you need #99