夕小瑶科技说 2024年12月19日
视觉 LLM 开源的疯狂月!阿里 Qwen、腾讯混元、谷歌等连续开源重磅模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

2024年12月,视觉大型语言模型(LLM)迎来开源爆发期,多家科技巨头如阿里、腾讯、谷歌、Meta等纷纷发布重要开源模型。这些模型在图像识别、视频生成、多模态理解等方面取得了显著进展,例如能够识别乐谱和人类情绪、生成高清配音视频、处理20分钟以上的视频、以及根据参考图像精确控制生成内容。本文详细介绍了PaliGemma 2、InternVL 2.5、Qwen2-VL、HunyuanVideo和OminiControl等五款具有代表性的开源视觉模型,它们在模型结构、训练策略、应用场景等方面各有侧重,共同推动了多模态AI技术的发展。

💡PaliGemma 2: 作为Gemma 2模型的延伸,PaliGemma 2支持图像和文本输入,生成文本输出,在图像和短视频描述、视觉问题回答等任务上表现卓越,并扩展了包括文本检测与识别、表格结构识别、分子结构识别等多种新任务。

🚀InternVL 2.5: OpenGVLab发布的InternVL 2.5是首个在MMMU基准测试上超过70%准确率的开源多模态大模型,其在多学科推理、文档理解、多图像/视频理解等方面可与GPT-4o等商业模型相媲美,并提供了强大的多模态人工智能系统开发工具。

👁️Qwen2-VL: 阿里巴巴发布的Qwen2-VL模型,能够理解各种分辨率和比率的图像,理解20分钟以上的视频,并支持多语言文本识别,在视觉理解基准上达到了最先进的性能,并具有复杂的推理和决策能力。

🎬HunyuanVideo: 腾讯推出的HunyuanVideo是一款开源文本生成视频模型,拥有130亿参数,能进行自然转场和镜头切换,其视频生成效果在人文场景、人物及多主体组合方面有明显优势,采用了独特的3D VAE压缩器和MLLM文本编码器。

🖼️OminiControl: OminiControl是一种高效通用的框架,通过参数重用机制,仅增加少量参数即可有效整合参考图像,统一处理多种图像条件任务,在主题驱动生成和空间对齐任务上表现出色。

原创 阳平 2024-12-19 16:32 四川

2024 年 12 月真的太疯狂了,首先是闭源的视觉模型接连重磅发布——

前有《智谱 GLM-4V-Flash API 发布即免费》、《Gemini2.0 实时全模态炸场》、《GPT-4o 视频通话对波 Gemini》、《无问芯穹全模态端侧模型开源》,《Kimi 上线了视觉思考,并和海螺、豆包打了一架》...

然后,笔者发现不仅闭源模型大爆发,就连开源的视觉 LLM 这个月也是扎堆爆发了。

根据笔者统计,12 月份,已经有来自阿里、腾讯混元、谷歌、Meta 等大厂的 5 个重磅视觉模型开源发布了:

“大模型能够通过图像识别乐谱和人类情绪了”。

“利用模型,直接可以生成高清视频,而且是还会带配音的!”。

“模型能够处理与理解的视频达到 20 分钟以上了”。

“可以采用参考图像,更精确地控制图生成用户想要的图像和视频了”。

划重点,它们都对你开源了!这是不是"泼天富贵"齐刷刷地来了!

现在将近期主要发布的开源大模型列举如下:

下面让我们一起踏上这场视觉-语言模型的奇妙之旅吧!别急,跟着我的节奏,慢慢揭开这些神奇模型的神秘面纱。对于上述模型的进一步详细了解,不要着急,请根据小编的节奏慢慢来了解吧。

一、PaliGemma 2

PaliGemma 2 这个让人兴奋的新一代视觉语言模型!它不仅是 PaliGemma 家族的新成员,更是 Gemma  2 模型能力的延伸。这个模型家族的灵感来源于 PaLI-3,并且基于开放组件,比如 SigLIP 视觉模型和 Gemma 2 语言模型。PaliGemma  2 能够接收图像和文本作为输入,并生成文本作为输出,支持多种语言。它为一系列视觉语言任务提供了行业领先的微调性能,比如图像和短视频描述、视觉问题回答、文本阅读、目标检测和目标分割。

论文 :
https://arxiv.org/pdf/2412.03555

huggingface 模型库https://huggingface.co/collections/google/paligemma-2

?模型亮点

?模型结构:

PaliGemma 2 是对原有 PaliGemma 的升级,在 Gemma 2 系列大语言模型基础上,结合了 SigLIP-So400m 视觉编码器,以提升视觉-语言模型(VLM)的性能。

上图所示, PaliGemma 2 的结构主要包括 SigLIP-So400m 视觉编码器和 Gemma 2 语言模型。

?分辨率分阶段训练:

该模型在 224px²、448px² 和 896px² 三种分辨率下进行多阶段训练,增强了模型的知识广度和迁移能力。

?迁移任务扩展

PaliGemma 2 扩展了迁移任务的数量和范围,包括:

二、InternVL 2_5

OpenGVLab 发布 InternVL2.5,这是一个先进的多模态大型语言模型系列,参数覆盖从 1B 到 78B。其中这周发出的 InternVL2_5-78B 是首个在 MMMU 基准测试上超过 70% 准确率的开源多模态大型语言模型,匹配了像 GPT-4o 这样的领先闭源商业模型的性能。

Huggingface 模型库:
https://huggingface.co/OpenGVLab/InternVL2_5-78B

论文:
https://arxiv.org/abs/2412.05271v1

Code:
https://github.com/OpenGVLab/InternVLModel

Demo:
https://huggingface.co/sp

主要贡献点

模型结构及训练策略

上图所示,InternVL 2.5 保留了与其前身 InternVL 1.5 和 2.0 相同的模型架构,遵循“ViT MLP LLM”范式。在这个新版本中,使用随机初始化的 MLP Projector, 将新训练的 InternViT 与各种预训练的 LLMs(包括 InternLM  2.5 和 Qwen 2.5)集成在一起。

与前一版本相同的是使用了像素解卷积操作,将视觉 token 的数量减少到原始数量的 1/4。此外,还采用了与 InternVL  1.5 类似的动态分辨率策略,将图像分割成 448×448 像素分块。InternVL 2.0 开始,支持对多张图像和视频数据的处理。InternVL 2.5 采用的训练策略包括:

三、Qwen2-VL

Qwen2 VL 这是我们 Qwen VL 型号的最新迭代,代表了近一年的创新。这周新发布的是 Qwen2-VL-72B, 是一个没有指令调优的预训练模型。

paper:
https://arxiv.org/pdf/2409.12191

Huggineface 库:
https://huggingface.co/Qwen/Qwen2-VL-72B

Code:
https://github.com/QwenLM/Qwen2-VL

? 模型亮点:

? 模型架构更新

四、HunyuanVideo

HunyuanVideo 是腾讯新推出的、可以免费使用的文本生成视频的模型,它生成视频的能力跟那些顶尖的、不公开的模型一样厉害,甚至有时候做得更好。这款模型拥有 130 亿参数,能进行自然转场和镜头切换。其视频生成效果在远景和动作流畅度上表现出色,尤其在人文场景、人造场所、人物及多主体组合方面有明显优势,同时在物品和动植物方面也表现不错。目前版本分辨率为 720P,未来可能推出 1080P、4K、8K 版本,并考虑增加图像生成视频和视频自动配乐功能。

paper:
https://arxiv.org/pdf/2412.03603

code:
https://github.com/Tencent/HunyuanVideo

?模型的贡献点:

开源性的模型:HunyuanVideo 是一个新颖的开源视频基础模型,其性能与领先的闭源模型相当,甚至在某些方面超越了它们。有助于缩小行业与公众社区之间在视频生成能力上的差距。

综合框架:该模型整合了数据策划、先进的架构设计、渐进式模型扩展和训练,旨在促进大规模模型的训练和推理。

大规模参数:HunyuanVideo 训练了一个超过 130 亿参数的视频生成模型,使其成为所有开源模型中最大的。

高视觉质量和动态表现:通过一系列针对性的设计,HunyuanVideo 确保了生成视频的高视觉质量、运动动态、文本与视频的对齐以及先进的拍摄技术。

视频-图像联合训练:通过视频-图像联合训练策略,HunyuanVideo 有效利用了图像数据,增强了模型的泛化能力,并防止了因视频和图像数据分布差异而导致的灾难性遗忘。

?HunyuanVideo 的架构

HunyuanVideo 就像是一个魔法盒子,它用一种特别的方法来制作视频。这个魔法盒子里有一个叫做 3D VAE 的压缩器,它能把视频中的时间和空间信息压缩成更小的数据。当有人给这个盒子一个文字提示,比如“一只小狗在草地上奔跑”,这个提示会通过一个大语言模型转换成一种特殊的信号,然后告诉这个魔法盒子要做什么。

接下来,这个魔法盒子会用这个信号作为指导,从一团混乱的噪声中一步步清理出秩序,最终得到一个代表视频的神秘代码。这个神秘代码就像是视频的蓝图,但是它还在一个隐藏的空间里,我们看不见。

最后,当需要把视频做出来给大家看的时候,魔法盒子会用一个 3D VAE 解码器,把那个隐藏的神秘代码转换成一个真正的视频,这样大家就可以看到小狗在草地上奔跑的画面了。简单来说,HunyuanVideo 就是一个能够根据文字提示制作视频的神奇工具。

?模型的特点

? 统一的图视频生成架构

HunyuanVideo 采用了 Transformer 和 Full Attention 的设计用于视频生成。具体来说,使用了一个“双流到单流”的混合模型用于视频生成。在双流阶段,视频和文本 token 通过并行的 Transformer Block 独立处理,使得每个模态可以学习适合自己的调制机制而不会相互干扰。在单流阶段,将视频和文本 token 连接起来并将它们输入到后续的 Transformer Block 中进行有效的多模态信息融合。这种设计捕捉了视觉和语义信息之间的复杂交互,增强了整体模型性能。

?MLLM 文本编码器

过去的视频生成模型通常使用预训练的 CLIP 和 T5-XXL 作为文本编码器,其中 CLIP 使用 Transformer Encoder,T5 使用 Encoder-Decoder 结构。HunyuanVideo 使用了一个预训练的 Multimodal Large Language Model (MLLM) 作为文本编码器,它具有以下优势:

由于 MLLM 是基于 Causal Attention 的,而 T5-XXL 使用了 Bidirectional Attention 为扩散模型提供更好的文本引导。因此,引入了一个额外的 token 优化器来增强文本特征。

?3D VAE

该模型中的 VAE 采用了 CausalConv3D 作为 HunyuanVideo 的编码器和解码器,用于压缩视频的时间维度和空间维度,其中时间维度压缩 4 倍,空间维度压缩 8 倍,压缩为 16 channels。这样可以显著减少后续 Transformer 模型的 token 数量,使得能够在原始分辨率和帧率下训练视频生成模型。

?Prompt 改写

为了解决用户输入文本提示的多样性和不一致性的困难,通过微调 Hunyuan-Large model 模型作为 prompt 改写模型,将用户输入的提示词改写为更适合模型偏好的写法。

提供了两个改写模式:正常模式和导演模式。正常模式旨在增强视频生成模型对用户意图的理解,从而更准确地解释提供的指令。导演模式增强了诸如构图、光照和摄像机移动等方面的描述,倾向于生成视觉质量更高的视频。

五、OminiControl

OminiControl 是一种高效且通用的框架,旨在将参考图像集成到预训练的 Diffusion Transformer(DiT)模型中。其核心思想是通过参数重用机制,使 DiT 利用自身作为强大的基础架构来编码参考图像,并通过灵活的多模态注意力机制进行处理。这种方法仅需增加约 0.1% 的额外参数,就能有效整合参考图像,并且能够统一处理多种有参考图像的生成任务。

Paper:
https://arxiv.org/html/2411.15098v2

Code
https://github.com/Yuanshi9815/OminiControl

Demo:
https://huggingface.co/spaces/Yuanshi/OminiControl

?主要特点

? 应用举例

上图展示了 OminiControl 在两种生成任务上的结果:主题驱动的生成任务和空间对齐任务。上方的部分展示了在主题驱动生成任务中,模型如何根据输入的文本描述和参考图像生成新的图像,而下方则展示了在空间对齐任务中,模型如何根据特定的条件(如边缘图、深度图等)生成与之对应的图像。

红框内的小图像表示了参考图像,这些参考在生成过程中起着至关重要的作用。它们为模型提供了必要的上下文信息,使得生成的图像能够更好地符合用户的期望。例如,在主题驱动生成任务中,输入可能是一个特定的对象图像和相关的文本描述,模型需要根据这些信息生成新的图像,同时保持对象的特征和风格。在空间对齐任务中,输入参考图如边缘图或深度图则帮助模型理解图像的结构和内容,从而生成更为准确和一致的图像。

结束语

本月真是视觉 LLM 开源大爆炸的一个月。期待 2025 年,在视觉开源模型和闭源模型的加持下,多模态 AI 应用全面爆发!



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视觉LLM 开源模型 多模态AI PaliGemma HunyuanVideo
相关文章