GLM大模型 2024年11月08日
CogVideoX v1.5,开源。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI团队开源了最新版本的视频生成模型CogVideoX v1.5,该模型在视频生成质量、语义理解和分辨率等方面取得了显著提升。CogVideoX v1.5能够生成5/10秒、768P、16帧的视频,并支持任意尺寸比例的图生视频。同时,智谱AI还推出了‘新清影’服务,结合CogSound音效模型,提供超高清分辨率、可变比例、多通道输出以及带声效的AI视频生成等功能。CogVideoX v1.5在模型架构、数据增强、算法和训练方面都进行了创新,例如采用了3D VAE压缩视频数据、因果三维卷积增强分辨率迁移能力、融合文本、时间和空间三维度的Transformer架构等技术,从而实现了更精准的视频生成和更高效的模型训练。

🚀 **CogVideoX v1.5模型能力升级:** CogVideoX v1.5能够生成5/10秒、768P、16帧的视频,I2V模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解,并开源了两个模型:CogVideoX v1.5-5BCogVideoX v1.5-5B-I2V。

🖼️ **新清影服务特色功能:** ‘新清影’服务基于CogVideoX v1.5,结合CogSound音效模型,提供超高清分辨率(10s、4K、60帧)、可变比例、多通道输出(同一指令/图片生成4个视频)以及带声效的AI视频生成等功能,显著增强视频生成质量和用户体验。

📚 **数据增强与视频理解:** 为了解决视频数据质量和描述文本缺失的问题,智谱AI开发了CogVLM2-caption模型,用于生成精准的视频内容描述,提升了文本理解和指令遵循能力,确保生成的视频更贴近用户输入。

⚙️ **算法创新与模型架构:** CogVideoX v1.5采用了高效的三维变分自编码器(3D VAE)压缩视频数据,使用因果三维卷积增强分辨率迁移能力,并融合文本、时间和空间三维度的Transformer架构,实现了更精准的视觉与语义信息对齐和高效的训练框架。

🏋️ **高效的扩散模型训练框架:** 智谱AI构建了一个高效的扩散模型训练框架,通过并行计算和时间优化技术,实现对长视频序列的快速训练,并具备生成任意分辨率视频的能力。

智谱技术团队 2024-11-08 14:26 北京

5/10秒、768P、16 帧

自8月初以来,我们陆续推出了CogVideoX系列模型(2B、5B、5B-I2V),这些开源模型已成为行业领先,深受开发者喜爱。 

 

经过持续迭代,我们在此发布并开源最新版本的视频模型 CogVideoX v1.5。 

 

相比于原有模型,CogVideoX v1.5 将包含 5/10秒、768P、16 帧的视频生成能力,I2V模型支持任意尺寸比例,大幅提升图生视频质量及复杂语义理解。 


此次开源包括两个模型:


> 新清影


CogVideoX v1.5 也将同步上线到清影(https://chatglm.cn/video),并与新推出的CogSound音效模型结合,「新清影」将提供以下特色服务:




> CogVideoX 技术

下图为 CogVideoX 的模型架构: 


图|CogVideoX 架构 


数据: 

 

数据是训练大型模型的核心,但许多视频数据存在分布噪声,不适合用于视频生成模型的训练。这些问题包括人工编辑扭曲真实动态和拍摄质量问题导致的视频降质。除了视频的内在质量,视频数据对模型训练的支持程度也至关重要。 

 

我们将缺乏动态连通性的视频视为有害数据,并开发了一个自动化筛选框架以过滤这些数据。

 

数据增强: 

 

针对现有视频数据缺少高质量描述文本的问题,我们开发了端到端的视频理解模型 CogVLM2-caption,专门用于生成精准的视频内容描述。这一模型提升了文本理解和指令遵循能力,能够更好地处理长且复杂的指令,确保生成的视频更贴近用户输入。 


图 |我们利用Panda70M模型为短视频生成字幕,通过提取关键帧创建图像字幕,再由GPT-4整合成视频字幕。为提升效率,我们还使用GPT-4对Llama 2模型进行了优化调整。 

 

算法: 

 

为解决内容连贯性问题,我们开发了高效的三维变分自编码器(3D VAE),将视频数据压缩至原来的2%,显著降低了训练成本和难度。 

图 | 3D VAE结构包括编码器、解码器和潜空间正则化器,实现了像素到潜空间的8×8×4压缩(图a)。同时,采用时间因果卷积的上下文并行处理机制(图b)。 

 

我们采用因果三维卷积作为核心组件,去除了注意力模块,增强了模型的分辨率迁移能力。因果卷积还确保了模型在时间维度上的序列独立性,便于扩展到更高帧率和更长视频。在部署方面,我们通过时间序列并行技术优化了变分自编码器,使其在减少显存占用的同时,支持高帧率视频的编解码。 

 

架构: 

 

我们自主研发了一种融合文本、时间和空间三维度的 Transformer 架构。该架构创新性地取消了传统的跨注意力模块,通过在输入阶段就将文本和视频嵌入拼接,加强了两种模态的交互。利用专家自适应层归一化(expert adaptive layernorm)技术,我们缩小了文本与视频特征空间的差异,优化了扩散模型中时间步信息的利用,提高了参数效率,并实现了视觉与语义信息的精准对齐。 

 

注意力模块采用了创新的3D全注意力机制,与传统的空间和时间注意力分离或分块时空注意力相比,我们的方法减少了视觉信息的隐式传递,降低了建模复杂度,并兼容了高效的训练框架。 

 

此外,我们设计了3D旋转位置编码(3D RoPE),显著提高了模型在时间维度上捕捉帧间关系的能力,建立了视频中的长期依赖关系。 

 

训练: 

 

我们构建了一个高效的扩散模型训练框架,通过采用多种并行计算和时间优化技术,实现了对长视频序列的快速训练。借鉴NaViT方法,我们的模型能够处理不同分辨率和时长的视频,无需裁剪,避免了裁剪带来的偏差,并具备了生成任意分辨率视频的能力。 


我们已验证了 scaling law 在视频生成领域的有效性。展望未来,我们将在扩大数据量和模型规模的基础上,探索创新模型架构,以更高效地压缩视频信息,并更好地融合文本与视频内容。 




开源


代码:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT





跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CogVideoX 视频生成 AI 开源 智谱AI
相关文章