GLM大模型 2024年10月25日
人人可用,智谱 AI 推出新一代视频生成模型 CogVideoX
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智谱AI重视多模态技术发展,推出新一代产品CogVideoX。该产品具有多种技术特点,如高效的3D VAE结构、端到端的视频理解模型等。CogVideoX模型已在多端上线,用户可免费体验相关服务,企业和开发者也可通过API调用。同时,文中还验证了Scaling Law在视频生成领域的有效性。

🧠智谱AI自2021年起布局多模态模型,陆续研发并开源多个先进模型,如今推出新一代产品CogVideoX,其核心技术包括高效的三维变分自编码器结构(3D VAE),能显著降低训练成本和难度。

🎯结合3D RoPE位置编码模块,CogVideoX有效提升了在时间维度上对帧间关系的捕捉能力,建立视频中的长期依赖关系。此外,还打造了端到端的视频理解模型,增强对文本的理解和对指令的遵循能力。

💻智谱AI的模型采纳将文本、时间、空间三维一体融合的transformer架构,设计Expert Block实现模态空间对齐,通过Full Attention机制优化交互效果。CogVideoX模型已在多端上线,用户可免费体验,企业和开发者可通过API调用。

智谱AI技术团队 2024-07-26 11:12 北京

仅需30秒生成视频

人类作为一个高度复杂的系统,其认知功能依赖于大脑各区域间的协同作业,这不仅涉及文字、语言的加工,还包括视觉理解与听觉处理等多个方面。

我们坚信,多模态感知与理解的整合和提升,与认知能力的发展密切相关。

作为致力于实现通用人工智能(AGI)的公司,智谱 AI 始终高度重视多模态技术的发展。自2021年起,智谱 AI 技术团队便开始着手布局包括 text-2-img、text-2-video、img-2-text、video-2-text 在内的多模态模型,并陆续研发并开源了CogView、CogVideo、Relay Diffusion、CogVLM、CogVLM-Video等多个先进模型。

在此,我们荣幸地宣布,对视频生成模型进行全新升级,并正式推出新一代产品——CogVideoX。

CogVideoX的核心技术特点如下:

针对内容连贯性问题,智谱AI自主研发了一套高效的三维变分自编码器结构(3D VAE)。该结构能够将原始视频数据压缩至原始大小的2%,显著降低了视频扩散生成模型的训练成本和难度。结合3D RoPE位置编码模块,该技术有效提升了在时间维度上对帧间关系的捕捉能力,从而建立了视频中的长期依赖关系。

在可控性方面,智谱AI打造了一款端到端的视频理解模型,该模型能够为大量视频数据生成精确且内容相关的描述。这一创新增强了模型对文本的理解和对指令的遵循能力,确保生成的视频更加符合用户的输入需求,并能够处理超长且复杂的prompt指令。

我们的模型采纳了一种将文本、时间、空间三维一体融合的transformer架构。该架构摒弃了传统的cross attention模块,创新性地设计了Expert Block以实现文本与视频两种不同模态空间的对齐,并通过Full Attention机制优化模态间的交互效果。

CogVideoX 模型目前已在智谱清言的PC端、移动应用端以及小程序端正式上线。所有C端用户均可通过智谱清言的AI视频生成功能「清影」(Ying),免费体验AI文本生成视频和图像生成视频的服务。

(链接:https://chatglm.cn/video

「清影」的主要特点如下:

    快速生成:仅需30秒即可完成6秒视频的生成。

    高效的指令遵循能力:即使是复杂的prompt,清影也能准确理解并执行。

    内容连贯性:生成的视频能够较好地还原物理世界中的运动过程。

    画面调度灵活性:例如,镜头能够流畅地跟随画面中的三只狗狗移动,效果宛如专业摄影师的跟拍。

此外,我们在智谱大模型开放平台 bigmodel.cn 上也部署了「清影」。企业和开发者可通过API调用方式,体验并使用清影的文本生成视频和图像生成视频功能。

DEMO

文生视频

Prompt:蘑菇变成小熊

生成:


Prompt:写实描绘,近距离,猎豹卧在地上睡觉,身体微微起伏

生成:

Prompt:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风


生成:


Prompt:这张维多利亚冠鸽的特写照片展示了它醒目的蓝色羽毛和红色胸部。它的羽冠由精致的花边羽毛制成,而它的眼睛是醒目的红色。这只鸟的头微微向侧面倾斜,给人一种威严威严的印象。背景变得模糊,引起了人们对这只鸟引人注目的外观的注意。

生成:



图生视频

输入:

Prompt:飘落的小雪,一只小鸟在枝头嬉戏

生成:


输入:

Prompt:男孩拿出一颗心形的红色毛线球在手掌心

生成:


输入:

prompt:Little yellow duck toy floating on the water in the swimming pool, close-up

生成:


我们已验证了 Scaling Law 在视频生成领域的有效性。展望未来,我们将在持续扩大数据规模和模型规模的基础上,深入研究具有突破性创新的新型模型架构,以更高效地压缩视频信息,并更全面地融合文本与视频内容。



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智谱 AI CogVideoX 视频生成 多模态技术
相关文章