GLM大模型 01月29日
大模型能理解多长的视频?GLM-4V-Plus:2小时
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

GLM技术团队推出了GLM-4V-Plus-0111 beta版本,该版本在视频理解技术上进行了优化,引入原生可变分辨率等技术,提升了模型对不同视频长度和分辨率的适应能力。新模型在短视频理解上更精细,能够精准捕捉细节信息;在长视频理解上更强大,能够深入理解长达2小时的视频内容。此外,新模型在多个评测榜单上均达到sota水平,特别是在细粒度动作理解和长视频理解方面表现突出。新模型不仅延续了前代模型在时间问答方面的优势,还进一步提升了视频数据的处理和分析能力,并在视频描述、数据处理、时间感知、动作理解和超长视频理解等方面进行了加强。同时,还开发了实时视频通话模型GLM-Realtime,为用户提供更便捷的视频交互体验。

🚀GLM-4V-Plus-0111 beta版本引入原生可变分辨率技术,提升了模型对不同视频长度和分辨率的适应能力,短视频理解更精细,长视频理解更强大,最长可处理2小时视频。

🏆该模型在多个评测榜单上达到sota水平,在视频中细粒度动作理解和长视频理解方面显著领先于同级别模型,在MVBench、VideoMME、MotionBench和LVBench等权威评测集中表现优异。

⏱️新模型在视频描述生成方面降低了幻觉率,实现了更全面的内容描述,并能高效完成视频分类、标题生成和打标签任务,同时具备精准的时间感知能力,支持视频语义分割和自动化剪辑。

🤸新模型支持更高帧率输入,能捕捉到微小的动作变化,实现更精细的动作理解,并支持超长视频理解,突破了视频处理时长限制,拓展了业务应用场景。

📞基于该模型,开发了实时视频通话模型GLM-Realtime,具备实时视频理解和问答能力,并已上线智谱AI开放平台,支持用户构建视频通话智能体,应用于智能家居、AI玩具等创新产品。

GLM技术团队 2025-01-26 12:38 北京

扔进去个电影

在前两代视频模型(CogVLM2-Video和GLM-4V-PLUS)的基础上,我们进一步优化了视频理解技术,推出了GLM-4V-Plus-0111 beta版本。该版本引入了原生可变分辨率等技术,提升了模型对不同视频长度和分辨率的适应能力。 

 

 

通过此次更新,GLM-4V-Plus-0111 beta版本不仅延续了前两代模型在时间问答方面的优势,更在视频长度和分辨率适应能力上实现了显著提升。 

 

一、性能对比 

在近日发布的《智谱 Realtime、4V、Air 新模型发布,同步上新API》一文中,我们详细介绍了GLM-4V-Plus-0111 (beta) 模型在图像理解领域的评测成果。该模型在多个公开评测榜单上均达到了sota水平。 

 

此外,我们还针对权威的视频理解评测集进行了全面测试,同样取得较为领先的水平。特别是在视频中细粒度动作理解和长视频理解方面,GLM-4V-Plus-0111 beta模型显著领先于同级别视频理解模型。 


 

二、场景应用

 

在过去一年中,视频理解模型的应用领域不断拓展,为新媒体、广告、安全审查、工业制造等行业提供了视频描述生成、事件分割、分类、打标签及事件分析等多样化能力。我们最新推出的GLM-4V-Plus-0111 beta视频理解模型,在继承并强化这些基本功能的基础上,进一步提升了视频数据的处理和分析能力。 

 

更准确的视频描述能力: 依托原生分辨率输入及持续的数据飞轮幻觉优化,新模型在视频描述生成方面显著降低了幻觉率,并实现了更全面的视频内容描述,为用户提供了更精准、更丰富的视频信息。 



高效的视频数据处理: 新模型不仅具备详细的视频描述能力,还能高效完成视频分类、标题生成和打标签任务。用户可通过自定义提示词,进一步提升处理效率,或构建自动化视频数据流程,实现智能化管理。 


精准的时间感知能力: 针对视频数据的时间维度特性,我们的模型自第一代起便致力于提升时间问答能力。现在,新模型能够更精准地定位特定事件的时间点,实现视频的语义分割和自动化剪辑,为视频编辑和分析提供强大支持。 


 

精细的动作理解能力: 新模型支持更高帧率输入,即使在视频帧率较低的情况下,也能捕捉到微小的动作变化,实现更精细的动作理解,为需要精确动作分析的应用场景提供了有力保障。 


超长视频理解能力: 通过创新的可变分辨率技术,新模型突破了视频处理时长限制,支持长达2小时的视频理解,大幅拓宽了视频理解模型的业务应用场景,以下是一个小时级别视频理解的案例展示:

 


实时视频通话能力: 基于强大的视频理解模型,我们进一步开发了实时视频通话模型GLM-Realtime,具备实时视频理解和问答能力,通话记忆时长达2分钟。该模型已上线智谱AI开放平台(https://bigmodel.cn/dev/howuse/glm-realtime)并限时免费。GLM-Realtime不仅助力客户构建视频通话智能体,还可与现有可联网硬件结合,轻松打造智能家居、AI玩具、AI眼镜等创新产品。 

 

目前,普通用户也可以在智谱清言APP上获得和AI进行视频通话的体验。


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GLM-4V-Plus 视频理解 多模态 AI GLM-Realtime
相关文章