GLM技术团队 2025-01-26 12:38 北京

扔进去个电影

在前两代视频模型（CogVLM2-Video和GLM-4V-PLUS）的基础上，我们进一步优化了视频理解技术，推出了GLM-4V-Plus-0111 beta版本。该版本引入了原生可变分辨率等技术，提升了模型对不同视频长度和分辨率的适应能力。　

短视频理解更精细：对于视频长度较短的内容，模型支持原生高分辨率视频，确保细节信息的精准捕捉。

长视频理解更强大：面对长达2小时的视频，模型能够自动调整至更小分辨率，有效平衡时间与空间信息捕捉，实现长视频的深入理解。

通过此次更新，GLM-4V-Plus-0111 beta版本不仅延续了前两代模型在时间问答方面的优势，更在视频长度和分辨率适应能力上实现了显著提升。　

一、性能对比　

在近日发布的《智谱 Realtime、4V、Air 新模型发布，同步上新API》一文中，我们详细介绍了GLM-4V-Plus-0111 (beta) 模型在图像理解领域的评测成果。该模型在多个公开评测榜单上均达到了sota水平。

此外，我们还针对权威的视频理解评测集进行了全面测试，同样取得较为领先的水平。特别是在视频中细粒度动作理解和长视频理解方面，GLM-4V-Plus-0111 beta模型显著领先于同级别视频理解模型。　

MVBench：该评测集由20项复杂视频任务组成，旨在全面评估多模态大模型在视频理解方面的综合能力。

VideoMME w/o subs：作为多模态评估基准，VideoMME用于评估大语言模型的视频分析能力。其中，w/o subs版本表示不包含字幕的多模态输入，专注于视频本身的分析。

VideoMME w/ subs：与w/o subs版本相似，但增加了字幕作为多模态输入，以更全面地评估模型在处理多模态数据时的综合表现。

MotionBench：专注于细粒度运动理解，MotionBench是一个包含多样化视频数据和高质量人工注释的综合基准数据集，用于评估视频理解模型在运动分析方面的能力。

LVBench：旨在评估模型对长视频的理解能力，LVBench挑战多模态模型在处理长视频任务时的表现，验证模型在长时间序列分析中的稳定性和准确性。

二、场景应用

在过去一年中，视频理解模型的应用领域不断拓展，为新媒体、广告、安全审查、工业制造等行业提供了视频描述生成、事件分割、分类、打标签及事件分析等多样化能力。我们最新推出的GLM-4V-Plus-0111 beta视频理解模型，在继承并强化这些基本功能的基础上，进一步提升了视频数据的处理和分析能力。　

更准确的视频描述能力：依托原生分辨率输入及持续的数据飞轮幻觉优化，新模型在视频描述生成方面显著降低了幻觉率，并实现了更全面的视频内容描述，为用户提供了更精准、更丰富的视频信息。　

高效的视频数据处理：新模型不仅具备详细的视频描述能力，还能高效完成视频分类、标题生成和打标签任务。用户可通过自定义提示词，进一步提升处理效率，或构建自动化视频数据流程，实现智能化管理。　

精准的时间感知能力：针对视频数据的时间维度特性，我们的模型自第一代起便致力于提升时间问答能力。现在，新模型能够更精准地定位特定事件的时间点，实现视频的语义分割和自动化剪辑，为视频编辑和分析提供强大支持。　

精细的动作理解能力：新模型支持更高帧率输入，即使在视频帧率较低的情况下，也能捕捉到微小的动作变化，实现更精细的动作理解，为需要精确动作分析的应用场景提供了有力保障。　

超长视频理解能力：通过创新的可变分辨率技术，新模型突破了视频处理时长限制，支持长达2小时的视频理解，大幅拓宽了视频理解模型的业务应用场景，以下是一个小时级别视频理解的案例展示：

实时视频通话能力：基于强大的视频理解模型，我们进一步开发了实时视频通话模型GLM-Realtime，具备实时视频理解和问答能力，通话记忆时长达2分钟。该模型已上线智谱AI开放平台（https://bigmodel.cn/dev/howuse/glm-realtime）并限时免费。GLM-Realtime不仅助力客户构建视频通话智能体，还可与现有可联网硬件结合，轻松打造智能家居、AI玩具、AI眼镜等创新产品。　

目前，普通用户也可以在智谱清言APP上获得和AI进行视频通话的体验。