会刷视频的AI来了！视频理解模型step-1.5v-turbo上线开放平台

阶跃星辰开放平台 2024-10-25 18:09 北京

读秒级理解，再细节的信息也能捕捉

期待已久，Step 系列大模型又来迎新，视频理解模型 step-1.5v-turbo 给大家端上来啦！

step-1.5v-turbo 基本素质到位，具备出色的视频理解能力，能够准确识别视频中的物体、人物和环境。

此外，它还能够「读懂空气」，理解视频的整体氛围和人物情绪。

最重要的是，它能「听懂人话」，具备突出的指令跟随能力，维持稳定的格式化输出。

因此 step-1.5v-turbo 可以广泛应用于各种视频分析和处理任务，如视频 Caption、内容理解、视频问答等。

视频理解模型已经上线开放平台体验中心，无需代码，登录即可体验。复制链接并在浏览器内打开：

https://platform.stepfun.com/console-tools?model=step-1.5v-mini

01 | 模型性能

我们分别评测了视频理解里主流的综合能力评测榜单 MVBench-16、TempCompass 和 Dream 1k。其中 MVBench-16f 侧重于评测视频中事件和行为识别的能力，TempCompass 主要评测模型对于时序关系和事件发展等能力，而Dream 1k 侧重于评测模型在视频描述上的能力。通过评测榜单可以看到阶跃星辰视频理解模型 step-1.5v-turobo 整体能力比肩国际一流水平，在视频中事件和时序理解上表现突出。

阶跃星辰的多模态大模型（step-1.5v、step-1.5v-turbo 等）遵循了原生多模的设计理念，在高效视觉表征的基础上，进一步追求视觉与文字模态的深度融合。因此，阶跃星辰的多模态模型具备与Step系列语言模型同样出色的自然语言能力。此外，step-1.5v-turbo模型在视频理解场景上进行了大规模训练，在视频理解任务上体现出强大的应用潜力。

本月，SuperCLUE 发布了 10 月中文多模态理解测评基准榜，阶跃星辰列国内多模态大模型技术实力榜首。另外，OpenCompass 最新的多模态模型测试榜单显示，阶跃星辰 step-1.5V 的得分超过 GPT-4o，成为唯一进入前 10 名的国内创业公司。在司南 OpenCompass 9 月发布的榜单中，阶跃星辰万亿参数语言大模型 Step-2 ，在国内大模型创业公司发布的同类模型中表现最优。详情可见：阶跃星辰荣登国内多模态大模型榜首｜SuperCLUE、OpenCompass 10 月榜单

02 | 模型能力

1. 突出的指令跟随能力

准确理解指令：模型具备优秀的指令理解和遵循能力，准确把握指令中的目标、要求和约束条件，并按照指令要求进行格式化输出。

多轮对话能力：模型具备上下文理解和记忆能力，能够处理复杂的对话场景，在多轮对话中根据用户的指令进行相应回复。

准确的视频理解能力

准确输出回答：模型能够准确理解视频内容，生成贴合视频内容的回答。避免含糊其辞、似是而非的内容生成。

文字描述：模型对视频内文字信息的感知能力优秀，能够捕捉和理解视频中出现的文字信息。

深度推理与分析能力

识别潜在关系：模型能够理解多人物、多主体信息，根据视频内容推理出视频中人物之间的关系。

进行情境分析：模型能够分析视频中的内容情节以及故事情境，深度理解视频内涵，帮助用户更深入地理解视频内容。

03 | 场景示例

我们准备了几个具体的示例，让大家更直观地感受 step-1.5v-turbo 的视频理解能力?

1. 内容解析

突出的指令跟随能力，能够进行多任务指令遵行，step by step 推理，稳定 json mode 格式化输出。

输入：

【指令】1. 首先【详细】视频中的内容！以Step1 开头。

2. 其次对视频的性质进行分析，维度包括：1）是否包含字幕；2）是否清晰；3）视频风格（动画、写实、玄幻，三选一），以Step2 开头。

3. 最后输出JSON格式，如：{"ContainSubtitles":"是或否","isClear":"是或否","VideoStyle": "动画、写实、玄幻，三选一","Caption":“对视频的详细描述”}，以Step3 开头。JSON 文本应当被 ```json ``` 包裹

输出：

Step1: 详细描述视频内容

视频展示了一个降落伞和一个带有多个白色球体的物体，在空中缓缓降落的过程。视频开始时，降落伞和物体在空中，背景为单一的深棕色。随后，降落伞逐渐打开，物体上的白色球体也逐渐展开。整个过程在空中进行，最终物体降落在红色的地表上。

Step2: 分析视频性质

是否包含字幕：否；是否清晰：是；视频风格：动画

Step3: 输出JSON格式

{ "ContainSubtitles": "否", "isClear": "是", "VideoStyle": "动画", "Caption": "视频展示了一个降落伞和一个带有多个白色球体的物体，在空中缓缓降落的过程。"}

2. 课程培训

理解各种课程知识学习类视频，精确到秒的内容解析，知识点一网打尽，学习效率蹭蹭提高。

*输入：**视频中第 15 秒在讲解的是什么内容？*

输出：在第 15 秒，视频中的讲解者正在介绍“确定性现象”和“随机现象”的概念。他解释说，在一定的条件下，重复进行试验或观察，可能出现这样的结果，也可能出现那样的结果，而试验或观察前，不能预知究竟出现哪种结果，呈现出偶然性。这种现象被称为随机现象。

3. 巡检监控

实时监控，还能自动识别异常情况，比如设备故障、安全隐患等，实现智能巡检。

输入：视频中的工厂车间发生了什么事故？

输出：视频中显示了一个工厂车间发生了火灾，随后引发了爆炸。火焰迅速蔓延，最终导致了剧烈的爆炸。

4. 宣传文案

分析视频画面和内容，化身文案大师，为视频撰写富有特色的宣传文案。

输入：你是一个文案专家，你善于通过视频分析内容里面的风景和拍摄者的风格，然后以此为基础创作文案，请根据上传的视频写一段城市宣传文案，要求充满诗意与浪漫，文字要求极简。

输出：在这座城市的脉搏中，未来与历史交织，科技与人文共舞。高楼林立，勾勒出天际线的壮丽；繁忙的港口，承载着经济的活力；街头巷尾，生活如诗如画。在这里，你可以品味美食，感受文化的魅力；你可以畅游商场，体验购物的乐趣；你可以穿梭于繁忙的街道，感受城市的脉动。这座城市，是未来与活力的象征，是梦想与希望的家园。

5. 内涵解读

模型不仅能识别画面，还能深度解析视频内容，挖掘隐含的信息。

输入：解读一下视频内涵。

输出：这段视频通过一个黑色剪影人物的生活片段，展现了人生不同阶段的变化与成长。首先，人物从左侧走向一个蓝色的球，代表着探索和发现。接着，他用放大镜观察这个球，象征着对生活的深入理解和分析。然后，他拿起一个红色的球继续行走，可能意味着激情和动力的延续接着，他弯腰捡起一个小盒子并打开它，这可能暗示着在人生旅程中收获的经验和智慧。然后他拿起一个棕色的盒子并打开它，这可能代表了更深层次的内心探索或情感体验。最后，人物变得年老并拄着拐杖行走，这是对衰老和生命终点的一种隐喻。整体上，视频通过这些简单而富有象征意义的画面传达了生命中的不同阶段、成长与变化，并强调了对生活进行深入思考和珍惜的重要性。

欢迎加入阶跃星辰开发者交流群，及时获取一手信息。

点击阅读原文，查看视频理解最佳实践~

阅读原文

跳转微信打开

01 | 模型性能