阶跃星辰 2024年10月28日
会刷视频的AI来了!视频理解模型step-1.5v-turbo上线开放平台
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰的视频理解模型step-1.5v-turbo具有出色能力,能准确识别视频中物体、人物和环境等,理解整体氛围和人物情绪,具备指令跟随能力,可广泛应用于多种视频分析处理任务,且在多个评测榜单中表现优异。

🎥阶跃星辰视频理解模型step-1.5v-turbo素质出色,具备优秀的视频理解能力,能准确识别视频中的物体、人物和环境,还能理解视频氛围和人物情绪,可用于多种视频分析处理任务。

📊该模型在多个主流的综合能力评测榜单中表现优异,整体能力比肩国际一流水平,在视频中事件和时序理解上尤为突出,且遵循原生多模设计理念,具备出色自然语言能力。

💪模型具有突出的指令跟随能力,包括准确理解指令、多轮对话能力、准确视频理解能力、优秀文字描述能力、深度推理与分析能力等,在各种场景示例中均有体现。

阶跃星辰开放平台 2024-10-25 18:09 北京

读秒级理解,再细节的信息也能捕捉

期待已久,Step 系列大模型又来迎新,视频理解模型 step-1.5v-turbo 给大家端上来啦!

step-1.5v-turbo 基本素质到位,具备出色的视频理解能力,能够准确识别视频中的物体、人物和环境。

此外,它还能够「读懂空气」,理解视频的整体氛围和人物情绪

最重要的是,它能「听懂人话」,具备突出的指令跟随能力,维持稳定的格式化输出。

因此 step-1.5v-turbo 可以广泛应用于各种视频分析和处理任务,如视频 Caption、内容理解、视频问答等。

视频理解模型已经上线开放平台体验中心,无需代码,登录即可体验。复制链接并在浏览器内打开:

https://platform.stepfun.com/console-tools?model=step-1.5v-mini


 01 | 模型性能 

我们分别评测了视频理解里主流的综合能力评测榜单 MVBench-16、TempCompass 和 Dream 1k。其中 MVBench-16f 侧重于评测视频中事件和行为识别的能力,TempCompass 主要评测模型对于时序关系和事件发展等能力,而Dream 1k 侧重于评测模型在视频描述上的能力。通过评测榜单可以看到阶跃星辰视频理解模型 step-1.5v-turobo 整体能力比肩国际一流水平,在视频中事件和时序理解上表现突出。

阶跃星辰的多模态大模型(step-1.5v、step-1.5v-turbo 等)遵循了原生多模的设计理念,在高效视觉表征的基础上,进一步追求视觉与文字模态的深度融合。因此,阶跃星辰的多模态模型具备与Step系列语言模型同样出色的自然语言能力。此外,step-1.5v-turbo模型在视频理解场景上进行了大规模训练,在视频理解任务上体现出强大的应用潜力。

本月,SuperCLUE 发布了 10 月中文多模态理解测评基准榜,阶跃星辰列国内多模态大模型技术实力榜首。另外,OpenCompass 最新的多模态模型测试榜单显示,阶跃星辰 step-1.5V 的得分超过 GPT-4o,成为唯一进入前 10 名的国内创业公司。在司南 OpenCompass 9 月发布的榜单中,阶跃星辰万亿参数语言大模型 Step-2 ,在国内大模型创业公司发布的同类模型中表现最优。详情可见:阶跃星辰荣登国内多模态大模型榜首|SuperCLUE、OpenCompass 10 月榜单


 02 | 模型能力 

1. 突出的指令跟随能力


    准确的视频理解能力


    深度推理与分析能力

 03 | 场景示例 

我们准备了几个具体的示例,让大家更直观地感受 step-1.5v-turbo 的视频理解能力?

1. 内容解析

突出的指令跟随能力,能够进行多任务指令遵行,step by step 推理,稳定 json mode 格式化输出。


输入:

【指令】1. 首先【详细】视频中的内容!以Step1 开头。

2. 其次对视频的性质进行分析,维度包括:1)是否包含字幕;2)是否清晰;3)视频风格(动画、写实、玄幻,三选一),以Step2 开头。

3. 最后输出JSON格式,如:{"ContainSubtitles":"是或否","isClear":"是或否","VideoStyle": "动画、写实、玄幻,三选一","Caption":“对视频的详细描述”},以Step3 开头。JSON 文本应当被 ```json ``` 包裹


输出:

Step1: 详细描述视频内容

视频展示了一个降落伞和一个带有多个白色球体的物体,在空中缓缓降落的过程。视频开始时,降落伞和物体在空中,背景为单一的深棕色。随后,降落伞逐渐打开,物体上的白色球体也逐渐展开。整个过程在空中进行,最终物体降落在红色的地表上。

Step2: 分析视频性质

是否包含字幕:否;是否清晰:是;视频风格:动画

Step3: 输出JSON格式

{ "ContainSubtitles": "否", "isClear": "是", "VideoStyle": "动画", "Caption": "视频展示了一个降落伞和一个带有多个白色球体的物体,在空中缓缓降落的过程。"}



2. 课程培训

理解各种课程知识学习类视频,精确到秒的内容解析,知识点一网打尽,学习效率蹭蹭提高。

输入:视频中第 15 秒在讲解的是什么内容?

输出:在第 15 秒,视频中的讲解者正在介绍“确定性现象”和“随机现象”的概念。他解释说,在一定的条件下,重复进行试验或观察,可能出现这样的结果,也可能出现那样的结果,而试验或观察前,不能预知究竟出现哪种结果,呈现出偶然性。这种现象被称为随机现象。



3. 巡检监控

实时监控,还能自动识别异常情况,比如设备故障、安全隐患等,实现智能巡检。

输入:视频中的工厂车间发生了什么事故?

输出:视频中显示了一个工厂车间发生了火灾,随后引发了爆炸。火焰迅速蔓延,最终导致了剧烈的爆炸。



4. 宣传文案

分析视频画面和内容,化身文案大师,为视频撰写富有特色的宣传文案。

输入:你是一个文案专家,你善于通过视频分析内容里面的风景和拍摄者的风格,然后以此为基础创作文案,请根据上传的视频写一段城市宣传文案,要求充满诗意与浪漫,文字要求极简。

输出:在这座城市的脉搏中,未来与历史交织,科技与人文共舞。高楼林立,勾勒出天际线的壮丽;繁忙的港口,承载着经济的活力;街头巷尾,生活如诗如画。在这里,你可以品味美食,感受文化的魅力;你可以畅游商场,体验购物的乐趣;你可以穿梭于繁忙的街道,感受城市的脉动。这座城市,是未来与活力的象征,是梦想与希望的家园。



5. 内涵解读

模型不仅能识别画面,还能深度解析视频内容,挖掘隐含的信息。

输入:解读一下视频内涵。

输出:这段视频通过一个黑色剪影人物的生活片段,展现了人生不同阶段的变化与成长。首先,人物从左侧走向一个蓝色的球,代表着探索和发现。接着,他用放大镜观察这个球,象征着对生活的深入理解和分析。然后,他拿起一个红色的球继续行走,可能意味着激情和动力的延续接着,他弯腰捡起一个小盒子并打开它,这可能暗示着在人生旅程中收获的经验和智慧。然后他拿起一个棕色的盒子并打开它,这可能代表了更深层次的内心探索或情感体验。最后,人物变得年老并拄着拐杖行走,这是对衰老和生命终点的一种隐喻。整体上,视频通过这些简单而富有象征意义的画面传达了生命中的不同阶段、成长与变化,并强调了对生活进行深入思考和珍惜的重要性。


欢迎加入阶跃星辰开发者交流群,及时获取一手信息。

点击阅读原文,查看视频理解最佳实践~


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阶跃星辰 视频理解 指令跟随 自然语言能力 多模态模型
相关文章