阶跃星辰开放平台 2024-10-25 18:09 北京
读秒级理解,再细节的信息也能捕捉
期待已久,Step 系列大模型又来迎新,视频理解模型 step-1.5v-turbo 给大家端上来啦!
step-1.5v-turbo 基本素质到位,具备出色的视频理解能力,能够准确识别视频中的物体、人物和环境。
此外,它还能够「读懂空气」,理解视频的整体氛围和人物情绪。
最重要的是,它能「听懂人话」,具备突出的指令跟随能力,维持稳定的格式化输出。
因此 step-1.5v-turbo 可以广泛应用于各种视频分析和处理任务,如视频 Caption、内容理解、视频问答等。
视频理解模型已经上线开放平台体验中心,无需代码,登录即可体验。复制链接并在浏览器内打开:
https://platform.stepfun.com/console-tools?model=step-1.5v-mini
01 | 模型性能
我们分别评测了视频理解里主流的综合能力评测榜单 MVBench-16、TempCompass 和 Dream 1k。其中 MVBench-16f 侧重于评测视频中事件和行为识别的能力,TempCompass 主要评测模型对于时序关系和事件发展等能力,而Dream 1k 侧重于评测模型在视频描述上的能力。通过评测榜单可以看到阶跃星辰视频理解模型 step-1.5v-turobo 整体能力比肩国际一流水平,在视频中事件和时序理解上表现突出。
阶跃星辰的多模态大模型(step-1.5v、step-1.5v-turbo 等)遵循了原生多模的设计理念,在高效视觉表征的基础上,进一步追求视觉与文字模态的深度融合。因此,阶跃星辰的多模态模型具备与Step系列语言模型同样出色的自然语言能力。此外,step-1.5v-turbo模型在视频理解场景上进行了大规模训练,在视频理解任务上体现出强大的应用潜力。
本月,SuperCLUE 发布了 10 月中文多模态理解测评基准榜,阶跃星辰列国内多模态大模型技术实力榜首。另外,OpenCompass 最新的多模态模型测试榜单显示,阶跃星辰 step-1.5V 的得分超过 GPT-4o,成为唯一进入前 10 名的国内创业公司。在司南 OpenCompass 9 月发布的榜单中,阶跃星辰万亿参数语言大模型 Step-2 ,在国内大模型创业公司发布的同类模型中表现最优。详情可见:阶跃星辰荣登国内多模态大模型榜首|SuperCLUE、OpenCompass 10 月榜单
02 | 模型能力
1. 突出的指令跟随能力
准确理解指令:模型具备优秀的指令理解和遵循能力,准确把握指令中的目标、要求和约束条件,并按照指令要求进行格式化输出。
多轮对话能力:模型具备上下文理解和记忆能力,能够处理复杂的对话场景,在多轮对话中根据用户的指令进行相应回复。
准确的视频理解能力
准确输出回答:模型能够准确理解视频内容,生成贴合视频内容的回答。避免含糊其辞、似是而非的内容生成。
文字描述:模型对视频内文字信息的感知能力优秀,能够捕捉和理解视频中出现的文字信息。
深度推理与分析能力
识别潜在关系:模型能够理解多人物、多主体信息,根据视频内容推理出视频中人物之间的关系。
进行情境分析:模型能够分析视频中的内容情节以及故事情境,深度理解视频内涵,帮助用户更深入地理解视频内容。
03 | 场景示例
我们准备了几个具体的示例,让大家更直观地感受 step-1.5v-turbo 的视频理解能力?
1. 内容解析
突出的指令跟随能力,能够进行多任务指令遵行,step by step 推理,稳定 json mode 格式化输出。
输入:
【指令】1. 首先【详细】视频中的内容!以Step1 开头。
2. 其次对视频的性质进行分析,维度包括:1)是否包含字幕;2)是否清晰;3)视频风格(动画、写实、玄幻,三选一),以Step2 开头。
3. 最后输出JSON格式,如:{"ContainSubtitles":"是或否","isClear":"是或否","VideoStyle": "动画、写实、玄幻,三选一","Caption":“对视频的详细描述”},以Step3 开头。JSON 文本应当被 ```json ``` 包裹
输出:
Step1: 详细描述视频内容
视频展示了一个降落伞和一个带有多个白色球体的物体,在空中缓缓降落的过程。视频开始时,降落伞和物体在空中,背景为单一的深棕色。随后,降落伞逐渐打开,物体上的白色球体也逐渐展开。整个过程在空中进行,最终物体降落在红色的地表上。
Step2: 分析视频性质
是否包含字幕:否;是否清晰:是;视频风格:动画
Step3: 输出JSON格式
{
"ContainSubtitles": "否",
"isClear": "是",
"VideoStyle": "动画",
"Caption": "视频展示了一个降落伞和一个带有多个白色球体的物体,在空中缓缓降落的过程。"
}
2. 课程培训
理解各种课程知识学习类视频,精确到秒的内容解析,知识点一网打尽,学习效率蹭蹭提高。
输入:视频中第 15 秒在讲解的是什么内容?
输出:在第 15 秒,视频中的讲解者正在介绍“确定性现象”和“随机现象”的概念。他解释说,在一定的条件下,重复进行试验或观察,可能出现这样的结果,也可能出现那样的结果,而试验或观察前,不能预知究竟出现哪种结果,呈现出偶然性。这种现象被称为随机现象。
3. 巡检监控
实时监控,还能自动识别异常情况,比如设备故障、安全隐患等,实现智能巡检。
输入:视频中的工厂车间发生了什么事故?
输出:视频中显示了一个工厂车间发生了火灾,随后引发了爆炸。火焰迅速蔓延,最终导致了剧烈的爆炸。
4. 宣传文案
分析视频画面和内容,化身文案大师,为视频撰写富有特色的宣传文案。
输入:你是一个文案专家,你善于通过视频分析内容里面的风景和拍摄者的风格,然后以此为基础创作文案,请根据上传的视频写一段城市宣传文案,要求充满诗意与浪漫,文字要求极简。
输出:在这座城市的脉搏中,未来与历史交织,科技与人文共舞。高楼林立,勾勒出天际线的壮丽;繁忙的港口,承载着经济的活力;街头巷尾,生活如诗如画。在这里,你可以品味美食,感受文化的魅力;你可以畅游商场,体验购物的乐趣;你可以穿梭于繁忙的街道,感受城市的脉动。这座城市,是未来与活力的象征,是梦想与希望的家园。
5. 内涵解读
模型不仅能识别画面,还能深度解析视频内容,挖掘隐含的信息。
输入:解读一下视频内涵。
输出:这段视频通过一个黑色剪影人物的生活片段,展现了人生不同阶段的变化与成长。首先,人物从左侧走向一个蓝色的球,代表着探索和发现。接着,他用放大镜观察这个球,象征着对生活的深入理解和分析。然后,他拿起一个红色的球继续行走,可能意味着激情和动力的延续接着,他弯腰捡起一个小盒子并打开它,这可能暗示着在人生旅程中收获的经验和智慧。然后他拿起一个棕色的盒子并打开它,这可能代表了更深层次的内心探索或情感体验。最后,人物变得年老并拄着拐杖行走,这是对衰老和生命终点的一种隐喻。整体上,视频通过这些简单而富有象征意义的画面传达了生命中的不同阶段、成长与变化,并强调了对生活进行深入思考和珍惜的重要性。
欢迎加入阶跃星辰开发者交流群,及时获取一手信息。
点击阅读原文,查看视频理解最佳实践~