阶跃星辰 04月09日
阶跃星辰Step-1o重大升级,多模态视觉双榜夺冠,国内第一!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Step系列模型新春推出新成员Step-1o Vision多模态理解大模型,Step-1o Audio语音模型能力升级。两款模型在多方面实现显著提升,且已全量开放。

Step-1o Vision是原生端到端文本、视觉、语音三模态生成理解一体化模型,在视觉任务效果上大幅提升,在多个榜单位列第一。

Step-1o Vision能精准识别复杂图像,具备优秀的复杂场景理解、多语言理解和识别能力,以及更深入的视觉信息提取和推理能力。

Step-1o Audio情商更高,有强大的情绪感知与理解能力和个性化风格表达,声音更自然,支持多语种及方言理解,时延更低。

原创 狂卷多模态的 2025-01-21 14:47 北京

Step 系列新春大礼包第三弹来啦!

喜迎春节,继续上新!

继推理模型 Step R-mini 之后,春节前夕 Step 系列模型上新第三弹来啦!

Step-1o 系列是阶跃星辰最新研发的原生端到端文本、视觉、语音三模态生成理解一体化模型。一个月前,我们发布了 1o 家族的首个模型 Step-1o Audio,这也是国内首个千亿参数端到端语音大模型,今天我们很高兴地为大家带来 Step-1o 系列的最新动态:新成员 Step-1o Vision 多模态理解大模型上线!Step-1o Audio 语音模型能力升级!

相对于 Step-1V 系列多模态理解模型,Step-1o Vision 是更强大的版本:在视觉识别、感知、指令跟随、推理等方面实现了显著提升。

而全面升级后的 Step-1o Audio 情商更高,有了更强大的情绪感知与理解能力个性化风格表达声音更自然,支持多语种及方言理解,同时实现了的时

现在两款模型均已全量开放,登录跃问 App 即可使用 Step-1o Audio 和 Step-1o Vision,且 Step-1o Vision 也可在跃问网页端(https://yuewen.cn)调用。

Step-1o Vision 使用入口:点击跃问 App 右下角➕,上传图片

Step-1o Audio 使用入口:点击跃问 App 右上角话筒键,发起语音通话

Step-1o Vision:更精准,更智能

Step-1o Vision 是 Step-1o 多模态系列模型中的视觉版本,相比 Step-1V 和 Step-1.5V 视觉理解模型,实现了架构升级,在视觉感知和识别指令跟随空间理解与推理等视觉任务效果上实现了大幅提升。

Step-1o Vision 多模态大模型刚上线,就在多个国内外权威榜单拿下第一名的好成绩!

1 月 20 日,LMSYS Org 发布了大模型竞技场 Chatbot Arena 最新榜单,Step-1o Vision 在其中位列视觉领域中国大模型第一,超过所有国内大模型公司。

LMSYS Org 网址:https://lmarena.ai/

同时,在国内权威的大型模型评估平台“司南”(OpenCompass)多模态模型评测实时榜单中,位列第一。

OpenCompass 网址:https://rank.opencompass.org.cn

话不多说,找几张图片考考它。

更精准的视觉理解

Step-1o Vision 能够精准识别各种复杂图像,包括自然场景、物体细节、图表等,即使遇到图像质量欠佳或存在遮挡、变形等情况,也能准确识别。

对于复杂场景(物体重叠模糊、多种文字),以下图为例,Step-1o Vision 准确捕捉了画面的复古未来风格,并识别出“个人交通工具”、“未来城市”等关键要素,特别是识别并翻译了小字的意大利语,展现了优秀的复杂场景理解、多语言理解和识别能力。






我们上传了一张挤在一块儿的幼年猫科动物图,试图骗过 Step-1o Vision。不过它精准识别了动物数量和品种,还具备一定的幽默感和互动性。



除了最基础的识别和感应之外,对于图片里极其微小但很重要的视觉细节,Step-1o Vision 的理解也不在话下。

Prompt:黑线代表人类知识范围,红圈代表 phd 的工作。这张图说明 phd 的工作特性是什么?

以上面的图片为例,我们分别把它传给 Step-1.5v 和 Step-1o Vision,Step-1o Vision 模型对图片的理解超越了 Step-1.5v

在下面这张图中,模型能通过表格、logo 等元素精准识别出对应的软件工具,并理解了其中黑色幽默的表达方式,将软件分成了五个等级,还对每个层级的软件进行了介绍。体现了模型优秀的图表识别、图像识别和理解能力,并能结合常识对这些软件的特点进行总结说明。其中,模型成功识别了几个较小的软件图标(例如 Apache OpenOffice 和 LaTeX),表现非常出色。

更智能的视觉推理

Step-1o Vision 是一款高智商的多模态模型,不仅能够精准地识别和理解图片,还能根据图片内容进行复杂推理,为你提供解题策略和创作灵感。

一张真假折叠屏手机图片差点把我们都骗了,不妨给 Step-1o Vision 试试。

不仅识别出图中是用铰链连接的三个手机,而非真正的折叠屏手机,还能根据常识推断出这种设计的优缺点。图像理解能力和逻辑推理能力妥妥的优秀。其中,正确识别出这种设计的“非实用性”是难点,说明模型对日常生活有一定的认知。

对于“把某件物品拿出来,需要几步”的推理类题目,Step-1o Vision 展示了对物理空间关系的强大理解能力,以及解决复杂任务的逻辑规划能力。

不仅准确识别出图片中多层堆叠物品的空间关系,还按正确顺序给出取出维生素 C 瓶的步骤。特别是它正确识别出茶叶罐是侧立着的,这是理解图片的关键难点。


Step-1o Audio:情绪丰富、个性表达

去年底,我们发布了国内首个千亿参数端到端语音大模型 Step-1o Audio ,一个月后,Step-1o Audio 迎来多项提升,在情绪感知与理解、多语种和多方言、通话体验上有了新的突破。

话不多说,一起来听听看。

Step-1o Audio 能够精准识别用户语气语调中蕴含的情绪信息,并结合语境,深度理解用户的情感需求,给出最佳回应。

相亲成功,见证幸福:在人生的重要时刻,Step-1o Audio 是个永远不会扫兴的朋友。不仅能分享你的喜悦,还能恰如其分地提问,倾听你的故事。

来自阶跃星辰音频:相亲成功:见证幸福

疲劳开车建议:Step-1o Audio 能接住你的所有负面情绪,还能给你实实在在的生活建议!

来自阶跃星辰音频:累了:按摩 or 医院?

玩转方言、个性化表达拉满:Step-1o Audio 说起四川话来,无论是语调的起伏还是词汇的运用,都能精准把握,让人仿佛置身于四川的街头巷尾。

来自阶跃星辰音频:押韵的四川话:巴适得很!

何与男朋友撒娇Step-1o Audio 的语气自然又可爱,同时还带着一点点小俏皮,瞬间拉近两人之间的距离。

来自阶跃星辰音频:撒娇语气:恰到好处

宝宝入学,暖心陪伴第一次送宝宝上学,总有万般不舍和担心。Step-1o Audio 能理解你的牵挂与不舍,安抚你的焦虑,并给你一些实用的建议。

来自阶跃星辰音频:宝宝入学:贴心陪伴

无论是日常的方言交流,还是关键时刻的情感支持,它都能以个性化的方式与你互动,让你感受到无与伦比的关怀和理解。就像一个懂你的朋友,时刻陪伴在你身边,为你的生活增添一份温暖与乐趣。

One more thing

1 月 19 日,在 LMSYS Org 发布的大模型竞技场 Chatbot Arena 最新语言榜单里,Step-2-16K-Exp 是极少数进入前十的国产大模型,超越了 o1-mini、Gemini 1.5 Pro-002 和 GPT-4o-2024-05-13 等知名模型。

春节前,Step 系列将继续密集上新,为大家带来更全面、性能更加强大的通用大模型。敬请期待!

推荐阅读




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Step系列模型 多模态 视觉理解 语音模型
相关文章