阶跃星辰 2024年11月20日
LiveBench 最新榜单:阶跃星辰位列中国大模型第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阶跃星辰自研的万亿参数语言大模型Step-2在国际权威榜单LiveBench中位列国产基座大模型第一,全球排名第五,超越多个国际主流模型。Step-2在指令遵循方面表现突出,能够更精准地理解用户模糊指令,并提供个性化响应。其知识覆盖范围广且深入,能处理复杂问题,在文字创作上也具备强大的细节控制能力,例如古诗词创作。阶跃星辰已将Step-2接入C端智能助手「跃问」,用户可在App和网页端体验其功能。

🤔Step-2在LiveBench榜单中位列国产基座大模型第一,全球排名第五,是唯一进入前十的中国语言大模型,成绩逼近OpenAI的o1-mini-2024-09-12,超越gpt-4o-2024-08-06、gemini-1.5-pro-002等国际主流模型。

🚀Step-2在指令遵循(IF Average)方面表现突出,能够更精准地理解用户模糊指令,并提供个性化响应,例如从上下文中推断出用户的真实需求,提供更准确、个性化的响应。

📚Step-2在知识覆盖范围和深度上都取得显著突破,不仅能够处理常见领域知识,还能深入理解和回答特定领域或边缘分布中的复杂问题。

✍️Step-2能够生成高质量、有创意的文字内容,同时具备出色的细节控制能力,能够根据用户的指令对文本进行精确地调整和优化,例如在创作古诗词时,对字数、格律、押韵、意境都可以做到精准把握。

原创 阶跃星辰 2024-11-19 19:10 北京

唯一进入前十的中国语言大模型!


国际权威榜单 LiveBench 官网发布最新的榜单成绩显示,阶跃星辰自研的万亿参数语言大模型 Step-2 在榜单中位列国产基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型,是唯一进入榜单前十名的中国语言大模型,位列全球第五


(图片来自 LiveBench 官网)


LiveBench 是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构推出的大模型测评基准。LiveBench 从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,采用新颖的数据来源并保持每月更新。LiveBench 的官网上写着A Challenging,Contamination-Free LLM Benchmark”被行业内誉为「世界上第一个不可玩弄的 LLM 基准测试」


根据榜单,Step-2 在 IF Average(Instruction Following)一项表现突出,超越包括 o1-preview-2024-09-12 在内的所有国内外语言大模型。这意味着,Step-2 在语言生成上对细节有最强的控制力,模型能够更好地理解和遵循人类指令,比如:


1. 模糊指令“更懂你”

Step-2 具备出色的理解能力,能够从上下文中推断出用户的需求,精准捕捉用户在模糊指令中的真实意图,提供更准确、个性化的响应。


2. 知识分布更广更深

Step-2 在知识覆盖范围和深度上都取得显著突破,不仅能够处理常见领域知识,还能深入理解和回答在特定领域或边缘分布中的复杂问题。


3. 文字创作控制上更细致

Step-2 能够生成高质量、有创意的文字内容,同时具备出色的细节控制能力,能够根据用户的指令对文本进行精确地调整和优化。比如在创作古诗词时,对字数、格律、押韵、意境都可以做到精准把握。


今年 3 月,阶跃星辰发布了 Step-2  语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。Step-2 在语义理解、指令跟随、内容创作方面表现突出。目前,阶跃星辰 C 端智能助手「跃问」已经接入了 Step-2 万亿参数语言大模型,在跃问 App 和跃问网页端(https://yuewen.cn)皆可体验。






跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Step-2 语言大模型 LiveBench 阶跃星辰 人工智能
相关文章