夕小瑶科技说 2024年11月20日
最新!LeCun发起的LLM评测榜单中,这个大模型拿下中国第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

国际权威榜单LiveBench最新结果显示,阶跃星辰自研的万亿参数语言大模型Step-2在技术表现上位列中国基座大模型第一,并超越多个国际主流模型,成为唯一进入榜单前十的中国语言大模型。Step-2在指令遵循方面表现突出,拥有强大的细节控制力,能够理解复杂指令并提供准确、个性化的响应。此外,它在内容创作方面也展现出优秀的文字控制能力,例如创作七言律诗时能够精准把握字数、格律等。目前,Step-2已接入阶跃星辰的C端智能助手‘跃问’,并对开发者开放API接口。这一成绩表明国产大模型的“含金量”持续提升,未来发展前景广阔。

🎉LiveBench榜单显示,阶跃星辰自研的万亿参数语言大模型Step-2位列中国基座大模型第一,并超越了多个国际主流模型,成为唯一进入榜单前十的中国语言大模型。

🚀Step-2在指令遵循(IF Average)方面表现卓越,位列全球第一,这意味着它拥有强大的细节控制力,能够精准理解并遵循人类指令,即使是模糊指令也能基于上下文推测用户需求,提供个性化响应。

✍️Step-2在内容创作方面展现出优秀的文字控制能力,例如创作七言律诗时,能够精准把握字数、格律、押韵和意境,体现了其强大的语言生成能力。

💡Step-2已接入阶跃星辰的C端智能助手‘跃问’,并对开发者开放API接口,方便用户和开发者体验和应用其强大的功能。

🏆LiveBench榜单的权威性得到业界认可,其公平、透明的评估体系确保了测试结果的客观性,也体现了国产大模型在技术实力上的不断提升。

2024-11-19 21:23 北京

夕小瑶科技说 分享

国产大模型的“含金量”还在上升!

今日消息,国际权威榜单 LiveBench 官网公布了最新的语言大模型测评结果,阶跃星辰自研的万亿参数语言大模型 Step-2 的技术表现位列中国基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型,是唯一进入榜单前十名的中国语言大模型,位列全球第五。另外,同时上榜的中国大模型公司还有通义千问和 DeepSeek。

LiveBench 的权威性在大语言模型测评圈中有着难以撼动的地位,被称为“世界上第一个不可玩弄的 LLM 基准测试”,不仅因为它是由图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构联合推出,更因为 LiveBench 通过一系列设计以确保测试集的客观、中立和广泛性。比如通过“每月更新题目”避免大模型微调作弊,设计中立的评价体系以避免人类评价者受格式偏好和文风影响,全面评估大模型包括推理、编程、写作和数据分析在内的多种维度等等。

因为高度公平和透明,LiveBench 甚至把 “A Challenging, Contamination-Free LLM Benchmark” 直接写在了官网上。

LiveBench 从包括数学、推理、编程、语言理解、指令遵循和数据分析在内的多个复杂维度对模型进行评估,值得注意的是,在 IF Average(Instruction Following,指令遵循)一项上,阶跃星辰 Step-2 表现甚至超过了所有上榜模型,位列全球第一!上一次中国大模型在 LiveBench 扬眉吐气还是通义千问,可见基座大模型厂商们的你追我赶还在继续。

我们研究了下,IF Average 这个指标突出,意味着 Step-2 在语言生成上对细节有最强的控制力,模型能够更好地理解和遵循人类指令。比如即便给模型模糊指令,它也能发挥出色的理解能力基于上下文推测用户需求,提供更准确、个性化的响应;也意味着语言大模型在进行内容创作时对文字有更强的细节控制能力,比如当用模型创作七言律诗,它在字数、格律、押韵、意境都可以做到精准把握;同时,需要大模型在知识覆盖范围和深度上也能实力在线,除了能处理常见领域知识,也能理解特定领域或边缘分布中的复杂问题。

阶跃星辰这款万亿参数的语言大模型目前已经接入了他们的C 端智能助手「跃问」,在跃问 App 和跃问官网(https://yuewen.cn)都可以使用。阶跃星辰开放平台也对开发者开放了 Step-2的API接口。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LiveBench Step-2 大语言模型 阶跃星辰 国产AI
相关文章