36kr-科技 01月14日
最强代码模型刷新:Mistral新品上线即登顶,上下文窗口增至256k
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

CodeStral 2501在Copilot竞技场获第一,性能提升。它使用更高效架构,生成速度快,多种测试中取得SOTA成绩,支持多种语言,可通过多种方式使用,价格明确。

💻CodeStral 2501在Copilot竞技场与DeepSeek V2.5等并列第一

🚀使用更高效架构和分词器,生成速度比前一代快2倍

🎉在多个Benchmark和多种语言测试中取得SOTA成绩

💰可通过合作方或API使用,价格为0.3/0.9美元或欧元每百万输入/输出token

“欧洲版 OpenAI” Mistral 的代码模型CodeStral,又上新了!

而且与 DeepSeek V2.5 和 Claude 3.5 平起平坐,共同位列 Copilot 竞技场第一名。

上下文窗口也增长到了之前的 8 倍,达到了 256k

据介绍,新版 Codestral(2501)使用了更高效的架构和分词器,生成速度比前一代大约快了 2 倍。

在多个 Benchmark 当中,2501 版本都取得了 SOTA 的成绩,代码补全(FIM)能力也可圈可点。

Mistral 的合作方 Continue.dev 联创 Ty Dunn 还表示,Codestral 2501 标志着FIM领域的重大进步。

登顶代码模型竞技场,多种编程语言均是SOTA

在代码模型竞技场 Copilot Arena 上,CodeStral 2501 取得了第一名,与 Deepseek V2.5 以及 Claude 3.5 Sonnet 并列。

之后是 CodeStral 的上一个版本(2405),新版得分相比这一版提高了 12 分(1.2%)。

Llama 3.1、Gemini 1.5 Pro 和 GPT-4o 的排名则还要再靠后。

不过榜单当中没有 o1,如果加进来对话可能形势还会有所改变。

Copilot Arena 由卡内基梅隆大学和 UC 伯克利的研究人员与 LMArena 合作于去年 11 月推出。

它和我们更熟悉的 LLM 竞技场很类似,由用户出题并让系统随机选择两个模型匿名输出,然后用户根据输出选择优胜方

Copilot Arena 可以看做是LLM 竞技场的代码专用版本,不过同时它也是一款开源编程工具,可以在 VSCode 中同时让多个模型同时生成,方便用户“货比三家”。

目前已经有 12 个代码模型在 Copliot Arena 中进行过 PK,总共进行了 1.7 万余场battle。

而根据 Mistral 官方晒出的成绩单,CodeStral 2501 在 HumanEval 等传统测试当中的多个指标上,也取得了 SOTA 的成绩。

(按照 Mistral 的说法,选择参与对比的模型是参数量 100B 以下且在 FIM 任务当中普遍被认为表现较好的模型。)

并且窗口长度也从 2405(参数量 22B)的 32k 增长到了 256k。

在 Python 语言和 SQL 数据库的测试中,CodeStral 2501 在多个测试指标上都位列第一,其余位列第二。

其他语言方面(据宣传 CodeStral 共支持 80+ 种语言),CodeStral 的 HumanEval 平均分为 71.4%,比第二名高出近 6 个百分点。

具体来看,在 Python、C+、JS 等多种常用语言中也都是 SOTA,并且实现了 C# 语言得分过半。

不过有意思的是,在 Java 上 CodeStral 2501 的成绩相比前一代出现了下降。

除了生成,Mistral 团队也发布了 CodeStral 2501 的 FIM 表现(单行精确匹配)。

结果平均成绩以及 Python、Java 和 JS 三个单项相比前一代均进步明显,且优于 OpenAI FIM API(最新版是3.5 Turbo)等其他模型(不过紧随其后的 DeepSeek 咬得很紧)。

在 FIM 的 pass@1 当中,表现也是类似:

目前,CodeStral 2501 可以通过 Mistral 的合作方 Continue,在 VSCode 或 Jetbrains 系列 IDE 中使用。

当然动手能力强的用户,也可以通过 API 自己来部署,价格是 0.3/0.9 美元或欧元每百万输入/输出 token。

参考链接:

[1]https://x.com/lmarena_ai/status/1878872916596806069

[2]https://mistral.ai/news/codestral-2501/

本文来自微信公众号“量子位”,作者:克雷西,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

CodeStral 2501 Copilot Arena SOTA成绩 编程语言
相关文章