Mistral AI 与 All Hands AI 合作,推出了 Devstral,一款新的开源大型语言模型。它专门为自动化复杂的软件工程工作流程而设计。与侧重于孤立代码任务的模型不同,Devstral 擅长利用代码智能体框架,跨多个文件和整个代码库进行推理。它在 SWE-Bench Verified 基准测试中实现了开源模型中的领先性能。Devstral 由 Mistral Small 3.1 微调而来,是一个 24B 参数的基于文本的模型。它具有 128k 令牌上下文窗口,能够在消费级硬件上运行。Devstral 在 Apache 2.0 许可证下发布,可在多个平台上使用,并通过 Mistral 的 API 提供。此举旨在降低在软件开发中实际应用 AI 的门槛。
主要内容
1. Devstral 旨在解决跨完整代码库的复杂软件工程任务。
与用于简单代码完成的模型不同,Devstral 旨在通过智能体框架,跨多个文件和整个代码库进行推理,从而处理现实世界的问题。
2. Devstral 在 SWE-Bench 基准测试中实现了开源模型的领先性能。
SWE-Bench 上的得分证明了 Devstral 在解决真实项目问题方面的能力,以及相比现有开源模型甚至更大的模型,它的效率优势。
3. 该模型具有 24B 参数大小、长上下文和消费级硬件支持,使其易于访问。
这有助于开发人员和团队进行本地部署和实验,从而降低了使用高级代码理解 AI 的入门门槛。
Mistral AI 发布 Devstral:开源 AI 编程智能体,革新软件工程工作流
Mistral AI 宣布与 All Hands AI 合作推出全新开源大型语言模型 Devstral,旨在提升软件工程工作流的自动化水平,特别是在需要跨多个文件和组件进行推理的复杂编程环境中。与专注于代码补全或函数生成等单一任务的模型不同,Devstral 设计用于解决现实世界的编程问题,通过代码智能体框架操作整个代码仓库。
Devstral:面向智能体的语言模型
Devstral 属于新一代 智能体语言模型(agentic language models),不仅能生成代码,还能根据特定任务执行上下文相关的操作。其核心能力包括:
- 跨文件迭代修改:支持在多个文件中进行持续修改,理解项目结构和依赖关系。代码库探索:能够分析代码库,提出修复 bug 或添加新功能的建议。最小化人工干预:自动完成复杂任务,减少开发者手动操作的需求。
这些功能与现代软件工程的需求高度契合,强调对项目整体结构的理解,而不仅仅是编写语法正确的代码。
性能表现:SWE-Bench 基准测试领先
根据 Mistral 的内部评估,Devstral 在 SWE-Bench Verified 基准测试中取得了 46.8% 的性能得分。该基准包含 500 个经过人工筛选的 GitHub 问题,测试模型不仅生成有效代码,还要实际解决真实项目中的问题。Devstral 超越了此前所有开源模型,领先幅度超过 6 个百分点。
在相同的 OpenHands 框架下,Devstral 甚至优于参数量更大的模型,如拥有 6710 亿参数的 Deepseek-V3-0324 和 Qwen3 232B-A22B,展现了其高效性。
技术细节与可访问性
Devstral 是从 Mistral Small 3.1 基础模型微调而来的,移除了视觉编码器,成为一个完全基于文本的模型,专注于代码理解和生成。其关键特性包括:
- 长上下文窗口:支持高达 128,000 个 token 的上下文,足以处理大型代码库或长时间对话。轻量级设计:拥有 240 亿参数,相对轻量,可在消费级硬件(如 NVIDIA RTX 4090 或配备 32GB 内存的 Apple Silicon 设备)上运行。开源许可:采用 Apache 2.0 许可证,允许商业和非商业使用、修改和重新分发。
开发者可通过 Hugging Face、LM Studio、Ollama 和 Kaggle 下载 Devstral,或通过 Mistral 的 API(标识符:devstral-small-2505
)访问。
社区反响
社区对 Devstral 的发布反响热烈,兼具兴奋与审慎的评价。产品开发者 Nayak Satya 评论道:
“Mistral 又一次令人振奋的进步。这家公司正在悄无声息地为 AI 领域贡献重要成果。欧洲在 AI 领域并不落后,Mistral 功不可没。同时,它能否集成到 VS Code 或其他现代 IDE 中?”
Reddit 的 r/LocalLLaMA 子版块用户 Coding9 分享了初步体验:
“它在 Cline 上完成了一个简单任务,我简直不敢相信。之前从未让其他本地模型成功运行。接下来我会尝试更复杂的任务!”
未来展望
尽管 Devstral 目前为研究预览版,但其发布标志着大型语言模型在软件工程实际应用中的重要一步。Mistral 表示,一个更大规模、功能更强的版本正在开发中,预计将带来更先进的性能。
Mistral 邀请开发者社区提供反馈,以进一步优化模型及其在软件工具生态系统中的集成。这不仅将推动 Devstral 的迭代,也将为 AI 驱动的编程工作流带来更多可能性。
结语
Devstral 的推出展示了 Mistral AI 在开源 AI 领域的雄心,其专注于复杂编程场景的智能体设计为开发者提供了强大工具。通过轻量级架构、长上下文支持和开源许可,Devstral 降低了企业在本地或敏感代码库中应用 AI 的门槛。随着更大版本的开发和社区的持续反馈,Devstral 有望成为软件工程自动化的重要基石。
关键词:Mistral AI, Devstral, 开源模型, AI 编程, 软件工程, 智能体语言模型, SWE-Bench, 代码自动化