IT之家 04月10日 14:23
大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

豆包大模型团队开源了Multi-SWE-bench数据集,这是一个用于评估和提升大模型“自动修 Bug”能力的新基准。它在SWE-bench的基础上,首次覆盖了Python之外的7种主流编程语言,旨在推动自动编程技术的发展,使其能够解决多语言、更复杂的编程任务。该数据集历时近一年构建,基于GitHub issue,包含了1632个实例,涵盖了从简单到困难的多种编程挑战,并经过了专业开发者的审核筛选,确保了数据的质量和真实性。Multi-SWE-bench的发布,将促进多语言软件开发Agent的评估与研究。

💻 Multi-SWE-bench是首个多语言类SWE数据集,它扩展了SWE-bench,覆盖了Python之外的7种主流编程语言,包括Java、Go、Rust、C、C++、TypeScript和JavaScript,构建了多语言开发环境下的代码修复任务。

🛠️ 该数据集旨在评估和提升大模型“自动修 Bug”能力,促进自动编程技术的发展,使其能够解决多语言、更复杂的编程任务。其数据均来自GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

🧩 Multi-SWE-bench引入了任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战。

✅ 数据集包含1,632个实例,全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

IT之家附开源链接:

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Multi-SWE-bench 豆包大模型 自动编程 大模型 代码修复
相关文章