字节跳动豆包大模型团队发布了Multi-SWE-bench,这是一个多语言类SWE数据集,旨在评估和提升大模型在“自动修 Bug”方面的能力。该数据集在SWE-bench的基础上进行了扩展,首次涵盖了Python之外的7种主流编程语言,使其成为一个真正面向“全栈工程”的评测基准。Multi-SWE-bench包含了1632个来自GitHub issue的实例,每个实例都经过了统一的测试标准和专业开发者的审核筛选,确保了样本的质量和可复现性。豆包大模型团队希望通过这个数据集推动自动编程能力向更实用、更工程化的方向发展,以应对现实中的多语言开发场景。
🐛 Multi-SWE-bench是首个多语言类SWE数据集,用于评估和提升大模型“自动修 Bug”能力。
🌐 该数据集在SWE-bench基础上,覆盖了Python之外的7种主流编程语言,包括Java、Go、Rust、C、C++、TypeScript、JavaScript,成为真正面向“全栈工程”的评测基准。
🔢 Multi-SWE-bench包含1632个来自GitHub issue的实例,每个实例都经过统一的测试标准和专业开发者的审核筛选,保证了样本的质量。
💡 豆包大模型团队希望Multi-SWE-bench能推动自动编程能力向更实用、更工程化的方向发展,以应对现实中的多语言开发场景。
快科技4月10日消息,今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修 Bug”能力。
在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript),是真正面向“全栈工程”的评测基准。Multi-SWE-bench包含1632个实例,均来自GitHub issue,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。豆包大模型团队希望,Multi-SWE-bench能作为大模型在多种主流编程语言与真实代码环境中的系统性评测基准,推动自动编程能力向更实用、更工程化的方向发展。团队表示,相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在“自动化软件工程”方向上的实际能力边界。
【本文结束】如需转载请务必注明出处:快科技责任编辑:拾柒文章内容举报]article_adlist-->