OpenAI推出SWE-bench Verified

36氪 2024年08月14日

OpenAI推出更可靠的代码生成评估基准SWE-bench Verified，旨在评估AI模型解决现实世界软件问题的能力。

🎯OpenAI推出的SWE-bench Verified是对现有SWE-bench的改进版本，是一个子集，它的出现是为了在AI系统趋近AGI时，能更可靠地评估AI模型在具有挑战性任务中的表现，尤其是解决现实世界软件问题的能力。

💻该基准的目标是为了更好地衡量AI模型在实际软件开发中的应用效果，通过对模型进行评估，帮助开发者了解模型的优势和不足，从而进一步优化和改进模型。

📈SWE-bench Verified的推出，反映了OpenAI对AI技术在实际应用中的重视，也为行业提供了一个新的评估标准，有助于推动AI技术在软件开发领域的发展和应用。

OpenAI推出更可靠的代码生成评估基准：SWE-bench Verified。公司在官网的一篇Blog中称：“随着我们的系统越来越接近AGI（通用人工智能），我们需要在越来越具有挑战性的任务中对它们进行评估”。该基准是对现有SWE-bench 的改进版本（子集），旨在更可靠地评估AI模型解决现实世界软件问题的能力。（每日经济新闻）

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签