OpenAI推出了一个用于评估AI模型解决现实世界软件问题的基准——SWE-bench Verified,这是对原有SWE-bench的改进版本。这个基准旨在更可靠地评估AI模型解决真实软件问题的能力,随着AI系统越来越接近通用人工智能(AGI),对于评估它们的能力的要求也越来越高。
媒体报道
OpenAI推出SWE-bench Verified:现有框架低估模型软件工程能力 | 华尔街见闻 |
---|---|
OpenAI推出代码生成评估基准 | 第一财经 |
OpenAI推出SWE-bench Verified | 36Kr |
事件追踪
2024-06-12 15:51:35 | OpenAI称与微软的战略云合作关系未发生改变 |
---|---|
2023-05-16 10:23:39 | 传OpenAI正准备发布新的开源语言模型 |