AI前线 04月09日 18:09
OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 发布 SWE-Lancer 基准测试,旨在评估 AI 大语言模型在自由职业软件工程任务中的表现。该基准测试包含来自 Upwork 的 1400 多个任务,总价值达 100 万美元,涵盖编码、管理等多种任务。SWE-Lancer 采用专业工程师验证的端到端测试方法,评估模型在实际环境中的表现。初步结果显示,现有模型仍面临挑战,但 Claude 3.5 Sonnet 表现最佳,在独立编码任务中成功率为 26.2%。该项目旨在推动对 AI 在软件工程领域经济影响的研究,并促进 AI 技术的持续优化。

💻 SWE-Lancer 基准测试包含来自 Upwork 的 1400 多个任务,总价值达 100 万美元,任务类型多样,包括应用程序逻辑开发、UI/UX 设计等,模拟现实世界自由职业场景,以评估 AI 模型在实际环境中的表现。

📊 基准测试采用专业工程师验证的端到端测试方法,并通过与货币价值的关联,展现 AI 在软件工程中的实际影响。 这项测试旨在推动对 AI 在软件工程领域经济影响的研究,并促进 AI 技术的持续优化。

💡 初步结果显示,现有 AI 模型在应对 SWE-Lancer 中的多数任务时仍面临严峻挑战。其中,表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳。

🤝 SWE-Lancer 为研究人员提供统一的 Docker 镜像和公共评估拆分,促进 AI 模型评估过程中的协作和透明度,有助于推动 AI 技术的进步。

🤔 评论指出,SWE-Lancer 揭示了 AI 在实际应用中的挑战与机遇,并强调了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。

2025-04-07 17:14 北京

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。

作者 | Daniel Dominguez
译者 | 明知山
策划 | 丁晓昀  

OpenAI 发布 SWE-Lancer 基准测试,用于评估 AI 大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务,总价值高达 100 万美元。这些任务既包括独立的编码活动,也包括管理决策,复杂程度和报酬各有不同,充分模拟了现实世界中的自由职业场景。

SWE-Lancer 通过严格的评估方法来反映软件工程的经济价值和复杂性。它采用经过专业工程师验证的先进的端到端测试方法来评估模型在实际环境中的表现。尽管 AI 大语言模型近期取得了显著进展,但初步结果显示,这些模型在应对基准测试中的多数任务时仍然面临严峻挑战。

基准测试涵盖了多种任务,如应用程序逻辑开发、UI/UX 设计以及服务器端逻辑实现,确保能够对模型能力进行全面的评估。SWE-Lancer 还为研究人员提供了一个统一的 Docker 镜像和公共评估拆分,用以促进 AI 模型评估过程中的协作和透明度。

该项目旨在推动对 AI 在软件工程领域经济影响的研究,特别是潜在的生产力提升和对劳动力市场的影响。通过将模型性能与货币价值联系起来,SWE-Lancer 展现了 AI 在软件工程中的实际影响,并凸显了持续优化 AI 技术的重要性。

在基准测试中表现最好的模型是 Claude 3.5 Sonnet,在独立编码任务中的成功率为 26.2%,这表明 AI 能力仍有很大的提升空间。许多模型在需要深度上下文理解或评估多个提案的任务方面表现不佳,这表明未来的模型可能需要更复杂的推理能力。

一些评论表示对 SWE-Lancer 的实际应用表示怀疑,认为可能只对特定群体有吸引力,另一些人则认为这是理解 AI 对软件工程社会经济影响的关键一步,与行业向 AI 驱动的生产力工具发展的整体趋势相契合,正如 Gartner 2027 所预测的软件工程智能平台的广泛采用。

用户 Alex Bon 表示:

终于有机会让 AI 证明它也能在零工经济中生存下来了!

独立黑客 Jason Leow 则表示:

我喜欢这个发展方向。用全栈问题进行测试,将其与市场价值联系起来,这正是日常开发工作所面临的东西。我一直觉得旧的基准测试有些不太对劲。

SWE-Lancer 为评估 AI 在自由职业软件工程中的应用提供了一个重要的框架,揭示了 AI 在实际应用中的挑战与机遇。基准测试的结果凸显了进一步研究和开发的必要性,以便提升 AI 模型在现实世界软件工程任务中的表现。

查看英文原文:

https://www.infoq.com/news/2025/03/openai-swe-benchmark/


声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。
 会议推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!


今日荐文

微软50 周年庆典,员工当众怒斥历任CEO!纳德拉也要让每个人都能成为开发者
用 CUDA,但遭团队嫌弃?!英伟达早期架构师首次曝光:12 人团队如何开启“算力帝国”
比R1快8倍、价格仅3%,智谱新推理模型来袭,能让免费智能体自己赚钱!张鹏:Agent 也有Scaling Law
豆包大模型负责人飞书账号遭停,或因内部纠纷引关注;众擎机器人CEO炮轰朱啸虎:快退出宇树股份;宇树确认已盈利至少5年 | AI周报
你也「在看」吗?👇

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SWE-Lancer OpenAI AI 软件工程 基准测试
相关文章