AWS推出SWE-PolyBench測試基準，更精準評估AI程式代理的多語言開發能力

AI & Big Data 前天 10:23

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

AWS推出了SWE-PolyBench测试基准，旨在评估AI编程代理在多语言环境下处理实际开发任务的能力。它包含Python、Java、JavaScript和TypeScript四种主流语言，并通过复杂的代码修改情境，验证代理在跨文件、跨类的代码导航与理解能力。该基准由2110笔GitHub Issue与PR构成，包含500笔实验子集，弥补了现有SWE-Bench测试集偏重Python与除错的局限，任务类型涵盖错误修正、新功能开发与代码重构，更准确地模拟AI代理在实际开发环境的表现。

🛠️SWE-PolyBench旨在评估AI编程代理在Python、Java、JavaScript和TypeScript四种主流语言环境下，处理真实世界开发任务的能力，着重考察其在跨文件、跨类代码中的导航与理解能力。

📚该基准由2110笔实际GitHub Issue与PR数据构成，并包含一个500笔的实验子集SWE-PolyBench500，方便快速迭代测试，弥补了现有SWE-Bench测试集偏重Python与除错任务的不足。

🎯SWE-PolyBench的任务设计面向实际应用，涵盖错误修正、新功能开发与代码重构等多种类型，不局限于单一问题或语言，从而更准确地模拟AI代理在实际开发环境中的表现。

📊除了传统的通过率统计外，该基准还新增了文件层级与语法树节点层级的定位指标，从而可以量化模型能否准确找出需要修改的文件、类与函数。

🌐AWS团队的实验结果表明，现有开源AI编程代理主要以Python为强项，在处理需要修改多个文件或涉及多种语法结构的任务时，表现明显下降，尤其是在JavaScript与TypeScript任务中。

AWS宣布推出新測試基準SWE-PolyBench，目的是評估人工智慧程式代理人在多語言環境下，處理真實世界開發任務的能力，涵蓋Python、Java、JavaScript與TypeScript四種主流語言，並透過複雜程式碼修改情境，驗證代理人在跨檔案、跨類別的程式碼導航與理解能力。

SWE-PolyBench測試基準由2,110筆實際GitHub Issue與PR（Pull Request）資料所構成，並包含一組500筆的實驗子集SWE-PolyBench500，方便快速迭代測試，期望彌補現有SWE-Bench測試集偏重Python與除錯任務的侷限。

SWE-PolyBench強調實務導向的任務設計，任務類型涵蓋錯誤修正、新功能開發與程式碼重構，不侷限於單一問題類型或語言，能更準確模擬人工智慧代理人，在實際開發環境的應對表現。該基準不僅提供傳統的通過率統計，也新增檔案層級與語法樹節點層級的定位指標，進一步量化模型能否能準確找出需要修改的檔案、類別與函式。

根據AWS團隊的初步實驗結果，現有多數開源人工智慧程式代理人仍以Python為主要強項，面對需要修改三個以上檔案，或牽涉多類型語法結構的任務，表現明顯下降。以Aider-PB、Agentless-PB與SWE-agent-PB三種針對多語言測試環境所調整的模型版本為例，在JavaScript與TypeScript任務的平均通過率仍低於15％，表示目前主流模型訓練資源集中於Python，尚未能充分學習其他語言的程式結構特性。

AWS團隊表示，SWE-PolyBench是一套跨語言、具高複雜度的人工智慧程式代理測試資料集，現已於Hugging Face開源，搭配完整程式碼儲存庫，供研究者與開發者快速評估與比較不同人工智慧模型表現。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签