AI & Big Data 前天 10:23
AWS推出SWE-PolyBench測試基準,更精準評估AI程式代理的多語言開發能力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AWS推出了SWE-PolyBench测试基准,旨在评估AI编程代理在多语言环境下处理实际开发任务的能力。它包含Python、Java、JavaScript和TypeScript四种主流语言,并通过复杂的代码修改情境,验证代理在跨文件、跨类的代码导航与理解能力。该基准由2110笔GitHub Issue与PR构成,包含500笔实验子集,弥补了现有SWE-Bench测试集偏重Python与除错的局限,任务类型涵盖错误修正、新功能开发与代码重构,更准确地模拟AI代理在实际开发环境的表现。

🛠️SWE-PolyBench旨在评估AI编程代理在Python、Java、JavaScript和TypeScript四种主流语言环境下,处理真实世界开发任务的能力,着重考察其在跨文件、跨类代码中的导航与理解能力。

📚该基准由2110笔实际GitHub Issue与PR数据构成,并包含一个500笔的实验子集SWE-PolyBench500,方便快速迭代测试,弥补了现有SWE-Bench测试集偏重Python与除错任务的不足。

🎯SWE-PolyBench的任务设计面向实际应用,涵盖错误修正、新功能开发与代码重构等多种类型,不局限于单一问题或语言,从而更准确地模拟AI代理在实际开发环境中的表现。

📊除了传统的通过率统计外,该基准还新增了文件层级与语法树节点层级的定位指标,从而可以量化模型能否准确找出需要修改的文件、类与函数。

🌐AWS团队的实验结果表明,现有开源AI编程代理主要以Python为强项,在处理需要修改多个文件或涉及多种语法结构的任务时,表现明显下降,尤其是在JavaScript与TypeScript任务中。

AWS宣布推出新測試基準SWE-PolyBench,目的是評估人工智慧程式代理人在多語言環境下,處理真實世界開發任務的能力,涵蓋Python、Java、JavaScript與TypeScript四種主流語言,並透過複雜程式碼修改情境,驗證代理人在跨檔案、跨類別的程式碼導航與理解能力。

SWE-PolyBench測試基準由2,110筆實際GitHub Issue與PR(Pull Request)資料所構成,並包含一組500筆的實驗子集SWE-PolyBench500,方便快速迭代測試,期望彌補現有SWE-Bench測試集偏重Python與除錯任務的侷限。

SWE-PolyBench強調實務導向的任務設計,任務類型涵蓋錯誤修正、新功能開發與程式碼重構,不侷限於單一問題類型或語言,能更準確模擬人工智慧代理人,在實際開發環境的應對表現。該基準不僅提供傳統的通過率統計,也新增檔案層級與語法樹節點層級的定位指標,進一步量化模型能否能準確找出需要修改的檔案、類別與函式。

根據AWS團隊的初步實驗結果,現有多數開源人工智慧程式代理人仍以Python為主要強項,面對需要修改三個以上檔案,或牽涉多類型語法結構的任務,表現明顯下降。以Aider-PB、Agentless-PB與SWE-agent-PB三種針對多語言測試環境所調整的模型版本為例,在JavaScript與TypeScript任務的平均通過率仍低於15%,表示目前主流模型訓練資源集中於Python,尚未能充分學習其他語言的程式結構特性。

AWS團隊表示,SWE-PolyBench是一套跨語言、具高複雜度的人工智慧程式代理測試資料集,現已於Hugging Face開源,搭配完整程式碼儲存庫,供研究者與開發者快速評估與比較不同人工智慧模型表現。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

SWE-PolyBench AI编程代理 多语言 代码测试 AWS
相关文章