AI & Big Data 04月14日
微軟公布抓蟲AI工具Debug-gym 可和外部工具互動改進除錯建議
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

微软推出了名为Debug-gym的AI工具,旨在帮助开发者更有效地进行代码调试。该工具通过与交互式调试工具(如pdb)结合,提供更完善的调试建议,并能主动查找额外信息。Debug-gym支持全程式库操作,易于扩展,并采用JSON等结构化文本,方便与大型语言模型(LLM)整合。开发者可以使用Debug-gym评估代理人效能,微软还提供了SWE-bench和Mini-nightmare等测试集。初步测试显示,结合Debug-gym的AI代理人在解决SWE-bench Lite问题上取得了显著进展。

💡Debug-gym是一个轻量级代理人开发环境,旨在帮助企业开发调试LLM代理人。它使用交互式调试工具,如预设的python debugger(pdb),以积极寻找进一步调试信息。通过工具获得的回馈,Debug-gym扩展代理人的行为和观察面,使之设定断点、导览程式码、列印变项值,或建立测试函式,甚至改写程式码。

🔍Debug-gym的特性包括:它支援全程式库操作,可存取并编辑整个程式库,且使用Docker沙箱隔离环境,确保除错安全。它易于扩充,可轻松新增工具与功能。此外,它是文字导向:以JSON等结构化文字呈现资讯,适合整合大型语言模型(LLM)。

📊利用Debug-gym,开发人员可以指定资料夹路径,使用任何自订程式库来评估代理人效能。微软在debug-gym相关网页中还提供除错标竿测试SWE-bench及可练习除错的程式集Mini-nightmare,提供开发人员练习和衡量LLM除错代理人效能。

📈微软公布了使用Debug-gym建立除错代理人的标竿测试结果。研究团队使用包括Claude 3.7、OpenAI-o1、OpenAI o3-mini等9种LLM。初期测试显示,此方法开发出的代理人较传统方法,效能提升30%、182%及160%,显示具有发展潜力。

微軟近日公布能幫開發人員除錯(debug)的AI工具Debug-gym,可用除錯工具協助提供更好的除錯建議。

現今已經有不少業者提供AI程式撰寫工具,號稱能依據程式碼和錯誤訊息建議除錯方案,但是這些工具在方案失敗時並不會提供其他進一步資訊,使某些錯依舊無法解決。有些用戶覺得AI程式工具無法全盤理解他們想解決的問題。

微軟發表的debug-gym是一個輕量代理人開發環境,旨在讓企業開發除錯LLM代理人,它能使用互動式除錯工具,如預設的python debugger(pdb),以積極尋找進一步除錯資訊。透過工具獲得的回饋,Debug-gym擴展代理人的行為和觀察面,使之設定斷點、導覽程式碼、列印變項值,或建立測試函式,甚至改寫程式碼。程式代理人研究、生成新的除錯建議,最後交由人類判斷及核准。在交付之前,這些除錯方法可在相關codebase、程式執行和文件脈絡下進行grounding,而不只是依據訓練資料憑空設想的方案。

微軟相信結合適當工具的互動式除錯方法,可幫助程式代理人更有效解決真實的軟工作業。

微軟說明,debug-gym有以下特色:它支援全程式庫操作,可存取並編輯整個程式庫,且使用Docker沙箱隔離環境,確保除錯安全。它易於擴充,可輕鬆新增工具與功能。此外,它是文字導向:以JSON等結構化文字呈現資訊,適合整合大型語言模型(LLM)。

利用debug-gym,開發人員可以指定資料夾路徑,使用任何自訂程式庫來評估代理人效能。微軟在debug-gym相關網頁中還提供除錯標竿測試SWE-bench及可練習除錯的程式集Mini-nightmare,提供開發人員練習和衡量LLM除錯代理人效能。

微軟並公布以這種方法建立除錯代理人的標竿測試結果。研究團隊使用包括Claude 3.7、OpenAI-o1、OpenAI o3-mini等9種LLM,開發出可下簡單文字(JSON格式)提示的代理人,讓它使用以下除錯工具包括eval、view、pdb、rewrite和listdir以改進除錯解決方案。

初期測試顯示目前上述三個主要模型,能解決解決SWE-bench Lite最多一半的問題,但微軟相信主因在於序列決策行為的訓練資料較少。而且,微軟指出,此種方法的代理人較傳統方法開發出來的代理人,效能已經提升30%、182%及160%,顯示是很有潛力的發展方法。

圖片來源/微軟

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Debug-gym AI调试 微软
相关文章