IT之家 04月13日 09:18
微软研究:AI 编程助手软件调试能力堪忧
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了人工智能在辅助编程方面的应用现状及面临的挑战。尽管OpenAI、Anthropic等公司的人工智能模型被广泛用于编程任务,但微软研究表明,即使是先进模型在解决软件漏洞方面,仍难以与经验丰富的开发者匹敌。研究指出,模型在调试工具的使用和“顺序决策过程”数据(即人类调试痕迹数据)的缺乏是主要问题。文章强调了对AI辅助编程工具的审慎态度,并引用科技界领袖的观点,认为编程作为职业将长期存在。

🔍 尽管AI模型在辅助编程方面有所应用,但微软研究表明,在SWE-bench Lite软件开发基准测试中,包括Claude 3.7 Sonnet和o3-mini在内的多款模型,在调试问题上的成功率有限,无法与经验丰富的开发者相媲美。

🛠️ 研究发现,AI模型在理解调试工具的使用以及不同工具如何帮助解决不同问题方面存在困难。例如,Claude 3.7 Sonnet的平均成功率为48.4%,而o3-mini的成功率仅为22.1%。

💡 研究人员认为,当前模型缺乏足够的“顺序决策过程”数据,即人类调试痕迹数据。他们推测,训练或微调这些模型需要专门的数据,例如记录智能体与调试器交互以收集必要信息,从而提出漏洞修复建议。

🤔 许多研究表明,代码生成型AI容易引入安全漏洞和错误,这源于它们在理解编程逻辑等领域的薄弱环节。一项对Devin的评估发现,它仅能完成20项编程测试中的3项。

IT之家 4 月 13 日消息,OpenAI、Anthropic 和其他顶尖人工智能实验室的人工智能模型越来越多地被用于协助编程任务,谷歌首席执行官桑达尔・皮查伊在去年 10 月透露,该公司 25% 的新代码由 AI 生成;而 Meta 首席执行官马克・扎克伯格也表达了在公司内部广泛部署 AI 编码模型的雄心壮志。

然而,即便是一些目前最先进的 AI 模型,在解决软件漏洞这一问题上,仍然无法与经验丰富的开发者相媲美。微软研究院(微软的研发部门)的一项新研究表明,包括 Anthropic 的 Claude 3.7 Sonnet 和 OpenAI 的 o3-mini 在内的多款模型,在一个名为 SWE-bench Lite 的软件开发基准测试中,无法成功调试许多问题。

研究的共同作者们测试了九种不同的模型,这些模型作为“基于单个提示词的智能体”的核心,能够使用包括 Python 调试器在内的一系列调试工具。他们给这个智能体分配了一组经过筛选的 300 项软件调试任务,这些任务均来自 SWE-bench Lite。

据共同作者们介绍,即使配备了更强大、更先进的模型,他们的智能体成功完成的调试任务也极少超过一半。其中,Claude 3.7 Sonnet 的平均成功率最高,为 48.4%;其次是 OpenAI 的 o1,成功率为 30.2%;而 o3-mini 的成功率为 22.1%。

为何这些 AI 模型的表现如此不尽如人意?部分模型在使用可用的调试工具以及理解不同工具如何帮助解决不同问题方面存在困难。然而,共同作者们认为,更大的问题在于数据稀缺。他们推测,当前模型的训练数据中,缺乏足够多的“顺序决策过程”数据,即人类调试痕迹的数据。

“我们坚信,训练或微调这些模型可以使它们成为更好的交互式调试器。”共同作者们在研究报告中写道,“然而,这需要专门的数据来满足此类模型训练的需求,例如记录智能体与调试器交互以收集必要信息、随后提出漏洞修复建议的轨迹数据。”

这一发现其实并不令人意外。许多研究都表明,代码生成型 AI 往往会引入安全漏洞和错误,这是由于它们在理解编程逻辑等领域的薄弱环节所导致的。最近对一款流行的 AI 编程工具 Devin 的评估发现,它只能完成 20 项编程测试中的 3 项。

不过,微软的这项研究是迄今为止对模型在这一持续存在问题领域最为详细的剖析之一。尽管它可能不会削弱投资者对 AI 辅助编程工具的热情,但愿它能让开发者及其上级领导三思而后行,不再轻易将编程工作完全交给 AI 来主导。

IT之家注意到,越来越多的科技界领袖对 AI 会取代编程工作的观点提出了质疑。微软联合创始人比尔・盖茨曾表示,他认为编程作为一种职业将会长期存在。与他持相同观点的还有 Replit 首席执行官阿姆贾德・马萨德、 Okta 首席执行官托德・麦金农以及 IBM 首席执行官阿尔温德・克里希纳。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 编程 软件漏洞 AI模型 微软研究
相关文章