PaperAgent 01月19日
月薪3500的AI程序员Devin一个月试用期都没过~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Answer.AI团队对号称能自主完成软件工程任务的Devin进行了为期一个月的测试,结果显示其表现不如预期。在20个涵盖创建新项目、研究任务、分析和修改现有项目的测试中,Devin仅成功完成3个,14个失败,3个结果不明。Devin擅长处理小型、明确的任务,但面对较复杂、可能节省时间的大任务则容易失败。相比之下,开发者主导的工作流程更可靠。测试表明,Devin在代码生成、理解复杂问题、以及解决实际开发难题方面存在明显不足,与人类开发者的效率和可靠性仍有较大差距。

🛠️ Devin在创建新项目方面表现不佳,尽管成功完成了简单的行星追踪器和从Notion迁移到Google Sheets的任务,但在更复杂的项目,如多应用部署、生成合成数据以及创建应用集成等任务中均以失败告终,表明其在处理复杂任务时存在明显局限性。

🔍 在研究任务方面,Devin虽然成功提供了关于如何制作Discord机器人的逐步计划,但在其他任务如研究带准确时间戳的转录总结时未能解决核心问题,表明其在理解和解决复杂研究问题方面仍有不足。

🐞 Devin在修改现有项目方面表现最差,在多个任务中均未能成功操作,包括修改nbdev项目、迁移Python项目到nbdev、集成样式包以及添加用户输入检查等,这表明其在处理现有代码库和进行复杂修改时存在重大挑战。

🚨 Devin在代码分析和调试方面也存在问题,如未能理解静态网站生成器Quarto的工作方式,或过度敏感地产生不存在的问题,这表明Devin在代码理解和问题诊断方面仍不成熟。

2025-01-19 17:10 湖北

Devin号称能成为完全自主的软件工程师,像人类同事一样聊天,从学习新技术到部署应用无所不能。Answer.AI团队进行了为期一个月的测试,表现并不如预期:

创建新项目

研究任务

分析现有代码

修改现有项目

https://www.answer.ai/posts/2025-01-08-devin.html

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Devin 软件工程师 AI测试 代码生成 自动化
相关文章