36kr 23小时前
黄仁勋预言成真,AI智能体成GitHub主力,一天顶人类一年
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

加拿大女王大学的研究首次揭示了AI编程智能体如何大规模渗透开源社区。通过分析GitHub上的Pull Request,研究发现OpenAI Codex、GitHub Copilot和Claude Code等AI已从代码补全升级为“AI程序员”,能独立发起PR、参与评审甚至与人类开发者讨论。这标志着软件工程进入AI作为协作伙伴的3.0时代,全球已有超过6.1万个开源项目接纳AI“同事”。AI能大幅提升开发效率,例如GitHub Copilot完成核心工作仅需13分钟,但其代码接受率普遍低于人类,尤其在核心功能开发和缺陷修复方面。不过,AI在文档编写方面表现出色。研究还指出AI评审可能存在的“自己人审自己人”问题,并预言开源平台将成为AI程序员的训练场,未来将聚焦于动态评测、失败模式解析和需求理解等方面,重塑开发者角色。

🤖 AI编程智能体已大规模进入开源社区,成为软件开发的重要力量。研究分析了45.6万条GitHub Pull Request,发现OpenAI Codex、GitHub Copilot和Claude Code等AI不再局限于简单的代码补全,而是能独立发起代码修改请求(PR)、参与代码评审,甚至与人类开发者进行技术讨论,标志着软件工程进入AI作为协作伙伴的3.0时代,已有超过6.1万个开源项目接纳AI作为“同事”。

🚀 AI编程智能体显著提升了开发效率,但代码质量和接受率仍是挑战。数据显示,AI完成代码修改请求的核心工作速度远超人类,有案例显示AI在三天内完成相当于人类开发者三年的工作量。然而,AI代码的接受率普遍低于人类开发者,尤其在核心功能开发和缺陷修复任务中差距更为明显。AI在文档编写方面表现突出,接受率远高于人类。

⚖️ AI评审机制存在潜在盲点,独立评审机制值得探索。研究发现,AI提交的代码常由同类AI智能体进行初审,存在“自己人审自己人”的潜在审查盲点,可能影响公正性。因此,研究团队建议未来应探索建立更独立的评审机制,以保障代码审查的公正性和客观性。

🌐 开源平台正进化为AI程序员的“训练健身房”,驱动AI能力持续提升。每一次成功的代码合并都为AI提供了强化学习的正反馈,每一次测试失败或PR被拒则提供了宝贵的负反馈。未来的发展方向包括建立动态评测体系、深入分析失败模式、优化长尾任务响应、降低评审门槛、开发专业代码审查AI以及提升AI对模糊需求的理解能力,最终目标是培育出能独立、可靠完成软件迭代的成熟AI程序员。

最近,来自加拿大女王大学的一项最新研究,首次揭示了AI编程智能体如何大规模渗透开源社区。

论文地址:https://arxiv.org/abs/2507.15003

数据集地址:https://huggingface.co/datasets/hao-li/AIDev

代码地址:https://github.com/SAILResearch/AI_Teammates_in_SE3

研究团队通过分析45.6万条GitHub Pull Request(PR,代码修改请求)发现,OpenAI Codex、GitHub Copilot和Claude Code等AI编程智能体已超越简单的代码补全角色,正作为真正的「AI程序员」活跃在开源一线:

它们能独立发起PR、参与评审,甚至与人类开发者就修改方案展开「讨论」。

这标志着软件工程正式迈入知名AI科学家Andrej Karpathy所预言的3.0时代—AI从工具升级为协作伙伴,全球已有超过6.1万个开源项目开始接纳AI编程智能体作为「同事」。

这些项目涵盖各种规模,使用者包括4.7万名人类开发者。

其中,OpenAI Codex表现最为活跃,提交PR达41万次(截止发文已达到80万次),堪称「卷王」;Devin和GitHub Copilot分别以2.4万和1.6万次提交紧随其后。

效率爆炸:3天干完3年的活

AI编程智能体带来的效率提升令人咋舌。数据显示,GitHub Copilot平均仅需13分钟就能完成一个代码修改请求的核心工作,远快于人类开发者通常所需的数小时甚至数天。

更极端的案例显示,一位开发者借助OpenAI Codex在短短3天内提交了164次代码修改,几乎相当于他过去3年(提交176次)的工作总量

这如同为每位程序员配备了100个不知疲倦的实习生,他们可以24小时不间断地产出代码。

质量困境:快不等于好

研究揭示了一个关键矛盾:AI代码的接受率普遍低于人类

OpenAI Codex的代码合并率为65%,GitHub Copilot仅为38%,而人类开发者平均达到76%。

这种差距在核心功能开发中尤为明显:在核心功能开发(feat)和缺陷修复(fix)任务中,差距尤为显著(低15-40个百分点)。

不过,AI在文档编写(docs)方面展现出独特优势。OpenAI Codex的文档类修改接受率高达88.6%,显著超过人类的76.5%。研究推测,文档生成更依赖语言能力而非复杂逻辑推理,这正契合当前大语言模型的核心优势。

更具启发性的现象是,高达37%的GitHub Copilot PR经历了「人机联合评审」——AI工具进行初步筛查后,再由人类把关。

然而,新模式也引发担忧:研究发现,Copilot提交的代码通常由其「同门」AI 智能体(copilot-swe-agent[bot])初审,存在「自己人审自己人」的潜在审查盲点。研究团队建议,未来应探索建立更独立的评审机制以保障公正性。

未来已来:GitHub进化为AI训练场

研究预言,开源平台将进化为AI智能体的「训练健身房」。每一次成功的代码合并将成为强化学习的「正反馈」,每一次测试失败或PR被拒则是宝贵的「负反馈」。

其终极目标是培育出能独立、可靠完成软件迭代的成熟AI程序员。

基于海量实证数据,研究团队为AI编程智能体时代勾勒出关键发展方向:

1. 动态评测体系:摒弃传统的静态测试,直接在真实项目环境中评估AI表现

2. 失败模式解析:深入分析被拒PR,建立AI常见错误库,驱动改进

3. 延迟优化:重点解决部分任务响应超时(>1小时)的长尾问题。

4. 评审减负:让AI生成的代码更清晰、更易审查,降低人类负担

5. 专业评审AI:开发专门用于代码审查的智能体

6. 智能评审分流: 根据代码复杂度与风险自动分配评审资源

7. 全周期质量追踪:监控AI生成代码的长期维护成本和缺陷率

8. 需求理解:提升AI对不明确任务意图的理解与规划能力

9. 编程语言优化:针对TypeScrip等AI擅长语言进行深度适配,或开发出AI专用新语言

「这并非取代人类开发者,而是重新定义开发者的核心角色,未来的程序员将更像交响乐团的指挥家,专注于战略目标设定、协调多个‘AI乐手’的协作,而非亲自演奏每一个音符。」

随着AI编程智能体数量和能力呈指数级增长,软件工程行业正站在深刻变革的临界点。这场革命将如何重塑开发流程、团队协作乃至行业生态,值得我们持续关注与思考。

参考资料:

https://arxiv.org/abs/2507.15003

本文来自微信公众号“新智元”,作者:新智元,编辑:LRST,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI编程 开源社区 软件工程 GitHub Copilot OpenAI Codex
相关文章