掘金 人工智能 7小时前
昆仑万维扔出王炸:32B模型干翻671B,代码界迎来全能修理工!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

昆仑万维发布的Skywork-SWE-32B,是一个专为软件工程设计的开源代码智能体,其性能在SWE-bench评测中超越了闭源模型。该模型通过高质量数据和创新的技术框架,能够修复代码错误,并支持开发者进行架构设计和创新。它的开源为开发者提供了新的选择,有望推动软件开发范式的变革,降低开发成本,并促进AI在软件领域的应用。

🚀 Skywork-SWE-32B在SWE-bench评测中表现出色,基础版已刷新同级别开源模型最佳纪录,引入“测试时扩展技术”(TTS)后,性能进一步提升,准确率达47.0%。

🛠️ 为了提升模型质量,昆仑万维团队构建了高质量的训练数据,从超过15万个GitHub仓库中筛选出1万多个真实修复任务,并通过“海选”、“实操”、“跟师”等流程,确保模型学习解决问题的完整思路和闭环流程。

💎 Skywork-SWE-32B的开源对开发者和企业具有重要意义。开发者将从繁琐的“修修补补”中解放出来,专注于架构设计和创新;企业可以在自己的服务器上部署,数据更安全,成本也可能大幅降低。

🔗 昆仑万维不仅开源了Skywork-SWE-32B模型,还开放了背后的技术框架(OpenHands+TTS)和数据集,为社区提供了进一步探索AI软件开发未来的机会。

当所有人的目光还聚焦在文生图、视频生成的华丽特效时,AI代码江湖早已暗流涌动。就在昨天,昆仑万维向开源社区投下了一枚重磅炸弹——Skywork-SWE-32B,一个专为软件工程而生的“代码智能体”,直接把“仓库级代码修复”这个硬核难题的能力上限,拉到了一个全新的高度。

这不只是又一个会写代码的模型,这更像是一个能读懂整个项目“病历本”的AI工程师。

🚀 一上来就“掀桌子”的性能怪兽

不谈虚的,直接上战绩。在软件工程界的“高考”——权威评测集 SWE-bench 上,Skywork-SWE-32B的表现堪称“暴力美学”:

这个47.0%的准确率意味着什么?我们来看一场跨级别的“格斗赛”:

选手量级 (参数)得分 (pass@1准确率)评价
Skywork-SWE-32B + TTS32B47.0%主角光环,以小博大
Claude v3.5未公开46.0%闭源巨头,被精准超越
DeepSeek-V3-0324671B38.8%大块头,却被小个子一拳撂倒 (领先8.2%)
GPT-4.1-mini未公开23.86%在这个赛道,有点跟不上节奏了

是的,你没看错。一个32B参数的开源模型,不仅超越了像Claude 3.5这样的顶尖闭源模型,甚至把一个体量是自己20多倍的671B模型甩在了身后。这已经不是简单的性能提升,而是对“唯参数论”的一次有力反击。

🛠️ 独门秘籍:如何炼成“代码修理大师”?

昆仑万维这次没有搞“玄学”,而是扎扎实实地干了两件大事,堪称模型的“任督二脉”:

1. 喂养“满汉全席”级的高质量数据

AI圈有句老话:“Garbage in, garbage out.” 为了不让模型学成“花架子”,团队打造了一套堪称“魔鬼筛选”的自动化流程,从超过15万个GitHub仓库中,硬是“炼”出了一万多个高质量、可验证的真实修复任务。

这个过程就像培养一个顶级维修工:

最终,模型学习的不再是零散的代码片段,而是解决问题的完整思路和闭环流程

2. 验证了软件工程的“大力出奇迹”定律

团队用实验证明,在软件工程这个领域,“数据缩放定律”同样有效。随着高质量训练数据从1K增加到8K,模型的准确率从18.4%飙升到38.0%,而且性能提升的曲线丝毫没有放缓的迹象。

这给整个行业传递了一个清晰的信号:只要路子对,数据管够,AI工程师的能力还有巨大的想象空间。

💎 这对我们普通开发者和企业意味着什么?

Skywork-SWE-32B的开源,远不止是技术圈的自嗨,它带来了实实在在的价值:

    开发范式变革:未来,AI不再只是个代码补全工具。它可以成为一个初级或中级程序员,自主理解需求、定位横跨多个文件的BUG、编写补丁,甚至还能自己跑测试验证。开发者将从繁琐的“修修补补”中解放出来,专注于架构设计和创新。打破闭源垄断:以前,顶级的代码能力几乎被少数几家闭源API垄断。现在,一个性能逼近甚至超越它们的选择被完全开源了。企业可以在自己的服务器上部署,数据更安全,成本也可能大幅降低。赋能整个社区:昆仑万维不仅开源了模型,还把背后的技术框架(OpenHands+TTS)和宝贵的数据集一并开放。这意味着,任何人都可以站在这位“巨人”的肩膀上,继续探索AI软件开发的未来。

总而言之,Skywork-SWE-32B的出现,就像在平静的湖面投下了一颗深水炸弹。它用无可辩驳的实力证明,开源模型不仅能在复杂工程任务上追赶闭源,甚至可以实现超越。一个由AI深度参与、重塑软件开发流程的新时代,正加速向我们驶来。


🔗 传送门(想亲自试试?):


如果你也对最新的AI信息感兴趣或者有疑问 都可以加入我的大家庭 第一时间分享最新AI资讯、工具、教程、文档 欢迎你的加入!!!😉😉😉

公众号:墨风如雪小站

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Skywork-SWE-32B 代码智能体 开源 软件工程
相关文章