量子位 18小时前
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek新版R1在编程能力上取得了显著进步,尤其在网页编程方面表现出色,甚至超越了Claude Opus 4。通过实际测试,DeepSeek R1能够快速生成太阳系动画、AGI主题网页和俄罗斯方块游戏,展现出强大的代码生成能力。尽管在某些细节上仍有提升空间,但其开源特性使其对国内用户更友好。此外,DeepSeek R1还被评为当前最好的开源文本模型,并在多个细分领域表现出色。值得关注的是,Kimi新模型在代码开源方面取得了新的突破。

🚀 DeepSeek-R1-0528在LiveCodeBench上表现出色,甚至与OpenAI o3-high相当,被认为是DeepSeek的R2版本。

💻 通过实际测试,DeepSeek-R1-0528能够快速生成太阳系动画、AGI主题网页和俄罗斯方块游戏,并实现一键运行,简化了用户体验。

💡 DeepSeek-R1-0528在网页编程方面表现突出,在LiveCodeBench上超越了Claude Opus 4,展现了其强大的编程能力。

🌐 除了编程能力,DeepSeek-R1还被评为当前最好的开源文本模型,并在困难提示和数学方面表现出色。

✨ Kimi新模型在代码开源方面取得了新的突破,参数量仅为72B的开源代码模型Kimi-Dev在SWE-bench Verified上取得了开源SOTA。

关注前沿科技 2025-06-17 15:42 北京

生成的网站还能一键运行查看效果

一水 发自 凹非寺量子位 | 公众号 QbitAI

编程王者Claude地位不稳了??

大模型竞技场最新战报出炉,DeepSeek新版R1拿下网页编程第一,小胜Claude Opus 4

要知道Claude Opus 4可是公认的“全球最强编码模型”。

so,能在编程上战胜Claude Opus 4,DeepSeek-R1-0528到底啥来头?

看名字你可能以为是个小版本更新,但实际上——

它在LiveCodeBench上几乎与OpenAI o3-high相当,乃至一众网友猜测其为传说中的R2。

这样一看,在编程这一项上,双方貌似都不太好惹~

所以话不多说,咱们还是一手实测DeepSeek-R1-0528,康康究竟有多强。

实测一下

目前DeepSeek-R1-0528已上线DeepSeek官方网站、App和小程序(打开深度思考)。

这里咱们直接进入官网体验。

测试1:制作一个太阳系的动画应用程序

提示词如下:

制作一个太阳系的动画应用程序,使用网络搜索。

仅思考49秒后,DeepSeek-R1-0528就给出了一段python代码。

用VS Code运行后,结果如下:

出现了能自主运行的动画,不过页面相对粗糙。

不过呢,如果换成其他提示词,效果则明显不一样了。

用Three.js模拟太阳系,鼠标悬停在星球上时显示星球名称。

仅用时34秒,DeepSeek-R1-0528就理清楚了设计思路:

关键是这一次能直接一键运行了,无需再单独打开自己的编辑器。(运行功能感觉像开盲盒,不一定都会出现)

而且同样有动画、能交互,效果直接进入Next Nevel~

测试2:前端网页制作

接下来我们要求DeepSeek生成一个主题为AGI的网站,提示词如下:

请设计一个以通用人工智能(AGI)为主题的网页,包含“知识共享”、“社区”和“未来创造”三个概念部分。每个部分应配有相应的图标和简洁描述,整体风格现代且科技感十足,突出AGI的创新和协作精神。使用HTML、CSS和JavaScript实现交互和视觉特效。

思考23秒后,DeepSeek-R1-0528后续给出了一段HTML代码,依旧能一键运行。

测试3:创建一个俄罗斯方块小游戏

最后我们试试英文提示词:

Create a full featured version of tetris with beautiful graphics and controls.创建一个具有精美图形和控制功能的完整版俄罗斯方块。

可以看到,DeepSeek-R1-0528思考12秒后就给出了一段python代码。

运行结果be like:

虽然确实是俄罗斯方块小游戏,但基本演示存在明显bug,而且缺少交互按钮。

不死心的我们尝试让DeepSeek继续改进,结果第二次还是翻车了。

改进后的游戏依旧无法正常运行(总是穿墙而过),且未实现我们明确要求的交互功能。

小结一下,从以上简单实测来看,DeepSeek新版R1作为一款开源模型,在编程能力上确实大有进步,但仍有一定提升空间。

不过有一说一,它对咱们国内普通用户明显更友好(相对Claude模型来说免费又易于获取)

One More Thing

除了编程能力榜单更新,DeepSeek新版R1还当选了当前最好的开源文本模型

MIT许可证下,总榜第六,开源当中第一。

而在细分领域,它在困难提示方面排名第4,在数学方面排名第5,属于开源模型中相当能打的玩家。

不过值得一提的是,Kimi新模型刚刚拿下代码开源SOTA——

参数量仅72B的开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。

不仅编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。

不知道其真实能力又如何呢(doge)~

参考链接:[1]https://x.com/lmarena_ai/status/1934650635657367671[2]https://x.com/yang_zonghan/status/1934652763985838585a

—  —

📪 量子位AI主题策划正在征集中!欢迎参与专题365行AI落地方案,一千零一个AI应或与我们分享你在寻找的AI产品,或发现的AI新动向

💬 也欢迎你加入量子位每日AI交流群,一起来畅聊AI吧~

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1 编程 开源模型 Kimi 人工智能
相关文章