1.93bit版DeepSeek-R1编程超过Claude 4 Sonnet，不用GPU也能运行

1.93bit量化之后的 DeepSeek-R1（0528），编程能力依然能超过Claude 4 Sonnet？

最新优化版R1在编程榜单aider上取得了60%的成绩，不仅超过了Claude 4 Sonnet的56.4分，也超过了1月版的满血R1。

并且aider是一个接近现实软件工程任务的榜单，不是靠做题就能取胜。

△图中R1为一月份的0120满血版

体积方面，相比8bit原始版，这个1.93bit版本，文件大小降低了70%以上。

看到如此轻量级的版本能有这样的表现，连作者本人都感到震惊。

而R1-0528的满血版在aider上则是取得了71.4分，超过了不开启思考的Claude 4 Opus。

量化版R1，不用GPU也能跑

这个量化版本来自Unsloth工作室，从1.66到5.5bit，Unsloth一共制作了9个量化版本。

最小的1.66bit版，gguf文件大小仅162GB，比8bit版减小了近80%，1.93bit版也减小了70%。

按照Unsloth的说法，较小的版本没显卡也能跑，比如1.x级中间的1.78bit版本搭配64GB内存，每秒可以跑1个token。

如果放进24GB显存的显卡（比如3090），搭配128GB内存可以跑到每秒5个token。

不过Unsloth还是推荐至少180GB的统一内存，或者RAM和显存加起来超过180GB也可以，这样速度可以提到每秒5个token以上。

对于其他版本，也给出了简单的计算方式——内存和显存加起来（或统一内存）不低于下载的文件大小。

在众多版本当中，为了实现更好的大小与精度平衡，Unsloth更建议使用2.4bit和2.7bit的版本。

说完R1的这些量化版本，再来看看制作它们的Unsloth。

团队主要工作就是微调模型使其更高效运行，除了DeepSeek，阿里的Qwen、微软的Phi，还有Mistral、Llama也都被这个团队微调过。

这些模型当中，内存占用最少降低了一半，速度最少提升50%。

并且团队的GitHub仓库拥有4万多星标。

另外Unsloth这次还推出了用R1-0528蒸馏的Qwen3-8B模型，据介绍可以达到与Qwen3-235B相同的性能，并且“几乎可以适应任何配置”。

R1-0528打游戏超越o4-mini

说完量化，再看看R1本身。

一个名为Hao AI Lab的机构推出了一套让大模型玩人类游戏的评测基准Lmgame Bench，并公布了R1-0528取得的成绩。

这套基准一共包含了六款游戏——俄罗斯方块、2048、推箱子、马里奥兄弟、逆转裁判和糖果传奇。

其中，和1月的版本比较，0528在俄罗斯方块上的提升非常明显。

如果和其他家模型相比，0528的俄罗斯方块成绩超过了o4-mini，仅次于o3。

直观感受就是，四个模型同时开始游戏，而R1-0528坚持到了最后。

除了俄罗斯方块，R1-0528在推箱子、2048和糖果传奇上的表现也大幅超过1月版本，在糖果传奇中还名列前茅，仅次于最强的o3。

其中，2048、推箱子和俄罗斯方块一样，评价方法是看谁最后Game Over。

这里官方只展示了R1和Qwen的可视化对比。

而糖果传奇则是在规定的步数内看谁的得分最多，R1-0528取得了548分，领先o4-mini近20分。

你觉得R1还能挑战哪些人类游戏呢？

参考链接：
[1]https://aider.chat/docs/leaderboards/
[2]https://docs.unsloth.ai/basics/deepseek-r1-0528-how-to-run-locally
[3]https://x.com/haoailab/status/1929997363407708646

— 完 —

📪 量子位AI主题策划正在征集中！欢迎参与专题365行AI落地方案，一千零一个AI应用，或与我们分享你在寻找的AI产品，或发现的AI新动向。

💬 也欢迎你加入量子位每日AI交流群，一起来畅聊AI吧～

一键关注 👇 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

内容中包含的图片若涉及版权问题，请及时与我们联系删除

△图中R1为一月份的0120满血版

量化版R1，不用GPU也能跑

R1-0528打游戏超越o4-mini

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签