原创 青小蛙 2025-04-29 16:26 四川
喜闻乐见基准测试Qwen3 在多个权威基准测试中,与 DeepSeek-R1 和 OpenAI 的主流模型(如
喜闻乐见基准测试
Qwen3 在多个权威基准测试中,与 DeepSeek-R1 和 OpenAI 的主流模型(如O1、O3-mini)均处于同一梯队,甚至在部分任务上实现了超越。例如,Qwen3-32B 在 LiveBench 准确率等测试中超过了 OpenAI O1,同时在工具调用、指令跟随和数据格式复制等方面表现突出:
测试项目 | Qwen3-235B-A22B | Qwen3-32B | DeepSeek-R1 | OpenAI-o1 | OpenAI-o3-mini |
---|---|---|---|---|---|
ArenaHard | 95.6 | 93.8 | 93.2 | 92.1 | 89.0 |
AIME’24 (数学) | 85.7 | 81.4 | 79.8 | 74.3 | 79.6 |
AIME’25 (数学) | 81.5 | 72.9 | 70.0 | 79.2 | 74.8 |
LiveCodeBench | 70.7 | 65.7 | 64.3 | 63.9 | 66.3 |
CodeForces (编程) | 2056 | 1977 | 2029 | 1891 | 2036 |
LiveBench (综合) | 77.1 | 74.9 | 71.6 | 75.7 | 70.0 |
MultiIF (多语) | 71.9 | 73.0 | 67.7 | 48.8 | 48.4 |
来源:https://qwenlm.github.io/blog/qwen3/
喜闻乐见实测
小众软件群里的 smallpig 同学在自己的 4090 24GB 单显卡上实测,使用 Qwen3-30B-A3B 模型,实现了其他 3B 模型的速度,但是质量有 30B。
这意味着个人用户在自己家中跑可以正常使用的大模型,不再是什么大问题了。
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md
ktransformers 的结论是,通过AMX指令优化,在工作站场景(Xeon 4 + 4090)中实现了高达 347个token/s 的预填充性能。而在消费者级CPU上(14900KF),运行235B-A22并在较小的30B-A3B上提供流畅的性能。
即使在资源开销方面,高端游戏笔记本电脑似乎也能流畅地处理30B- A3B。
在讨论了AIPC的概念这么久后,终于看到了它的可行性。
没事关注一下我们 👆